שלום,
נראה שכבר הכרתם את אאוריקה. בטח כבר גיליתם כאן דברים מדהימים, אולי כבר שאלתם שאלות וקיבלתם תשובות טובות.
נשמח לראות משהו מכם בספר האורחים שלנו: איזו מילה טובה, חוות דעת, עצה חכמה לשיפור או כל מה שיש לכם לספר לנו על אאוריקה, כפי שאתם חווים אותה.
»
«
איי אי אייג'נטס
מהם סוכני AI ומה הם עושים?
במשפט אחד נאמר שסוכן AI ממיר את הידע של כיצד לעשות דברים ליכולות לעשות אותם ולעשייה ממוקדת וספציפית בפועל.
בשנת 2024 התחילה תעשיית ה-AI במרוץ לפיתוח "סוכנים חכמים" (AI agents) או "סוכני AI" בשמם הפופולרי (LLM Agents). מובילי הטכנולוגיה חוזים שהאייג'נטים הללו יהיו התוכנות החדשות ושהעולם יהיה מלא בהם.
סוכן ה-AI הוא המשך של הצ'טבוטים הוותיקים והעוזרים החכמים שעזרו לנו בעשור השני של המאה ה-21. הוא הופך את האינטליגנציה של הבינה המלאכותית לפעולה וליכולות ביצוע. הוא מבין את ההוראות שלך, מעבד את המידע הזה ומספקים את מה שביקשת - תשובה, פתרון, הסבר או עזרה בהשלמת משימה.
ברגע שהוא מוגדר היטב ומצויד בכלי ה-AI המתאימים, הסוכן החכם מטפל במשימות באופן מושכל ומדויק ומשחרר את המשתמשים להתמקד בענייניהם.
המשימה תבוצע, בהתחייבות של AI. זו מהפכה שעומדת להיות מהפכה מטורפת. אבל מיהם אותם סוכנים ומה בדיוק הם מאומנים ויכולים לעשות בשבילנו?
#מה זה סוכן AI?
אם AI באנגלית הוא ראשי התיבות של בינה מלאכותית, צריך להבין שבינה מלאכותית לכשעצמה היא מוח גולמי עם ים של פוטנציאל. אבל עד שלא נשאל אותה, עד שלא נבקש ממנה לעשות משהו ספציפי, ניתן לה תפקיד או משימה, היא לא תהיה ממש שימושית.
וזו בדיוק המשמעות של סוכן חכם, או סוכן AI. אם בינה מלאכותית היא גאון עם המון יכולת, אך כזה שהוא "ראש קטן", סוכן AI הוא ביצועיסט, סוג של בינה מעשית שבאמת נותנת עבודה, אבל יש לה יכולות מסוימות ורק אותן.
במילים פשוטות, האייג'נט עם ה-AI הוא עוזר וירטואלי חכם שמסוגל לבצע בעצמו משימות ספציפיות, תוך שימוש יעיל ביכולות הבינה המלאכותית. כמו ששעון מעורר יכול להעיר אותנו בבוקר, סוכן AI יכול לבדוק את המיילים שלנו, לתכנן לנו טיול בחו"ל, למצוא לנו בדיחות או אפילו לנגן לנו מוסיקה לפי מצב הרוח שלנו.
כלומר, בזמן שבינה מלאכותית עניינה להיות חכמה נורא ולדעת הכל, הסוכן החכם עם ה-AI הוא הגרסה המעשית. הוא זה שמבצע משימות מוגדרות ומבצע היטב. אפשר לדמות אותו למישהו מוכשר שמתגייס לצבא ואחרי שאומן לביצוע משימות מסוימות, הוא ממתין לפקודות. רק כשהוא מקבל פקודה או משימה, הוא "עושה את מה שצריך" ומבצע וממלא את ההוראות.
#איך הם עושים זאת?
התשובה הכי קצרה היא: באמצעות ביצוע של משימות בצורה חכמה, עצמאית ויעילה.
סוכני AI מאומנים ומצוידים, כך שהם יידעו כיצד להגיב הכי טוב לדרישות, למצבים ולצרכים שונים. הם מבצעים את המבוקש מהם, לאחר שקיבלו הוראות מפורטות וגם נתונים שהם צריכים לקבל או לאתר.
סוכנים מצוידי AI נבנו כך שיהיו מסוגלים להבין דרישות, לחוש את המשתמש, לפרש נתונים, להבין את הסביבה, לקבל החלטות מושכלות ולבצע פעולות מורכבות יחסית - עד שיצליחו להשיג את המטרות שהוגדרו מראש.
כך מצליחים סוכני בינה מלאכותית כאלו להגביר את היעילות שלהם עבורנו, בני האדם. הם עושים זאת למשל, על ידי אוטומציה של משימות שגרתיות שמוטלות עלינו, מה שנקרא לא פעם "עבודה שחורה".
בכך מאפשרים הסוכנים הבינתיים הללו לעובדים האנושיים שאנחנו, להתרכז באסטרטגיה ויצירתיות.
מודלי השפה הרחבים (LLMs) שבהם הם מצוידים מאפשרים לאייג'נטים הללו לבצע משימות בצורה עצמאית ויעילה. עוד משולבים בהם מודלים מתקדמים לעיבוד שפה טבעית, מה שמאפשר להם להבין פרומפטים, הוראות, הנחיות וטקסטים בכתיבה טבעית. תוך יישום של טכניקות ניתוח מתקדמות כמו "העץ המחשבה" או "שרשרת המחשבה" וביחד עם טכניקות ויכולות של למידת מכונה, הם יכולים להציע ביצועים מדהימים.
הסוכנים הללו משפרים את הפרודוקטיביות, מפחיתים טעויות ומאפשרים שיתוף. חלקם ממלאים משימות מוגדרות מראש, אחרים עונים על שאלות, יש היכולים לתקשר בקול אנושי ולנהל שיחה רגילה. לעתים הם מתוכנתים לנהוג ולחשוב כאילו הם פקיד, מזכירה, מנהל חשבונות, מדענית, סוכן נסיעות או תחקירן - רבים מהם ספציפיים וממלאים משימה אחת היטב ואחרים ממלאים מגוון של משימות ואפילו בו-זמנית.
ההבנה היא שבאמצעות יכולת ניתוח של נתונים מורכבים ויכולת למידה מתמשכת הסוכנים החכמים הללו ימשיכו לפעול ולצבור ניסיון, תוך שהם הופכים ומתחדדים, לכלים נבונים ובעלי ביצועים טובים יותר ויותר.
#איך עובדים איתם?
אתם נכנסים לסוכן אינטליגנטי שאתם יודעים שמבצע משימה מסוימת ונותנים לו הוראות. מצידו, תהליך העבודה מתחיל בקבלת המטרה המוגדרת שנתתם לו. הוא מפתח במהירות הבזק תוכנית פעולה, בוחר את הכלים המתאימים לביצוע של המשימה שלא פעם הוא יפרק למשימות משנה וכאן מגיע ביצוע המשימות בפועל והערכה של התוצאות.
הכל מתבצע בצורה אוטונומית, מבלי להיעזר בכם. בדרך כלל הסוכן מסתמך על נתונים והקשרים שנאספו במהלך ה"שיחות" הקודמות שלכם ו"לומד אתכם" ומה הציפיות שלכם ממנו.
כי אחת התכונות החשובות של סוכני AI נעוצה ביכולת שלהם ללמוד ולהשתפר לאורך זמן. הם מנתחים כל הזמן את תגובותיכם והפעולות שלכם, לומדים מהמשוב שקיבלו מכם ומבצעים התאמות שישפרו את הביצועים שלהם. כך יכולים סוכני AI להתפתח ולהתאים את עצמם לצרכים המשתנים שלכם ולהגיב טוב ומדויק יותר למגוון רחב של צרכים וסיטואציות.
הסוכן AI מגיש לכם את התוצאות ואתם מוזמנים להמשיך ולנהל איתו דיאלוג. אפשר לבקש ממנו הרחבות ושיפורים. תוכלו גם להכניס שינויים בבקשה המקורית או עדכונים, להטיל עליו לבצע פעולות שישפרו את הדיוק למה שיתאים לצרכים שלכם וכך הלאה.
#דוגמאות?
האפשרויות כמעט אינסופיות. כבר היום יש סוכנים חכמים רבים. יש מהם שיכולים לבצע חישובים, לחפש באינטרנט, להבין תמונות, לנתח מסמכים מורכבים, לגשת למאגרי מידע ולהפעיל המון כלים נוספים.
יש סוכנים שנותנים תשובות על שאלות בתחומים שונים כמו משפטים או מיסים, אחרים בונים תכנית טיול שמותאמת לבקשותינו ולכלל המשתנים, יש שמזמינים כרטיסים להופעות או מקומות במסעדות, אחרים מנסחים טקסטים וכדומה.
יש מהם שמבצעים אוטומציות שעושות בשבילך את העבודה, ממיינות את המיילים או מטפלות ב-To do list, כלומר ניהול המשימות האישי ועוד.
סוכני AI ייעודיים אחרים מפיקים טקסטים מותאמים אישית, למטרות כמו אימיילים, דו"חות, קורות חיים וחומרי שיווק. יכולותיהם מתגלות במיטבן כשהם מצליחים להתאים את רמת האוטונומיה שלהם, בהתאם לצרכים של המשתמשים ומטרותיהם.
הנה הסבר על סוכני AI:
https://youtu.be/wazHMMaiDEA
הבשלת היכולות של סוכנים חכמים מצוידי AI היא תוצאה של שנות התפתחות רבות:
https://youtu.be/WftLJZw6Cf8
צריך לתת סיכוי לסוכני AI חכמים (מתורגם):
https://youtu.be/xq8Ws1jyBX4
סוכן AI לפיתוח כלי תוכנה ואפליקציות רשת:
https://youtu.be/Wvyc2E6OHm8
הצ'טבוט המתקדם של Open AI שמשמש מתורגמן:
https://youtu.be/c2DFg53Zhvw
הכירו את ה-Projects של קלוד לבניית ושימוש בסוכני AI (עברית):
https://youtu.be/8mWR1r28ia4
הנה הסבר מקיף של סוכני ה-AI החדשים:
https://youtu.be/S9dc0y_Zesc?long=yes
והדגמת GPT 4o שהופך לסוכן AI ומסוגל לעשות פעולות שונות בשירותך:
https://youtu.be/DrKkKLEditU?long=yes
במשפט אחד נאמר שסוכן AI ממיר את הידע של כיצד לעשות דברים ליכולות לעשות אותם ולעשייה ממוקדת וספציפית בפועל.
בשנת 2024 התחילה תעשיית ה-AI במרוץ לפיתוח "סוכנים חכמים" (AI agents) או "סוכני AI" בשמם הפופולרי (LLM Agents). מובילי הטכנולוגיה חוזים שהאייג'נטים הללו יהיו התוכנות החדשות ושהעולם יהיה מלא בהם.
סוכן ה-AI הוא המשך של הצ'טבוטים הוותיקים והעוזרים החכמים שעזרו לנו בעשור השני של המאה ה-21. הוא הופך את האינטליגנציה של הבינה המלאכותית לפעולה וליכולות ביצוע. הוא מבין את ההוראות שלך, מעבד את המידע הזה ומספקים את מה שביקשת - תשובה, פתרון, הסבר או עזרה בהשלמת משימה.
ברגע שהוא מוגדר היטב ומצויד בכלי ה-AI המתאימים, הסוכן החכם מטפל במשימות באופן מושכל ומדויק ומשחרר את המשתמשים להתמקד בענייניהם.
המשימה תבוצע, בהתחייבות של AI. זו מהפכה שעומדת להיות מהפכה מטורפת. אבל מיהם אותם סוכנים ומה בדיוק הם מאומנים ויכולים לעשות בשבילנו?
#מה זה סוכן AI?
אם AI באנגלית הוא ראשי התיבות של בינה מלאכותית, צריך להבין שבינה מלאכותית לכשעצמה היא מוח גולמי עם ים של פוטנציאל. אבל עד שלא נשאל אותה, עד שלא נבקש ממנה לעשות משהו ספציפי, ניתן לה תפקיד או משימה, היא לא תהיה ממש שימושית.
וזו בדיוק המשמעות של סוכן חכם, או סוכן AI. אם בינה מלאכותית היא גאון עם המון יכולת, אך כזה שהוא "ראש קטן", סוכן AI הוא ביצועיסט, סוג של בינה מעשית שבאמת נותנת עבודה, אבל יש לה יכולות מסוימות ורק אותן.
במילים פשוטות, האייג'נט עם ה-AI הוא עוזר וירטואלי חכם שמסוגל לבצע בעצמו משימות ספציפיות, תוך שימוש יעיל ביכולות הבינה המלאכותית. כמו ששעון מעורר יכול להעיר אותנו בבוקר, סוכן AI יכול לבדוק את המיילים שלנו, לתכנן לנו טיול בחו"ל, למצוא לנו בדיחות או אפילו לנגן לנו מוסיקה לפי מצב הרוח שלנו.
כלומר, בזמן שבינה מלאכותית עניינה להיות חכמה נורא ולדעת הכל, הסוכן החכם עם ה-AI הוא הגרסה המעשית. הוא זה שמבצע משימות מוגדרות ומבצע היטב. אפשר לדמות אותו למישהו מוכשר שמתגייס לצבא ואחרי שאומן לביצוע משימות מסוימות, הוא ממתין לפקודות. רק כשהוא מקבל פקודה או משימה, הוא "עושה את מה שצריך" ומבצע וממלא את ההוראות.
#איך הם עושים זאת?
התשובה הכי קצרה היא: באמצעות ביצוע של משימות בצורה חכמה, עצמאית ויעילה.
סוכני AI מאומנים ומצוידים, כך שהם יידעו כיצד להגיב הכי טוב לדרישות, למצבים ולצרכים שונים. הם מבצעים את המבוקש מהם, לאחר שקיבלו הוראות מפורטות וגם נתונים שהם צריכים לקבל או לאתר.
סוכנים מצוידי AI נבנו כך שיהיו מסוגלים להבין דרישות, לחוש את המשתמש, לפרש נתונים, להבין את הסביבה, לקבל החלטות מושכלות ולבצע פעולות מורכבות יחסית - עד שיצליחו להשיג את המטרות שהוגדרו מראש.
כך מצליחים סוכני בינה מלאכותית כאלו להגביר את היעילות שלהם עבורנו, בני האדם. הם עושים זאת למשל, על ידי אוטומציה של משימות שגרתיות שמוטלות עלינו, מה שנקרא לא פעם "עבודה שחורה".
בכך מאפשרים הסוכנים הבינתיים הללו לעובדים האנושיים שאנחנו, להתרכז באסטרטגיה ויצירתיות.
מודלי השפה הרחבים (LLMs) שבהם הם מצוידים מאפשרים לאייג'נטים הללו לבצע משימות בצורה עצמאית ויעילה. עוד משולבים בהם מודלים מתקדמים לעיבוד שפה טבעית, מה שמאפשר להם להבין פרומפטים, הוראות, הנחיות וטקסטים בכתיבה טבעית. תוך יישום של טכניקות ניתוח מתקדמות כמו "העץ המחשבה" או "שרשרת המחשבה" וביחד עם טכניקות ויכולות של למידת מכונה, הם יכולים להציע ביצועים מדהימים.
הסוכנים הללו משפרים את הפרודוקטיביות, מפחיתים טעויות ומאפשרים שיתוף. חלקם ממלאים משימות מוגדרות מראש, אחרים עונים על שאלות, יש היכולים לתקשר בקול אנושי ולנהל שיחה רגילה. לעתים הם מתוכנתים לנהוג ולחשוב כאילו הם פקיד, מזכירה, מנהל חשבונות, מדענית, סוכן נסיעות או תחקירן - רבים מהם ספציפיים וממלאים משימה אחת היטב ואחרים ממלאים מגוון של משימות ואפילו בו-זמנית.
ההבנה היא שבאמצעות יכולת ניתוח של נתונים מורכבים ויכולת למידה מתמשכת הסוכנים החכמים הללו ימשיכו לפעול ולצבור ניסיון, תוך שהם הופכים ומתחדדים, לכלים נבונים ובעלי ביצועים טובים יותר ויותר.
#איך עובדים איתם?
אתם נכנסים לסוכן אינטליגנטי שאתם יודעים שמבצע משימה מסוימת ונותנים לו הוראות. מצידו, תהליך העבודה מתחיל בקבלת המטרה המוגדרת שנתתם לו. הוא מפתח במהירות הבזק תוכנית פעולה, בוחר את הכלים המתאימים לביצוע של המשימה שלא פעם הוא יפרק למשימות משנה וכאן מגיע ביצוע המשימות בפועל והערכה של התוצאות.
הכל מתבצע בצורה אוטונומית, מבלי להיעזר בכם. בדרך כלל הסוכן מסתמך על נתונים והקשרים שנאספו במהלך ה"שיחות" הקודמות שלכם ו"לומד אתכם" ומה הציפיות שלכם ממנו.
כי אחת התכונות החשובות של סוכני AI נעוצה ביכולת שלהם ללמוד ולהשתפר לאורך זמן. הם מנתחים כל הזמן את תגובותיכם והפעולות שלכם, לומדים מהמשוב שקיבלו מכם ומבצעים התאמות שישפרו את הביצועים שלהם. כך יכולים סוכני AI להתפתח ולהתאים את עצמם לצרכים המשתנים שלכם ולהגיב טוב ומדויק יותר למגוון רחב של צרכים וסיטואציות.
הסוכן AI מגיש לכם את התוצאות ואתם מוזמנים להמשיך ולנהל איתו דיאלוג. אפשר לבקש ממנו הרחבות ושיפורים. תוכלו גם להכניס שינויים בבקשה המקורית או עדכונים, להטיל עליו לבצע פעולות שישפרו את הדיוק למה שיתאים לצרכים שלכם וכך הלאה.
#דוגמאות?
האפשרויות כמעט אינסופיות. כבר היום יש סוכנים חכמים רבים. יש מהם שיכולים לבצע חישובים, לחפש באינטרנט, להבין תמונות, לנתח מסמכים מורכבים, לגשת למאגרי מידע ולהפעיל המון כלים נוספים.
יש סוכנים שנותנים תשובות על שאלות בתחומים שונים כמו משפטים או מיסים, אחרים בונים תכנית טיול שמותאמת לבקשותינו ולכלל המשתנים, יש שמזמינים כרטיסים להופעות או מקומות במסעדות, אחרים מנסחים טקסטים וכדומה.
יש מהם שמבצעים אוטומציות שעושות בשבילך את העבודה, ממיינות את המיילים או מטפלות ב-To do list, כלומר ניהול המשימות האישי ועוד.
סוכני AI ייעודיים אחרים מפיקים טקסטים מותאמים אישית, למטרות כמו אימיילים, דו"חות, קורות חיים וחומרי שיווק. יכולותיהם מתגלות במיטבן כשהם מצליחים להתאים את רמת האוטונומיה שלהם, בהתאם לצרכים של המשתמשים ומטרותיהם.
הנה הסבר על סוכני AI:
https://youtu.be/wazHMMaiDEA
הבשלת היכולות של סוכנים חכמים מצוידי AI היא תוצאה של שנות התפתחות רבות:
https://youtu.be/WftLJZw6Cf8
צריך לתת סיכוי לסוכני AI חכמים (מתורגם):
https://youtu.be/xq8Ws1jyBX4
סוכן AI לפיתוח כלי תוכנה ואפליקציות רשת:
https://youtu.be/Wvyc2E6OHm8
הצ'טבוט המתקדם של Open AI שמשמש מתורגמן:
https://youtu.be/c2DFg53Zhvw
הכירו את ה-Projects של קלוד לבניית ושימוש בסוכני AI (עברית):
https://youtu.be/8mWR1r28ia4
הנה הסבר מקיף של סוכני ה-AI החדשים:
https://youtu.be/S9dc0y_Zesc?long=yes
והדגמת GPT 4o שהופך לסוכן AI ומסוגל לעשות פעולות שונות בשירותך:
https://youtu.be/DrKkKLEditU?long=yes
מהם טוקנים ב-AI ולמידת מכונה?
מאסימוני הטלפונים ועד עולם אבטחת מערכות מחשוב, טוקן (Token), בעברית “אסימון”, הוא מושג המשתנה בהתאם להקשר שבו הוא מוזכר. אפילו בתוך עולם המחשבים יש למושג טוקן כמה שימושים.
בלמידת מכונה, אחת הזירות המרתקות של העידן המודרני והתחום בו פועלים המודלים הפופולריים של ימינו, כמו Claude או ChatGPT, לטוקנים יש משמעות אדירה.
אותם מודלים גדולים, LLMים, הם מודלים מתמטיים. כדי לבצע את המשימות שאנו מבקשים מהם, תוך כדי תקשורת איתם בשפה טבעית, כמו אנגלית, עברית וכדומה, הם משתמשים בתהליך שנקרא "טוקניזציה".
במרכז הטוקניזציה נעשה פילוח של הטקסטים שהמודלים הללו מקבלים כנתונים, כדאטה, ליחידות קטנות יותר, תרגום של חלקי המידע הקטנים למספרים, כשאת יחידות המידע הללו, שהומרו למספרים, הם ינתחו בהמשך.
כך, אחרי שמסתיימת הטוקניזציה, הם מייצרים מהמידע טוקנים, מספרים שכל אחד מהם מייצג פריט מידע קטן. ה"טוקן" משמש בהם בתפקיד "אסימון למידת המכונה", שמתאר באופן מתמטי את יחידות הטקסט הקטנות. אלה מעין יחידות מידה שהמודלים המוכרים יוצרים מהקונטקסט.
לאחר שסיימו להפוך את המידע לטוקנים, מרבית המודלים שאנו מכירים הטוקנים משמשים לייצוג של הטקסט, ביחידות קטנות שהמודל מעבד בצורה מתמטית.
כשאנו משתמשים בטוקנים, זה כדי לסייע למודל להבין את המבנה של הטקסט, כך שיוכל לבצע על פיו את החישובים שלו. טוקן אחד יכול להיות כל חלק ממילה בשפה הרגילה שלנו, או אפילו תו אחד.
כדי להבין ולהגיב לקלט, המודל משתמש בכמות מסוימת של טוקנים. וטוקן יכול להיות כל פיסת מידע, מתו בודד ועד מילה שלמה ולעתים גם יותר. יש שיטות שונות של טוקניזציה והבחירה ביניהן היא בהתאם לאלגוריתם בו משתמשים. יש שהאסימון הוא לפי תווים (Character tokenization), אסימון לפי מילים, לפי משפט, ביטויים, טוקניזציה לפי מילת משנה ולפי מספר.
בשיחה על מודל AI (ה-LLM, כמו ChatGPT או Claude) משמש הטוקן לציון גודל השיחה על המודל והיקף המידע שיכול להיות בה. לכל מודל יש מגבלה של זיכרון התוכן שהוא יכול לעבד בשיחה אחת ולהתבסס עליו בתשובות שלו ובמהלך השיחה.
כל הטקסט שהמודל מכיל ובא מהקלט שמזרים לו המשתמש, כולל השאלות והתשובות וכל מידע נוסף, כל אלו מכונים "קונטקסט" (Context), כלומר "ההקשר".
חלון ההקשר (context window), או "חלון הקונטקסט", מייצג את כמות התוכן שהמודל יכול לעבד בשיחה עם משתמש. הכמות הזו נספרת בטוקנים. אם קלוד, למשל, תומך ב-200 אלף טוקנים, זה אומר שהשיחה יכולה לכלול כ-40 אלף מילים. אם לג'מיני של גוגל יש מיליון טוקנים, זה אומר פי 5 יותר מילים וגודל חלון הקונטקסט שלה, כלומר השיחות עם ג'מיני הוא של כ-2 ספרים ממוצעים.
טוקניזציה כפי שהיא נעשית בידי מדעני נתונים:
https://youtu.be/fNxaJsNG3-s
פרמטרים וטוקנים הם לא הכל במודלים:
https://youtu.be/a1nqXQMOCks
הסבר של Machine Learning Token באנגלית:
https://youtu.be/mnqXgojQCJI
וטוקניזציה באתרי אינטרנט שיכולה לשמש בהקשר אחר כאמצעי אבטחה:
https://youtu.be/Y7I4IDojhJk
מאסימוני הטלפונים ועד עולם אבטחת מערכות מחשוב, טוקן (Token), בעברית “אסימון”, הוא מושג המשתנה בהתאם להקשר שבו הוא מוזכר. אפילו בתוך עולם המחשבים יש למושג טוקן כמה שימושים.
בלמידת מכונה, אחת הזירות המרתקות של העידן המודרני והתחום בו פועלים המודלים הפופולריים של ימינו, כמו Claude או ChatGPT, לטוקנים יש משמעות אדירה.
אותם מודלים גדולים, LLMים, הם מודלים מתמטיים. כדי לבצע את המשימות שאנו מבקשים מהם, תוך כדי תקשורת איתם בשפה טבעית, כמו אנגלית, עברית וכדומה, הם משתמשים בתהליך שנקרא "טוקניזציה".
במרכז הטוקניזציה נעשה פילוח של הטקסטים שהמודלים הללו מקבלים כנתונים, כדאטה, ליחידות קטנות יותר, תרגום של חלקי המידע הקטנים למספרים, כשאת יחידות המידע הללו, שהומרו למספרים, הם ינתחו בהמשך.
כך, אחרי שמסתיימת הטוקניזציה, הם מייצרים מהמידע טוקנים, מספרים שכל אחד מהם מייצג פריט מידע קטן. ה"טוקן" משמש בהם בתפקיד "אסימון למידת המכונה", שמתאר באופן מתמטי את יחידות הטקסט הקטנות. אלה מעין יחידות מידה שהמודלים המוכרים יוצרים מהקונטקסט.
לאחר שסיימו להפוך את המידע לטוקנים, מרבית המודלים שאנו מכירים הטוקנים משמשים לייצוג של הטקסט, ביחידות קטנות שהמודל מעבד בצורה מתמטית.
כשאנו משתמשים בטוקנים, זה כדי לסייע למודל להבין את המבנה של הטקסט, כך שיוכל לבצע על פיו את החישובים שלו. טוקן אחד יכול להיות כל חלק ממילה בשפה הרגילה שלנו, או אפילו תו אחד.
כדי להבין ולהגיב לקלט, המודל משתמש בכמות מסוימת של טוקנים. וטוקן יכול להיות כל פיסת מידע, מתו בודד ועד מילה שלמה ולעתים גם יותר. יש שיטות שונות של טוקניזציה והבחירה ביניהן היא בהתאם לאלגוריתם בו משתמשים. יש שהאסימון הוא לפי תווים (Character tokenization), אסימון לפי מילים, לפי משפט, ביטויים, טוקניזציה לפי מילת משנה ולפי מספר.
בשיחה על מודל AI (ה-LLM, כמו ChatGPT או Claude) משמש הטוקן לציון גודל השיחה על המודל והיקף המידע שיכול להיות בה. לכל מודל יש מגבלה של זיכרון התוכן שהוא יכול לעבד בשיחה אחת ולהתבסס עליו בתשובות שלו ובמהלך השיחה.
כל הטקסט שהמודל מכיל ובא מהקלט שמזרים לו המשתמש, כולל השאלות והתשובות וכל מידע נוסף, כל אלו מכונים "קונטקסט" (Context), כלומר "ההקשר".
חלון ההקשר (context window), או "חלון הקונטקסט", מייצג את כמות התוכן שהמודל יכול לעבד בשיחה עם משתמש. הכמות הזו נספרת בטוקנים. אם קלוד, למשל, תומך ב-200 אלף טוקנים, זה אומר שהשיחה יכולה לכלול כ-40 אלף מילים. אם לג'מיני של גוגל יש מיליון טוקנים, זה אומר פי 5 יותר מילים וגודל חלון הקונטקסט שלה, כלומר השיחות עם ג'מיני הוא של כ-2 ספרים ממוצעים.
טוקניזציה כפי שהיא נעשית בידי מדעני נתונים:
https://youtu.be/fNxaJsNG3-s
פרמטרים וטוקנים הם לא הכל במודלים:
https://youtu.be/a1nqXQMOCks
הסבר של Machine Learning Token באנגלית:
https://youtu.be/mnqXgojQCJI
וטוקניזציה באתרי אינטרנט שיכולה לשמש בהקשר אחר כאמצעי אבטחה:
https://youtu.be/Y7I4IDojhJk