טוקנים

» «

מאסימוני הטלפונים ועד עולם אבטחת מערכות מחשוב, טוקן (Token), בעברית “אסימון”, הוא מושג המשתנה בהתאם להקשר שבו הוא מוזכר. אפילו בתוך עולם המחשבים יש למושג טוקן כמה שימושים.

בלמידת מכונה, אחת הזירות המרתקות של העידן המודרני והתחום בו פועלים מודלי השפה הפופולריים של ימינו, כמו Claude או ChatGPT, לטוקנים יש משמעות אדירה.

אותם מודלים גדולים, LLMs, הם מודלים מתמטיים. כדי לבצע את המשימות שאנו מבקשים מהם, תוך כדי תקשורת איתם בשפה טבעית, כמו אנגלית, עברית וכדומה, הם משתמשים בתהליך שנקרא "טוקניזציה" (Tokenization).

במרכז הטוקניזציה נעשה פילוח של הטקסטים שהמודלים הללו מקבלים כנתונים, כדאטה, ליחידות קטנות יותר, תרגום של חלקי המידע הקטנים למספרים, כשאת יחידות המידע הללו, שהומרו למספרים, הם ינתחו בהמשך.

כך, אחרי שמסתיימת הטוקניזציה, הם מייצרים מהמידע טוקנים, מספרים שכל אחד מהם מייצג פריט מידע קטן. ה"טוקן" משמש בהם בתפקיד "אסימון למידת המכונה", שמתאר באופן מתמטי את יחידות הטקסט הקטנות. אלה מעין יחידות מידה שהמודלים המוכרים יוצרים מהקונטקסט.

לאחר שסיימו להפוך את המידע לטוקנים, מרבית המודלים שאנו מכירים הטוקנים משמשים לייצוג של הטקסט, ביחידות קטנות שהמודל מעבד בצורה מתמטית.

כשאנו משתמשים בטוקנים, זה כדי לסייע למודל להבין את המבנה של הטקסט, כך שיוכל לבצע על פיו את החישובים שלו. טוקן אחד יכול להיות כל חלק ממילה בשפה הרגילה שלנו, או אפילו תו אחד.

כדי להבין ולהגיב לקלט, המודל משתמש בכמות מסוימת של טוקנים. וטוקן יכול להיות כל פיסת מידע, מתו בודד ועד מילה שלמה ולעתים גם יותר. יש שיטות שונות של טוקניזציה והבחירה ביניהן היא בהתאם לאלגוריתם בו משתמשים. יש שהאסימון הוא לפי תווים (Character tokenization), אסימון לפי מילים, לפי משפט, ביטויים, טוקניזציה לפי מילת משנה ולפי מספר.

בשיחה על מודל AI (ה-LLM, כמו ChatGPT או Claude) משמש הטוקן לציון גודל השיחה על המודל והיקף המידע שיכול להיות בה. לכל מודל יש מגבלה של זיכרון התוכן שהוא יכול לעבד בשיחה אחת ולהתבסס עליו בתשובות שלו ובמהלך השיחה.

כל הטקסט שהמודל מכיל ובא מהקלט שמזרים לו המשתמש, כולל השאלות והתשובות וכל מידע נוסף, כל אלו מכונים "קונטקסט" (Context), כלומר "ההקשר".

חלון ההקשר (Context window), או "חלון הקונטקסט", מייצג את כמות התוכן שהמודל יכול לעבד בשיחה עם משתמש. הכמות הזו נספרת בטוקנים. אם קלוד, למשל, תומך ב-200 אלף טוקנים, זה אומר שהשיחה יכולה לכלול כ-40 אלף מילים. אם לג'מיני של גוגל יש מיליון טוקנים, זה אומר פי 5 יותר מילים וגודל חלון הקונטקסט שלה, כלומר השיחות עם ג'מיני הוא של כ-2 ספרים ממוצעים.

גם מהירויות של מודלים מודגמת לא פעם בטוקנים לשנייה. לא נדיר לראות השוואת מהירויות כמו "מודל ה-Sonar החדש של Perplexity מגיע לביצועים של עד 1200 טוקנים לשניה, בהשוואה ל-75 טוקנים לשניה בלבד של המודל Claude 3.5 Sonnet" או 140 טוקנים לשניה של Gemini 2.0 Flash של גוגל".

טוקניזציה כפי שהיא נעשית בידי מדעני נתונים:

https://youtu.be/fNxaJsNG3-s

פרמטרים וטוקנים הם לא הכל במודלים:

https://youtu.be/a1nqXQMOCks

הסבר של Machine Learning Token באנגלית:

https://youtu.be/mnqXgojQCJI

וטוקניזציה באתרי אינטרנט שיכולה לשמש בהקשר אחר כאמצעי אבטחה:

https://youtu.be/Y7I4IDojhJk

מהם ומה עושים הפרמטרים במודלי AI?

פרמטרים בלמידת מכונה (Machine Learning parameters), אם רוצים להבין מהם, אז כדאי לחשוב עליהם בתור המשתנים שקובעים את איכות ה"חשיבה" של מודל AI.

תפקידי הפרמטרים במודל שפה הם להבין הקשרים מורכבים בשפה, לחזות את המילה הבאה ברצף הטקסט שמפיק המודל ובסופו של דבר להצליח לייצר טקסט קוהרנטי (הגיוני) ומשמעותי.

אגב, במקום במילים זכרו שהטקסטים נבנים באמצעות טוקנים - ראו בתגית "טוקנים".

אבל עכשיו, אחרי שהסברנו בפשטות, הבה נפרט יותר ונרד לאיך זה נעשה: פרמטרים הם שלוכדים את הקשרים הסטטיסטיים שבין מילים ומושגי שפה שנמצאו בנתוני האימון. אפשר לדמות אותם למעין "כפתורים" בתוך המודל, שניתן לכוונם בכדי לשפר את יכולת המודל לעבד ולייצר שפה אנושית ומרשימה כל כך.

דמיינו שהידע על השפה מזוקק לתוך הפרמטרים ואז, בדומה למערכת סאונד שבה טכנאי הקול מכוונן את הכפתורים כדי להשיג את איכות הצליל הטובה ביותר, מהנדסי ה-AI מכוונים את מיליארדי הפרמטרים כדי להגיע לאיכות הגבוהה ביותר של התוצרים שהמודל ייצר.

בעצם, פרמטרים במודלים של בינה מלאכותית הם בקרי הגדרות פנימיות במודל שניתן לכוון במהלך האימון ועל ידי כך לשפר את יכולתו לעבד ולייצר שפה, תשובות ותגובות טובים יותר.

כלומר, ככל שיש במודל שפה יותר פרמטרים, גדלה גם חוכמתו ויכולתו לעשות שימוש במגוון המידע שנאגר בו. באמצעות הפרמטרים שולטים המהנדסים ברמה בה מודל AI מבין ויוצר שפה.

במהלך האימון, ערכי הפרמטרים מכוונים ומתעדכנים כדי לקודד דפוסים ממערכי הנתונים העצומים עליהם מאומנים המודלים הללו. הפרמטרים לוכדים את הקשרים הסטטיסטיים בין מילים ומושגי שפה שנמצאו בנתוני האימון. עבודה טובה איתם מאפשרת חשיבה טובה ומורכבת יותר ושימוש יותר מוצלח בידע שהמודל צבר, מה שיאפשר תגובות ותוצרים מדויקים יותר.

אגב, מספר הפרמטרים משקף בדרך כלל את גודל המודל. מודלים גדולים יותר יכולים להבין או לתפוס מורכבויות רבות יותר של שפה. מצד שני, הם גם יקרים יותר להפעלה, דורשים כוח מחשוב רב יותר ויש להם השפעה סביבתית רבה יותר, שהיא המחיר שאנו משלמים על כל ה-AI הזה.

אבל חשוב להבין שמספר הפרמטרים אינו המדד היחידי ליעילות המודל. לא פחות חשובה היא איכות הנתונים שעליהם אומן המודל. מודל קטן יותר שאומן על נתונים איכותיים יותר עשוי לבצע את המשימות טוב יותר ממודל גדול יותר שאומן על נתונים פחות מוצלחים.

כלומר, חיבור של כמות הפרמטרים, לצד איכות האימון, רמת הדאטה שעליו אומן המודל והיעילות הכוללת שלו הם המפתח ליכולות של מודל שפה.

הנה הפרמטרים במודל AI ואיך הם משתלבים בתמונה הכללית:

https://youtu.be/mnqXgojQCJI

פרמטרים וטוקנים הם לא הכל במודלים:

https://youtu.be/a1nqXQMOCks

והפרמטרים כחלק מהבינה היוצרת בכללה:

https://youtu.be/r17HV0TzAWw?long=yes

מה זה RAG בבינה מלאכותית?

בעולם הבינה המלאכותית מדברים יותר ויותר על RAG. אבל מה זה RAG בעצם?

אז RAG, ראשי תיבות של Retrieval-Augmented Generation, היא טכניקה המאפשרת למודלי AI גישה למאגרי מידע ובסיסי נתונים, בכדי לשלוף מהם מידע רלוונטי ונכון. הם עושים את זה כדי לייצר תשובות מדויקות ומבוססות נתונים עדכניים ואמיתיים.

אבל ראג (RAG) יכול גם לאפשר לקבל גישה לספריה פרטית משלנו, כלומר ליצור אוסף של מסמכים או חומרים שלנו שהמודל יחפש בו מענים ללקוחות, למשל, או למשתמשים שלכם. באמצעות האוסף הזה כדאטה יוכל מודל השפה (LLM) לענות לשאלות היטב ולתת תשובות מדויקות יותר מאשר סתם דאטה שהוא מצא פעם באינטרנט.

בניגוד לאלטרנטיבה של בזבוז משאבים יקרים על אימון מטורף ויקר של מודל שפה, כך שיהיה תמיד מעודכן וברמות הכי גבוהות, RAG מאפשר למודל AI לענות ככזה, מבלי שיצטרכו מאמניו לעשות בו את כל העבודה.

כי מודלי שפה גדולים דוגמת GPT או Claude הם מרשימים ביכולתם לג'נרט תשובות מדויקות וטקסטים משכנעים, אך הם סובלים ממגבלה ברורה - הם יודעים רק את מה שלמדו בתקופת האימון שלהם. הידע שלהם "קפא" בזמן למועד ולהיקף האימון שלהם. ומה שעוד יותר מביך הוא שהם כמעט ולא יודעים לומר כשהם אינם יודעים. לעתים, כשאין להם תשובה מדויקת, הם עונים או מייצרים מידע שגוי המתחזה לנכון - תופעה שאנו מכנים "הזיות", או בעגה המקצועית "הלוצינציות" (hallucinations), מונח טכני המתאר יצירת מידע שאינו מבוסס עובדות.

#יתרונות
RAG היא טכנולוגיה שמבטיחה שהתשובות יהיו לא רק חכמות, אלא גם נכונות. מעבר לחיסכון האדיר והברור בעלויות, לעומת בזבוז משאבים על אימון המודלים לעדכנות בזמן אמת, היתרונות של RAG לעומת מודל שפה סטנדרטי הם ברורים:

עדכניות בזמן אמת - גישה למידע חדש שלא היה קיים בזמן אימון המודל.

דיוק ואמינות - צמצום משמעותי של "הזיות".

שקיפות המקורות - אפשרות להציג למשתמש את מקורות המידע.

התאמה אישית וגמישות - יכולת להשיג ולהזין מידע ספציפי לתחום או לארגון המשתמש במודל.

בכל אלה RAG מסמן את כיוון ההתפתחות של מערכות בינה מלאכותית חכמות, מדויקות ואמינות יותר - מערכות המשלבות את היצירתיות של מודלי שפה עם הדיוק של מידע עובדתי ונכון לעכשיו ובזמינות של 24/7.

#אז איך עובד RAG?
דמיינו ספרן וירטואלי שעומד לצד מודל AI ומספק לו את המסמכים הרלוונטיים והמעודכנים בדיוק ברגע שהוא נזקק להם. זוהי מהותה של טכנולוגיית RAG - היא יודעת ומביאה את המידע המעודכן והמדויק לכל שאלה שנשאל מודל הבינה המלאכותית ומאפשרת לו לדייק בתשובותיו, גם בשאלות שלא עוסקות במידע שעליו הוא מאומן ומעודכן.

טכנית, RAG פותר את הבעיה בתהליך מובנה של שלושה שלבים:
1. קבלת השאלה מהמודל על ידי מערכת ה-RAG.
2. שליפה (Retrieval) - סריקת מסמכים פנימיים או דוחות פנימיים של הארגון או של מאגרי המידע החיצוניים והרלוונטיים על ידי מנגנון האחזור, זיהוי המידע הנדרש באתרים, מסמכים, או בסיסי נתונים ארגוניים והעברתו למודל.
3. יצירה (Generation) - שילוב המידע שנאסף עם הידע הכללי של מודל השפה לכדי תשובה קוהרנטית, כלומר הגיונית ומושלמת, בצורה של שיחה טבעית.

#דוגמאות
בארגון פיננסי למשל, מערכת RAG יכולה לשלוף מידע מעודכן מדוחות רבעוניים, תקנות רגולטוריות חדשות ונתוני שוק בזמן אמת כדי לענות על שאלה ספציפית של משקיע.

בעסק או חברה מערכת RAG יכולה לשלוף מדוחות פנימיים של הארגון, ממאגרי התמיכה או המסמכים הפנימיים ולתת מענה מבוסס ללקוחות ולעובדים.

באוניברסיטאות החוקרים משתמשים ב-RAG כדי לאפשר למודלים לגשת למאמרים מדעיים עדכניים בתחום הרפואה, מה שמאפשר ייעוץ מבוסס על מחקרים חדשניים שלא היו זמינים בעת אימון המודל.

חברת רפואה יכולה להטמיע RAG כדי לספק מענה מדויק לשאלות על טיפולים חדשניים, תוך שילוב מחקרים עדכניים עם ידע רפואי מוסמך.

במערכת המשפט, RAG יכול לסייע בניתוח תקדימים משפטיים, תוך שליפת פסקי דין רלוונטיים וחוקים עדכניים לסוגיה ספציפית.

#האתגרים
ההטמעה של טכנולוגיות RAG היא לא פשוטה ואף מורכבת מבחינה טכנית, הן בבחירת אלגוריתם האחזור המתאים, דרך ניהול מאגרי מידע גדולים, תחזוקה של מידע עדכני, שאלות של פרטיות כשמדובר במסמכים רגישים ועוד.

כמו כן, גם איכות התשובות תלויה באיכות מקורות המידע, כאשר מהנדסי המידע זוכרים תמיד את העיקרון שתקף גם כאן - "זבל נכנס, זבל יוצא".

הנה ה-RAG בהסבר פשוט ומרהיב:

https://youtu.be/zX4cL6n5UzY

כך עושים את זה:

https://youtu.be/tKPSmn-urB4

הסבר חופר:

https://youtu.be/u47GtXwePms

ומדריך לבניית מאגר ידע שיהפוך ל-RAG מוצלח יותר (עברית):

https://youtu.be/JNUEKEDGi20?long=yes

טוקנים

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!