» «

טוקנים

טוקנים
מהם טוקנים ב-AI ולמידת מכונה?



מאסימוני הטלפונים ועד עולם אבטחת מערכות מחשוב, טוקן (Token), בעברית “אסימון”, הוא מושג המשתנה בהתאם להקשר שבו הוא מוזכר. אפילו בתוך עולם המחשבים יש למושג טוקן כמה שימושים.

בלמידת מכונה, אחת הזירות המרתקות של העידן המודרני והתחום בו פועלים המודלים הפופולריים של ימינו, כמו Claude או ChatGPT, לטוקנים יש משמעות אדירה.

אותם מודלים גדולים, LLMים, הם מודלים מתמטיים. כדי לבצע את המשימות שאנו מבקשים מהם, תוך כדי תקשורת איתם בשפה טבעית, כמו אנגלית, עברית וכדומה, הם משתמשים בתהליך שנקרא "טוקניזציה".

במרכז הטוקניזציה נעשה פילוח של הטקסטים שהמודלים הללו מקבלים כנתונים, כדאטה, ליחידות קטנות יותר, תרגום של חלקי המידע הקטנים למספרים, כשאת יחידות המידע הללו, שהומרו למספרים, הם ינתחו בהמשך.

כך, אחרי שמסתיימת הטוקניזציה, הם מייצרים מהמידע טוקנים, מספרים שכל אחד מהם מייצג פריט מידע קטן. ה"טוקן" משמש בהם בתפקיד "אסימון למידת המכונה", שמתאר באופן מתמטי את יחידות הטקסט הקטנות. אלה מעין יחידות מידה שהמודלים המוכרים יוצרים מהקונטקסט.

לאחר שסיימו להפוך את המידע לטוקנים, מרבית המודלים שאנו מכירים הטוקנים משמשים לייצוג של הטקסט, ביחידות קטנות שהמודל מעבד בצורה מתמטית.

כשאנו משתמשים בטוקנים, זה כדי לסייע למודל להבין את המבנה של הטקסט, כך שיוכל לבצע על פיו את החישובים שלו. טוקן אחד יכול להיות כל חלק ממילה בשפה הרגילה שלנו, או אפילו תו אחד.

כדי להבין ולהגיב לקלט, המודל משתמש בכמות מסוימת של טוקנים. וטוקן יכול להיות כל פיסת מידע, מתו בודד ועד מילה שלמה ולעתים גם יותר. יש שיטות שונות של טוקניזציה והבחירה ביניהן היא בהתאם לאלגוריתם בו משתמשים. יש שהאסימון הוא לפי תווים (Character tokenization), אסימון לפי מילים, לפי משפט, ביטויים, טוקניזציה לפי מילת משנה ולפי מספר.

בשיחה על מודל AI (ה-LLM, כמו ChatGPT או Claude) משמש הטוקן לציון גודל השיחה על המודל והיקף המידע שיכול להיות בה. לכל מודל יש מגבלה של זיכרון התוכן שהוא יכול לעבד בשיחה אחת ולהתבסס עליו בתשובות שלו ובמהלך השיחה.

כל הטקסט שהמודל מכיל ובא מהקלט שמזרים לו המשתמש, כולל השאלות והתשובות וכל מידע נוסף, כל אלו מכונים "קונטקסט" (Context), כלומר "ההקשר".

חלון ההקשר (context window), או "חלון הקונטקסט", מייצג את כמות התוכן שהמודל יכול לעבד בשיחה עם משתמש. הכמות הזו נספרת בטוקנים. אם קלוד, למשל, תומך ב-200 אלף טוקנים, זה אומר שהשיחה יכולה לכלול כ-40 אלף מילים. אם לג'מיני של גוגל יש מיליון טוקנים, זה אומר פי 5 יותר מילים וגודל חלון הקונטקסט שלה, כלומר השיחות עם ג'מיני הוא של כ-2 ספרים ממוצעים.


טוקניזציה כפי שהיא נעשית בידי מדעני נתונים:

https://youtu.be/fNxaJsNG3-s


פרמטרים וטוקנים הם לא הכל במודלים:

https://youtu.be/a1nqXQMOCks


הסבר של Machine Learning Token באנגלית:

https://youtu.be/mnqXgojQCJI


וטוקניזציה באתרי אינטרנט שיכולה לשמש בהקשר אחר כאמצעי אבטחה:

https://youtu.be/Y7I4IDojhJk


אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

העולם הוא צבעוני ומופלא, אאוריקה כאן בשביל שתגלו אותו...

אלפי נושאים, תמונות וסרטונים, מפתיעים, מסקרנים וממוקדים.

ניתן לנווט בין הפריטים במגע, בעכבר, בגלגלת, או במקשי המקלדת

בואו לגלות, לחקור, ולקבל השראה!

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

שלום,
נראה שכבר הכרתם את אאוריקה. בטח כבר גיליתם כאן דברים מדהימים, אולי כבר שאלתם שאלות וקיבלתם תשובות טובות.
נשמח לראות משהו מכם בספר האורחים שלנו: איזו מילה טובה, חוות דעת, עצה חכמה לשיפור או כל מה שיש לכם לספר לנו על אאוריקה, כפי שאתם חווים אותה.