שלום,
נראה שכבר הכרתם את אאוריקה. בטח כבר גיליתם כאן דברים מדהימים, אולי כבר שאלתם שאלות וקיבלתם תשובות טובות.
נשמח לראות משהו מכם בספר האורחים שלנו: איזו מילה טובה, חוות דעת, עצה חכמה לשיפור או כל מה שיש לכם לספר לנו על אאוריקה, כפי שאתם חווים אותה.
»
«
מהם מודלי שפה גדולים, או LLM?
מודל שפה גדול (LLM), קיצור של Large Language Model, הוא ה"מוח" שמפעיל צ'אטבוט עוצמתי, כמו הצ'אטבוט ChatGPT, המייצר תוכן לבקשת המשתמשים ועושה זאת באמצעות מודל השפה הגדול GPT-4.
את התוכן מייצר הצ'אטבוט מדאטה עצום, כמות מידע אדירה שנשאבה מהאינטרנט ובאמצעותה אימנו את מודל השפה שמפעיל אותו. מודלי השפה GPT-3 ו-GPT-4, למשל, הם שמפעילים את הצ'אטבוט הכי מפורסם ChatGPT.
יש שאומרים שמודל השפה בעצם הוא לא יותר ממחולל מילים סטטיסטי. הם צודקים אבל גם טועים. כי מודל שפה יכול לחשב מצוין הסתברות של הופעת מילים שונות בכל משפט וכך לייצר משפטים חדשים, מילה אחר מילה, בשפה שבה הוא אומן על ידי המפתחים שלו. אבל זו דוגמה בלבד ואפילו קצת מטעה. כי סטטיסטיקה זה לא הכל וכנראה לא לגמרי המהות של העניין. המוח של מודל השפה, האופן שבו הוא בנוי והתובנות והביצועים שהוא יכול לנפק, הם משמעותיים הרבה יותר.
מודל כזה מבוסס על רשת עצבית מלאכותית הבנויה בצורה דומה למוח האנושי. הרשת הזו היא בעלת כמות אדירה של פרמטרים, לרוב מיליארדים. הפרמטרים הללו הם ערכים מספריים שמסייעים לאלגוריתם ללמוד.
עוד ביטוי לגודלו הגדול של המודל הוא באימון שלו על מאות מיליוני מילים, בכמויות ענק של טקסט לא מתויג, בשיטת למידה שאינה מסתמכת רק על דוגמאות אנושיות, או מה שנקרא "למידה בפיקוח-עצמי".
#איך זה בדיוק עובד?
נניח ששאלתם שאלה, מודל השפה הגדול מניח את נוסח השאלה על שולחן הטיפולים שלו ובודק בדאטה שלו, במידע העצום שהוא אגר והמיר לקוד מתמטי (ראו אח"כ בתגית" טוקנים"), מה המילה שהכי סביר (מבחינת הסתברות) שתתחיל את התשובה. ואז הוא בודק מה המילה עם ההסתברות הכי גבוהה להופיע אחריה וכך הלאה. זה ייתן לו את התשובה הסבירה ביותר לשאלה.
למה הכי סבירה ולא הכי טובה? - כי הסתברות היא לעולם לא מושלמת וזו בדיוק הסיבה להזיות שנקבל לא פעם ממנועי בינה מלאכותית. אגב, אם תבקשו ממנו לבדוק את תשובתו, כל LLM ימצא ויפרט את שגיאותיו וגם יציע לתקן את המענה שנתן ובתיקון זה כבר יהיה הרבה יותר טוב.
ה-LLM משתמש בייצוג מתמטי של שפה טבעית באמצעות הסתברויות. כל מדען נתונים יאשר שהבסיס של מודלי שפה הוא היכולת שלהם לחשב הסתברות לכל משפט בשפה שבה הם אומנו ומהיכולת הזו נובע חלק משמעותי ביכולת שלהם לייצר משפטים חדשים, מילה אחר מילה.
#מודלי השפה הגדולים והבינה הג'נרטיבית
מודל השפה הגדול הוא בעצם הבסיס למהפכת הבינה הגנרטיבית שפרצה לחיינו בשלהי 2022-תחילת 23. מודלי השפה הגדולים הללו מסמנים קפיצת דרך של ממש ולמעשה הכניסו אותנו עמוק אל תוך העתיד.
הייתה זו IBM שפיתחה את אחד ממודלי השפה הראשונים. הוא נקרא ווטסון, על שם תומאס ווטסון, מייסד IBM. יש גרסה שאומרת שהוא קיבל את שמו משמו משם העוזר של שרלוק הולמס, ווטסון. מודל כזה, ממש כמו אותו עוזר, תמיד מסייע בחקר ובתשובות שונות, כיום של רבים ואצל שרלוק, לצרכי החקירות של הבלש הנודע.
מצוידים במודלים החדשים, הצ'אטבוטים המרשימים, כמו Claude ו-ChatGPT, מסרבים להיות לכם לווטסון. במקום זאת הם מפותחים כך שיהיו המוח, כלומר השרלוק שלכם, כשאתם וכמה זה אירוני, בתפקיד הווטסון או העוזר שלהם... אבל גם הלקוחות.
מודל שפה הוא שמאפשר לנו לבקש ממנו לסכם טקסטים, לענות על שאלות, לצייר או בעצם לייצר תמונות ו"צילומים", לחבר שירים, ליצור סרטונים או לכתוב קוד.
אז מודלי שפה גדולים אפשרו את קפיצת הדרך המדהימה של מהפכת ה-AI. אמנם הם רחוקים מלהיות מושלמים לחלוטין ועדיין פה ושם מקלקלים את ההתפעלות עם ההזיות המוכרות האלה שלהם, עובדות שגויות, מידע לא רלוונטי או מופרך ואפילו עלבונות נדירים. ומה שלא פחות מרגיז לעתים הוא הביטחון המלא שבו הם כותבים או מדברים אותן, שזה בדיוק מה שהופך את חשיפת ההזיות ובדיות הללו לכל כך קשה ומסוכנת...
כיום, המודלים הללו הולכים ומאפשרים צמיחה של עולם חדש, עולם סוכני ה-AI. הם ממוקדים בביצוע משימות ספציפיות, תגובה לסביבה ועוד תכונות מבטיחות. הכירו אותם בתגית "סוכני AI".
הנה מה שעושים המודלים, מנועי השפה הגדולים (מתורגם):
https://youtu.be/X-AWdfSFCHQ
מהו LLM?
https://youtu.be/iR2O2GPbB0E
השוואת הצ'טבוטים הטובים, מנועי השפה הגדולים בסוף 2024 (עברית):
https://youtu.be/NanvGTQeO-g
כך פועל מודל השפה הגדול LLM:
https://youtu.be/iR2O2GPbB0E
כך בנויים ופועלים מודלי השפה הגדולים:
https://youtu.be/5sLYAQS9sWQ
יש להם גם חסרונות:
https://youtu.be/Gf_sgim24pI
הסבר מעמיק על מודלים גדולים של שפה ומה שהם הובילו (עברית):
https://youtu.be/-NIsUKUnxhA?long=yes
ובאופן סטטיסטי - כך פועל LLM:
https://youtu.be/LPZh9BOjkQs?long=yes
מודל שפה גדול (LLM), קיצור של Large Language Model, הוא ה"מוח" שמפעיל צ'אטבוט עוצמתי, כמו הצ'אטבוט ChatGPT, המייצר תוכן לבקשת המשתמשים ועושה זאת באמצעות מודל השפה הגדול GPT-4.
את התוכן מייצר הצ'אטבוט מדאטה עצום, כמות מידע אדירה שנשאבה מהאינטרנט ובאמצעותה אימנו את מודל השפה שמפעיל אותו. מודלי השפה GPT-3 ו-GPT-4, למשל, הם שמפעילים את הצ'אטבוט הכי מפורסם ChatGPT.
יש שאומרים שמודל השפה בעצם הוא לא יותר ממחולל מילים סטטיסטי. הם צודקים אבל גם טועים. כי מודל שפה יכול לחשב מצוין הסתברות של הופעת מילים שונות בכל משפט וכך לייצר משפטים חדשים, מילה אחר מילה, בשפה שבה הוא אומן על ידי המפתחים שלו. אבל זו דוגמה בלבד ואפילו קצת מטעה. כי סטטיסטיקה זה לא הכל וכנראה לא לגמרי המהות של העניין. המוח של מודל השפה, האופן שבו הוא בנוי והתובנות והביצועים שהוא יכול לנפק, הם משמעותיים הרבה יותר.
מודל כזה מבוסס על רשת עצבית מלאכותית הבנויה בצורה דומה למוח האנושי. הרשת הזו היא בעלת כמות אדירה של פרמטרים, לרוב מיליארדים. הפרמטרים הללו הם ערכים מספריים שמסייעים לאלגוריתם ללמוד.
עוד ביטוי לגודלו הגדול של המודל הוא באימון שלו על מאות מיליוני מילים, בכמויות ענק של טקסט לא מתויג, בשיטת למידה שאינה מסתמכת רק על דוגמאות אנושיות, או מה שנקרא "למידה בפיקוח-עצמי".
#איך זה בדיוק עובד?
נניח ששאלתם שאלה, מודל השפה הגדול מניח את נוסח השאלה על שולחן הטיפולים שלו ובודק בדאטה שלו, במידע העצום שהוא אגר והמיר לקוד מתמטי (ראו אח"כ בתגית" טוקנים"), מה המילה שהכי סביר (מבחינת הסתברות) שתתחיל את התשובה. ואז הוא בודק מה המילה עם ההסתברות הכי גבוהה להופיע אחריה וכך הלאה. זה ייתן לו את התשובה הסבירה ביותר לשאלה.
למה הכי סבירה ולא הכי טובה? - כי הסתברות היא לעולם לא מושלמת וזו בדיוק הסיבה להזיות שנקבל לא פעם ממנועי בינה מלאכותית. אגב, אם תבקשו ממנו לבדוק את תשובתו, כל LLM ימצא ויפרט את שגיאותיו וגם יציע לתקן את המענה שנתן ובתיקון זה כבר יהיה הרבה יותר טוב.
ה-LLM משתמש בייצוג מתמטי של שפה טבעית באמצעות הסתברויות. כל מדען נתונים יאשר שהבסיס של מודלי שפה הוא היכולת שלהם לחשב הסתברות לכל משפט בשפה שבה הם אומנו ומהיכולת הזו נובע חלק משמעותי ביכולת שלהם לייצר משפטים חדשים, מילה אחר מילה.
#מודלי השפה הגדולים והבינה הג'נרטיבית
מודל השפה הגדול הוא בעצם הבסיס למהפכת הבינה הגנרטיבית שפרצה לחיינו בשלהי 2022-תחילת 23. מודלי השפה הגדולים הללו מסמנים קפיצת דרך של ממש ולמעשה הכניסו אותנו עמוק אל תוך העתיד.
הייתה זו IBM שפיתחה את אחד ממודלי השפה הראשונים. הוא נקרא ווטסון, על שם תומאס ווטסון, מייסד IBM. יש גרסה שאומרת שהוא קיבל את שמו משמו משם העוזר של שרלוק הולמס, ווטסון. מודל כזה, ממש כמו אותו עוזר, תמיד מסייע בחקר ובתשובות שונות, כיום של רבים ואצל שרלוק, לצרכי החקירות של הבלש הנודע.
מצוידים במודלים החדשים, הצ'אטבוטים המרשימים, כמו Claude ו-ChatGPT, מסרבים להיות לכם לווטסון. במקום זאת הם מפותחים כך שיהיו המוח, כלומר השרלוק שלכם, כשאתם וכמה זה אירוני, בתפקיד הווטסון או העוזר שלהם... אבל גם הלקוחות.
מודל שפה הוא שמאפשר לנו לבקש ממנו לסכם טקסטים, לענות על שאלות, לצייר או בעצם לייצר תמונות ו"צילומים", לחבר שירים, ליצור סרטונים או לכתוב קוד.
אז מודלי שפה גדולים אפשרו את קפיצת הדרך המדהימה של מהפכת ה-AI. אמנם הם רחוקים מלהיות מושלמים לחלוטין ועדיין פה ושם מקלקלים את ההתפעלות עם ההזיות המוכרות האלה שלהם, עובדות שגויות, מידע לא רלוונטי או מופרך ואפילו עלבונות נדירים. ומה שלא פחות מרגיז לעתים הוא הביטחון המלא שבו הם כותבים או מדברים אותן, שזה בדיוק מה שהופך את חשיפת ההזיות ובדיות הללו לכל כך קשה ומסוכנת...
כיום, המודלים הללו הולכים ומאפשרים צמיחה של עולם חדש, עולם סוכני ה-AI. הם ממוקדים בביצוע משימות ספציפיות, תגובה לסביבה ועוד תכונות מבטיחות. הכירו אותם בתגית "סוכני AI".
הנה מה שעושים המודלים, מנועי השפה הגדולים (מתורגם):
https://youtu.be/X-AWdfSFCHQ
מהו LLM?
https://youtu.be/iR2O2GPbB0E
השוואת הצ'טבוטים הטובים, מנועי השפה הגדולים בסוף 2024 (עברית):
https://youtu.be/NanvGTQeO-g
כך פועל מודל השפה הגדול LLM:
https://youtu.be/iR2O2GPbB0E
כך בנויים ופועלים מודלי השפה הגדולים:
https://youtu.be/5sLYAQS9sWQ
יש להם גם חסרונות:
https://youtu.be/Gf_sgim24pI
הסבר מעמיק על מודלים גדולים של שפה ומה שהם הובילו (עברית):
https://youtu.be/-NIsUKUnxhA?long=yes
ובאופן סטטיסטי - כך פועל LLM:
https://youtu.be/LPZh9BOjkQs?long=yes
מהי מולטי מודאליות בעולם ה-AI?
זה אחד הפיתוחים המרגשים של עידן הבינה החדש ומה שמרגיש לא פעם כמו סרטי מד"ב מהיותר מתוחכמים. קוראים לזה מולטי-מודאליות (Multimodality) והוא בעצם היכולת של כלי AI לעבוד עם סוגי נתונים שונים, כמו טקסט, אודיו, קוד, וידאו ותמונות - גם כקלט וגם כפלט.
במקום להתמקד בסוג אחד בלבד של נתונים, מערכת רב-מודאלית מקבלת ומנתחת מידע ממקורות מגוונים, בכדי לקבל הבנה מעמיקה יותר של העולם הסובב אותה. מדובר בכלי ממוחשב שבדיוק כמו שבני אדם חווים את העולם דרך כל החושים והחוויות, לא רק מבין טקסט, אלא גם רואה תמונות וסרטים, מעבד ומנתח וידאו, מגלה הבנה מרחבית, שומע קולות וצלילים, מפענח קוד של תוכנה ומסוגל גם ליצור תכנים ותוצרים בכל המדיות הללו.
בדומה למוח האנושי, המשלב בטבעיות מידע מכל החושים, העולם של המערכות המולטי מודאליות ב-generative AI מציג יכולת שהיא עוד רכיב במהפכה הגדולה של מערכות בינה מלאכותית, מהפכונת שמאפשרת לעבד ולשלב כמה סוגי מדיה במקביל.
המערכות החדשות הללו מצוידות בשכבות מורכבות של פענוח ומפענחות את העולם פחות או יותר כמו מחשב-על. דוגמאות לא חסר. למשל עם צ'טבוט שבזכות ההבנה המרחבית המשופרת שלו מסוגל לזהות ולהוסיף כיתוב מדויק לעצמים שונים בתמונות עמוסות פריטים. או צ'טבוט שמנתח תמונות ומאפשר למשתמש לנהל עליהן דיון, או סוקר אינפוגרפיקה ונותן לה פרשנות קולית רלוונטית, בהתאם לרמת ההבנה של המשתמש או קהל היעד המבוקש. לכלי כזה יש גם כלי וידאו שמקבלים תמונה והנחייה כתובה (פרומפט) ומנפישים את התמונה לקליפ וידאו שכמו צולם בידי צוות צילום הוליוודי.
דוגמה נוספת היא כלי אינטראקציה רב-מודאלי כמו NotebookLM. הוא מאפשר למשתמשים לשתף איתו את המסך או המצלמה שלהם בזמן אמת. כך ניתן לקיים שיחות קוליות דמויות אדם, תוך כדי שמאפשרים ל-AI לצפות במסך ולעזור, תוך כדי מודעות להקשר ולתוכן.
אפילו תכונת זיהוי הפנים בסמארטפון שלכם היא תכונה שמשלבת היטב ראייה ממוחשבת, מיפוי תלת-ממדי ועיבוד נתונים מתקדם. ומאלה היא יוצרת פיצ'ר מדהים, בצד חווית משתמש פשטותה כמו מבט של שומר אנושי.
שילוב של צורות נתונים מרובות, כמו טקסט, תמונות ואודיו לתוך מערכת מאוחדת ורב-מודאלית היא שמאפשרת למודלים כמו Claude או GPT-4 לכתוב קוד כשמזינים לתוכו דיאגרמה ולמודלים שונים ליצור תמונות או סרטוני וידאו עם תיאורים.
את המהפכה המולטימודאלית אפשר לזהות בקלות בפלטפורמות כמו טיקטוק (TikTok) ואינסטגרם (Instagram), בהן משלבים סוגי מדיה מגוונים ומעבדים במגוון כלים, המשנים את הדרך בה אנו מספרים את הסיפור שלנו לעולם.
הנה הסבר היכולת המולטי-מודאלית:
https://youtu.be/97n1u66Shgg
כך עובדים מערכות מולטי מודאליות:
https://youtu.be/WkoytlA3MoQ
וההיפר מודאליות החדשה של גוגל מארינר:
https://youtu.be/KeUMm1xF3o0?long=yes
זה אחד הפיתוחים המרגשים של עידן הבינה החדש ומה שמרגיש לא פעם כמו סרטי מד"ב מהיותר מתוחכמים. קוראים לזה מולטי-מודאליות (Multimodality) והוא בעצם היכולת של כלי AI לעבוד עם סוגי נתונים שונים, כמו טקסט, אודיו, קוד, וידאו ותמונות - גם כקלט וגם כפלט.
במקום להתמקד בסוג אחד בלבד של נתונים, מערכת רב-מודאלית מקבלת ומנתחת מידע ממקורות מגוונים, בכדי לקבל הבנה מעמיקה יותר של העולם הסובב אותה. מדובר בכלי ממוחשב שבדיוק כמו שבני אדם חווים את העולם דרך כל החושים והחוויות, לא רק מבין טקסט, אלא גם רואה תמונות וסרטים, מעבד ומנתח וידאו, מגלה הבנה מרחבית, שומע קולות וצלילים, מפענח קוד של תוכנה ומסוגל גם ליצור תכנים ותוצרים בכל המדיות הללו.
בדומה למוח האנושי, המשלב בטבעיות מידע מכל החושים, העולם של המערכות המולטי מודאליות ב-generative AI מציג יכולת שהיא עוד רכיב במהפכה הגדולה של מערכות בינה מלאכותית, מהפכונת שמאפשרת לעבד ולשלב כמה סוגי מדיה במקביל.
המערכות החדשות הללו מצוידות בשכבות מורכבות של פענוח ומפענחות את העולם פחות או יותר כמו מחשב-על. דוגמאות לא חסר. למשל עם צ'טבוט שבזכות ההבנה המרחבית המשופרת שלו מסוגל לזהות ולהוסיף כיתוב מדויק לעצמים שונים בתמונות עמוסות פריטים. או צ'טבוט שמנתח תמונות ומאפשר למשתמש לנהל עליהן דיון, או סוקר אינפוגרפיקה ונותן לה פרשנות קולית רלוונטית, בהתאם לרמת ההבנה של המשתמש או קהל היעד המבוקש. לכלי כזה יש גם כלי וידאו שמקבלים תמונה והנחייה כתובה (פרומפט) ומנפישים את התמונה לקליפ וידאו שכמו צולם בידי צוות צילום הוליוודי.
דוגמה נוספת היא כלי אינטראקציה רב-מודאלי כמו NotebookLM. הוא מאפשר למשתמשים לשתף איתו את המסך או המצלמה שלהם בזמן אמת. כך ניתן לקיים שיחות קוליות דמויות אדם, תוך כדי שמאפשרים ל-AI לצפות במסך ולעזור, תוך כדי מודעות להקשר ולתוכן.
אפילו תכונת זיהוי הפנים בסמארטפון שלכם היא תכונה שמשלבת היטב ראייה ממוחשבת, מיפוי תלת-ממדי ועיבוד נתונים מתקדם. ומאלה היא יוצרת פיצ'ר מדהים, בצד חווית משתמש פשטותה כמו מבט של שומר אנושי.
שילוב של צורות נתונים מרובות, כמו טקסט, תמונות ואודיו לתוך מערכת מאוחדת ורב-מודאלית היא שמאפשרת למודלים כמו Claude או GPT-4 לכתוב קוד כשמזינים לתוכו דיאגרמה ולמודלים שונים ליצור תמונות או סרטוני וידאו עם תיאורים.
את המהפכה המולטימודאלית אפשר לזהות בקלות בפלטפורמות כמו טיקטוק (TikTok) ואינסטגרם (Instagram), בהן משלבים סוגי מדיה מגוונים ומעבדים במגוון כלים, המשנים את הדרך בה אנו מספרים את הסיפור שלנו לעולם.
הנה הסבר היכולת המולטי-מודאלית:
https://youtu.be/97n1u66Shgg
כך עובדים מערכות מולטי מודאליות:
https://youtu.be/WkoytlA3MoQ
וההיפר מודאליות החדשה של גוגל מארינר:
https://youtu.be/KeUMm1xF3o0?long=yes
מה זה LoRA ב-AI ולמה היא משמשת?
LoRA, ובעברית לורה (Low-Rank Adaptation) היא טכניקה בעולם ה-GenAI, העולם של הבינה המלאכותית היוצרת. היא מאפשרת כוונון עדין (fine-tuning) של מודלים גדולים (LLMs) וכלליים מדי, להתאמה של מודלים קיימים לצרכים ספציפיים בצורה יעילה וחסכונית במשאבים.
מפני שההסבר הטכני הזה כנראה לא מובן מדי, נסביר את הלורה באמצעות דוגמה פשוטה:
נניח שיש לנו מודל AI שיודע לג'נרט (generate), כלומר לצייר בבינה מלאכותית. אנחנו רוצים שהוא ייצר דמויות בסגנון אנימה או דמות מסוימת, שמשום מה הוא אינו מכיר, כי היא לא הייתה בדאטה שהוא אומן עליו.
לכן, במקום לבקש שיאמנו את המנוע, או המודל הגדול, מחדש על המון ציורי אנימה, או להמתין בסבלנות מתסכלת עד שיום אחד הוא כן יכיר את הסגנון או הדמות הספציפית, נשתמש בטכניקה שונה. טכניקת הלורה.
ב-LoRA, כדי ללמד את המודל על הסגנון הזה או על הדמות המסוימת שאנחנו רוצים, מאפשרים לנו לאמן אותו בעצמנו, בעזרת דוגמאות בודדות ש"נראה לו", כלומר נטען אליו ב-Upload.
השיטה היעילה הזו לכוונון עדין של מערכות AI, מתאימה במיוחד ליצירת תמונות ריאליסטיות, למשל, להתאמה של סגנונות עיצוביים או ליצירת דמויות עקביות בפרויקטים גרפיים, תוך שימוש בכמות קטנה יחסית של נתוני אימון.
כך נוכל ליצור, למשל את אותה דמות מדויקת, בסצנות שונות של סרטון שמייצר ה-AI או בציורי קומיקס רציפים שנוצרים כך.
כלומר,ה-LoRA נועדה להוסיף שכבת משקולות חדשה למודל המקורי, מבלי לשנות אותו, תוך כדי קיצור של זמן האימון ושיפור של הגמישות שלו.
ואגב, השיטה עובדת עבור כל רשת עצבית ולא רק עבור מודלי שפה גדולים LLMs (קראו עליהם בתגית "LLM").
הנה הסבר של רעיון ה-LoRA:
https://youtu.be/lixMONUAjfs
כך יוצרים LoRA במערכת ספציפית:
https://youtu.be/HfwFgkFCtpM
ויצירת לורה של דמות מוכרת:
https://youtu.be/KEv-F5UkhxU?long=yes
LoRA, ובעברית לורה (Low-Rank Adaptation) היא טכניקה בעולם ה-GenAI, העולם של הבינה המלאכותית היוצרת. היא מאפשרת כוונון עדין (fine-tuning) של מודלים גדולים (LLMs) וכלליים מדי, להתאמה של מודלים קיימים לצרכים ספציפיים בצורה יעילה וחסכונית במשאבים.
מפני שההסבר הטכני הזה כנראה לא מובן מדי, נסביר את הלורה באמצעות דוגמה פשוטה:
נניח שיש לנו מודל AI שיודע לג'נרט (generate), כלומר לצייר בבינה מלאכותית. אנחנו רוצים שהוא ייצר דמויות בסגנון אנימה או דמות מסוימת, שמשום מה הוא אינו מכיר, כי היא לא הייתה בדאטה שהוא אומן עליו.
לכן, במקום לבקש שיאמנו את המנוע, או המודל הגדול, מחדש על המון ציורי אנימה, או להמתין בסבלנות מתסכלת עד שיום אחד הוא כן יכיר את הסגנון או הדמות הספציפית, נשתמש בטכניקה שונה. טכניקת הלורה.
ב-LoRA, כדי ללמד את המודל על הסגנון הזה או על הדמות המסוימת שאנחנו רוצים, מאפשרים לנו לאמן אותו בעצמנו, בעזרת דוגמאות בודדות ש"נראה לו", כלומר נטען אליו ב-Upload.
השיטה היעילה הזו לכוונון עדין של מערכות AI, מתאימה במיוחד ליצירת תמונות ריאליסטיות, למשל, להתאמה של סגנונות עיצוביים או ליצירת דמויות עקביות בפרויקטים גרפיים, תוך שימוש בכמות קטנה יחסית של נתוני אימון.
כך נוכל ליצור, למשל את אותה דמות מדויקת, בסצנות שונות של סרטון שמייצר ה-AI או בציורי קומיקס רציפים שנוצרים כך.
כלומר,ה-LoRA נועדה להוסיף שכבת משקולות חדשה למודל המקורי, מבלי לשנות אותו, תוך כדי קיצור של זמן האימון ושיפור של הגמישות שלו.
ואגב, השיטה עובדת עבור כל רשת עצבית ולא רק עבור מודלי שפה גדולים LLMs (קראו עליהם בתגית "LLM").
הנה הסבר של רעיון ה-LoRA:
https://youtu.be/lixMONUAjfs
כך יוצרים LoRA במערכת ספציפית:
https://youtu.be/HfwFgkFCtpM
ויצירת לורה של דמות מוכרת:
https://youtu.be/KEv-F5UkhxU?long=yes
מה זה NLP או עיבוד שפה טבעית ב-AI?
עיבוד שפה טבעית, או NLP, משתמש במחשבים ובטכנולוגיות של בינה מלאכותית, המתמקדות בפיתוח אלגוריתמים המאפשרים למחשבים לקרוא, להבין ולתקשר בשפה רגילה, כתובה או מדוברת אבל טבעית, שפה של בני אדם.
NLP הם ראשי תיבות של "Natural Language Processing" ובעברית "עיבוד שפה טבעית". זהו תת-תחום בבינה מלאכותית, הקשור בצד הבלשני שלה, צד השפה המדוברת.
ניתן לומר בפשטות שהמטרה של עיבוד שפה טבעית היא שמחשבים יוכלו לתקשר עם בני אדם באותו אופן בו אנו, בני האדם, מתקשרים בינינו.
עיבוד השפה הטבעית קשור לתחום הבלשנות החישובית והוא משלב רעיונות מתחום מדעי המחשב בחקר השפה האנושית. התחום הזה במחשוב עוסק בבעיות הקשורות לעיבוד, טיפול ושינויים או מניפולציה של השפה הטבעית האנושית.
מטרת ה-NLP היא להבין שפות אנושיות, לנתח את התוכן והכוונה של המסרים שבהן ולהצליח לפרש את משמעותם הבסיסית, כך שניתן יהיה לגרום למחשבים "להבין" דברים שנכתבים או נאמרים בשפה הטבעית, כלומר בשפות של בני-אדם.
לשם כך, מודלים של NLP משתמשים בנוסחאות או בעצם אלגוריתמים של למידת מכונה, יחד עם שילוב כללים מוגדרים מראש.
בשנים האחרונות זוכה התחום לעניין רב, כחלק מהפיתוח של יישומי מחשב, רובם מבוססי בינה מלאכותית, יישומים שהתקשורת עימם היא בשפה אנושית.
רבים מהכלים הללו מחייבים תיאורים מילוליים של התוצר המצופה מהם, מנהלים שיחה עם המשתמש או מטפלים בטקסטים באופנים שונים. חלקם מייצרים ויוצרים יצירות באופן דומה ליצירה אנושית, מה שמחייב הנחיות, פרומפטים המהווים תיאור טקסטואלי של תוכן ואופי התוצרים המצופים, כמו תמונות, סרטים, מוסיקה, קוד ועוד.
עיבוד השפה הטבעית קשור לתחום הבלשנות החישובית והוא משלב רעיונות מתחום מדעי המחשב בחקר השפה האנושית.
הנה הסבר פשוט של NLP במדעי המחשב:
https://youtu.be/pqgUfv7UP4A
היישומים המדהימים של עיבוד שפה טבעית לתקשורת בינינו ובין מערכות AI:
https://youtu.be/TZMZvULBVio
זה עיבוד שפה טבעית בלמידת מכונה:
https://youtu.be/CMrHM8a3hqw
מטרת ה-NLP בעולם של ימינו:
https://youtu.be/7NObIGHhQWA
עיבוד השפה הטבעית בטכנולוגיות AI יומיומיות:
https://youtu.be/43cXcuXGnXk
אי אפשר לדבר על NLP בלי לדבר על LLM (עברית):
https://youtu.be/ugxgxqRg2-I
פרמטרים וטוקנים הם לא הכל במודלים:
https://youtu.be/a1nqXQMOCks
עיבוד שפה טבעית, או NLP, משתמש במחשבים ובטכנולוגיות של בינה מלאכותית, המתמקדות בפיתוח אלגוריתמים המאפשרים למחשבים לקרוא, להבין ולתקשר בשפה רגילה, כתובה או מדוברת אבל טבעית, שפה של בני אדם.
NLP הם ראשי תיבות של "Natural Language Processing" ובעברית "עיבוד שפה טבעית". זהו תת-תחום בבינה מלאכותית, הקשור בצד הבלשני שלה, צד השפה המדוברת.
ניתן לומר בפשטות שהמטרה של עיבוד שפה טבעית היא שמחשבים יוכלו לתקשר עם בני אדם באותו אופן בו אנו, בני האדם, מתקשרים בינינו.
עיבוד השפה הטבעית קשור לתחום הבלשנות החישובית והוא משלב רעיונות מתחום מדעי המחשב בחקר השפה האנושית. התחום הזה במחשוב עוסק בבעיות הקשורות לעיבוד, טיפול ושינויים או מניפולציה של השפה הטבעית האנושית.
מטרת ה-NLP היא להבין שפות אנושיות, לנתח את התוכן והכוונה של המסרים שבהן ולהצליח לפרש את משמעותם הבסיסית, כך שניתן יהיה לגרום למחשבים "להבין" דברים שנכתבים או נאמרים בשפה הטבעית, כלומר בשפות של בני-אדם.
לשם כך, מודלים של NLP משתמשים בנוסחאות או בעצם אלגוריתמים של למידת מכונה, יחד עם שילוב כללים מוגדרים מראש.
בשנים האחרונות זוכה התחום לעניין רב, כחלק מהפיתוח של יישומי מחשב, רובם מבוססי בינה מלאכותית, יישומים שהתקשורת עימם היא בשפה אנושית.
רבים מהכלים הללו מחייבים תיאורים מילוליים של התוצר המצופה מהם, מנהלים שיחה עם המשתמש או מטפלים בטקסטים באופנים שונים. חלקם מייצרים ויוצרים יצירות באופן דומה ליצירה אנושית, מה שמחייב הנחיות, פרומפטים המהווים תיאור טקסטואלי של תוכן ואופי התוצרים המצופים, כמו תמונות, סרטים, מוסיקה, קוד ועוד.
עיבוד השפה הטבעית קשור לתחום הבלשנות החישובית והוא משלב רעיונות מתחום מדעי המחשב בחקר השפה האנושית.
הנה הסבר פשוט של NLP במדעי המחשב:
https://youtu.be/pqgUfv7UP4A
היישומים המדהימים של עיבוד שפה טבעית לתקשורת בינינו ובין מערכות AI:
https://youtu.be/TZMZvULBVio
זה עיבוד שפה טבעית בלמידת מכונה:
https://youtu.be/CMrHM8a3hqw
מטרת ה-NLP בעולם של ימינו:
https://youtu.be/7NObIGHhQWA
עיבוד השפה הטבעית בטכנולוגיות AI יומיומיות:
https://youtu.be/43cXcuXGnXk
אי אפשר לדבר על NLP בלי לדבר על LLM (עברית):
https://youtu.be/ugxgxqRg2-I
פרמטרים וטוקנים הם לא הכל במודלים:
https://youtu.be/a1nqXQMOCks
LLM
מה עושה האינטרנט למוח?
השפעת האינטרנט על חיינו היא משמעותית במיוחד. אין ספק שחיינו השתנו לבלי הכר מאז תחילת שנות ה-90 כשהטכנולוגיה הזו הפכה יותר ויותר מרכזית בחיים המודרניים.
מצד שני יש טענה שגוגל והקלות הבלתי נתפסת למצוא בו דברים הופכים אותנו לטיפשים. האם זה אכן כך? - זו שאלה שמעסיקה חוקרים רבים, והתשובה היא, כפי הנראה, מורכבת יותר משאולי נדמה לנו.
הטענה המרכזית: שימוש יתר במנועי חיפוש, תוכנות ניווט וטכנולוגיות דומות עלול להפחית את פעילות המוח באזורים מסוימים, ולהשפיע לרעה על יכולות קוגניטיביות כמו ריכוז, זיכרון והתמצאות מרחבית.
ניקולס קאר, סופר אמריקאי, תיאר במאמרו המפורסם "האם גוגל הופך אותנו לטיפשים?" את הקושי שלו להתמקד בקריאה לאחר שנים של שימוש אינטנסיבי באינטרנט, תופעה שרבים הזדהו עמה.
ההסבר שהמדע נותן לעניין הזה הוא שהמוח שלנו, בדומה לשריר, זקוק לאימון. כאשר אנחנו מסתמכים על טכנולוגיה, אנחנו מפחיתים את הצורך להשתמש ביכולות טבעיות כמו זיכרון ומציאת נתיבים. כך, לדוגמה, רבים כבר לא זוכרים מספרי טלפון, משום שהם זמינים תמיד בטלפון הסלולרי.
מחקרים גם מצביעים על כך ששימוש ב-GPS מפחית את הפעילות המוחית באזורים האחראיים על ניווט וזיכרון מרחבי, ואפילו נהגי מוניות לונדון, המפורסמים ביכולות הניווט שלהם, מראים גודל היפוקמפוס גדול יותר ככל שהם מנווטים יותר בעצמם, לעומת מי שהתמסרו לאפליקציית הניווט.
ההשפעה על הקשב והזיכרון: מחקרים מצביעים על קיצור טווח הקשב אצל צעירים כתוצאה מגלישה מרובה ברשתות חברתיות ומשחקי מחשב. חוקרת נוספת טענה שאנשים מסתמכים יותר על היכולת למצוא מידע באינטרנט מאשר לזכור אותו בעצמם. זה עלול להוביל לירידה ביכולות הזיכרון. הרי אפילו זיכרון מידע פשוט, כמו מספרי טלפון, נפגע כתוצאה מהתלות בגאדג'טים.
מחקרים שנערכו כדי לבדוק האם זה אכן המצב הראו שאנו "משחררים" ככל שאנחנו סומכים על הטכנולוגיה להחליף את הצורך לזכור. בניסויים שנערכו לבחינת הנושא, למשל, מצאו החוקרים שהמשתתפים זכרו פחות מידע כאשר סברו שהוא שמור במחשב, גם כאשר התבקשו במפורש לזכור.
האם יש גם יתרונות לטכנולוגיה הזו? - ודאי. האינטרנט מציב בפנינו אתגרים קוגניטיביים חדשים, ומאפשר גישה למידע עצום שמשפר את היכולת לקבל החלטות ולסנן מידע. בנוסף, טכנולוגיות חדשות יוצרות "אוריינויות" חדשות, כמו אוריינות חזותית ומשחקית.
לכן, אין תשובה חד משמעית והתמונה מורכבת: האינטרנט יכול לשפר יכולות מסוימות אך לפגוע באחרות. הכניסה המאסיבית של ה-AI לחיינו, עם סוכני AI ומודלי השפה הגדולים (LLMs כמו קלוד ו-ChatGPT) גם היא ודאי משפיעה ותשפיע הרבה יותר ואף תחמיר את התלות בטכנולוגיה ואת הנכונות האנושית להשתמש ביכולות המוחיות שלנו.
אז מה אפשר לעשות בעניין?
חלק מהחוקרים ממליצים על "חדרי כושר למוח" – תוכנות ופעילויות שנועדו לאמן יכולות קוגניטיביות כמו זיכרון וריכוז. אך חשוב גם להפחית את הזמן שאנחנו מבלים מול מסכים ולתרגל חשיבה עמוקה ללא התערבות טכנולוגית.
יעזרו גם קריאה, מחקר, איסוף חומרים עצמאי והתמודדות עם מטלות מסוימות בדרך הישנה, כשאפשר לוותר על האפליקציה או מנוע החיפוש. לבסוף, חשוב להבין שהשימוש בטכנולוגיה הוא כלי ותלוי בנו איך אנחנו משתמשים בו. שימוש מאוזן יכול להביא לתועלת רבה, בעוד ששימוש יתר ופיתוח תלות בה עלולים להזיק.
זה מה שעושה הרשת למוח האנושי ולחשיבה והזיכרון:
http://youtu.be/cKaWJ72x1rI
הנה השפעת הרשת על המוח האנושי:
http://youtu.be/qoFMGLTjUTM
הירידה בקריאה והריכוז היורד (עברית):
https://youtu.be/hQu3deT4aSs
והשינויים הללו של המהפכה הטכנולוגית פוגעים ביכולות הקוגניטיביות של הדורות הבאים (בעברית):
https://youtu.be/RmVJ1acLGic?long=yes
השפעת האינטרנט על חיינו היא משמעותית במיוחד. אין ספק שחיינו השתנו לבלי הכר מאז תחילת שנות ה-90 כשהטכנולוגיה הזו הפכה יותר ויותר מרכזית בחיים המודרניים.
מצד שני יש טענה שגוגל והקלות הבלתי נתפסת למצוא בו דברים הופכים אותנו לטיפשים. האם זה אכן כך? - זו שאלה שמעסיקה חוקרים רבים, והתשובה היא, כפי הנראה, מורכבת יותר משאולי נדמה לנו.
הטענה המרכזית: שימוש יתר במנועי חיפוש, תוכנות ניווט וטכנולוגיות דומות עלול להפחית את פעילות המוח באזורים מסוימים, ולהשפיע לרעה על יכולות קוגניטיביות כמו ריכוז, זיכרון והתמצאות מרחבית.
ניקולס קאר, סופר אמריקאי, תיאר במאמרו המפורסם "האם גוגל הופך אותנו לטיפשים?" את הקושי שלו להתמקד בקריאה לאחר שנים של שימוש אינטנסיבי באינטרנט, תופעה שרבים הזדהו עמה.
ההסבר שהמדע נותן לעניין הזה הוא שהמוח שלנו, בדומה לשריר, זקוק לאימון. כאשר אנחנו מסתמכים על טכנולוגיה, אנחנו מפחיתים את הצורך להשתמש ביכולות טבעיות כמו זיכרון ומציאת נתיבים. כך, לדוגמה, רבים כבר לא זוכרים מספרי טלפון, משום שהם זמינים תמיד בטלפון הסלולרי.
מחקרים גם מצביעים על כך ששימוש ב-GPS מפחית את הפעילות המוחית באזורים האחראיים על ניווט וזיכרון מרחבי, ואפילו נהגי מוניות לונדון, המפורסמים ביכולות הניווט שלהם, מראים גודל היפוקמפוס גדול יותר ככל שהם מנווטים יותר בעצמם, לעומת מי שהתמסרו לאפליקציית הניווט.
ההשפעה על הקשב והזיכרון: מחקרים מצביעים על קיצור טווח הקשב אצל צעירים כתוצאה מגלישה מרובה ברשתות חברתיות ומשחקי מחשב. חוקרת נוספת טענה שאנשים מסתמכים יותר על היכולת למצוא מידע באינטרנט מאשר לזכור אותו בעצמם. זה עלול להוביל לירידה ביכולות הזיכרון. הרי אפילו זיכרון מידע פשוט, כמו מספרי טלפון, נפגע כתוצאה מהתלות בגאדג'טים.
מחקרים שנערכו כדי לבדוק האם זה אכן המצב הראו שאנו "משחררים" ככל שאנחנו סומכים על הטכנולוגיה להחליף את הצורך לזכור. בניסויים שנערכו לבחינת הנושא, למשל, מצאו החוקרים שהמשתתפים זכרו פחות מידע כאשר סברו שהוא שמור במחשב, גם כאשר התבקשו במפורש לזכור.
האם יש גם יתרונות לטכנולוגיה הזו? - ודאי. האינטרנט מציב בפנינו אתגרים קוגניטיביים חדשים, ומאפשר גישה למידע עצום שמשפר את היכולת לקבל החלטות ולסנן מידע. בנוסף, טכנולוגיות חדשות יוצרות "אוריינויות" חדשות, כמו אוריינות חזותית ומשחקית.
לכן, אין תשובה חד משמעית והתמונה מורכבת: האינטרנט יכול לשפר יכולות מסוימות אך לפגוע באחרות. הכניסה המאסיבית של ה-AI לחיינו, עם סוכני AI ומודלי השפה הגדולים (LLMs כמו קלוד ו-ChatGPT) גם היא ודאי משפיעה ותשפיע הרבה יותר ואף תחמיר את התלות בטכנולוגיה ואת הנכונות האנושית להשתמש ביכולות המוחיות שלנו.
אז מה אפשר לעשות בעניין?
חלק מהחוקרים ממליצים על "חדרי כושר למוח" – תוכנות ופעילויות שנועדו לאמן יכולות קוגניטיביות כמו זיכרון וריכוז. אך חשוב גם להפחית את הזמן שאנחנו מבלים מול מסכים ולתרגל חשיבה עמוקה ללא התערבות טכנולוגית.
יעזרו גם קריאה, מחקר, איסוף חומרים עצמאי והתמודדות עם מטלות מסוימות בדרך הישנה, כשאפשר לוותר על האפליקציה או מנוע החיפוש. לבסוף, חשוב להבין שהשימוש בטכנולוגיה הוא כלי ותלוי בנו איך אנחנו משתמשים בו. שימוש מאוזן יכול להביא לתועלת רבה, בעוד ששימוש יתר ופיתוח תלות בה עלולים להזיק.
זה מה שעושה הרשת למוח האנושי ולחשיבה והזיכרון:
http://youtu.be/cKaWJ72x1rI
הנה השפעת הרשת על המוח האנושי:
http://youtu.be/qoFMGLTjUTM
הירידה בקריאה והריכוז היורד (עברית):
https://youtu.be/hQu3deT4aSs
והשינויים הללו של המהפכה הטכנולוגית פוגעים ביכולות הקוגניטיביות של הדורות הבאים (בעברית):
https://youtu.be/RmVJ1acLGic?long=yes
מה בין צ'אטבוט, LLM וסוכן AI שמבצע משימות?
צ'אטבוט (Chatbot) הוא סוג של סייען חכם וממוחשב, שניתן לשוחח איתו בהתכתבות צ'אט, או במקרה של צ'אטבוט מתקדם יותר גם שיחה מבוססת דיבור.
כמובן שהצ'אטבוט הוא מערכת מבוססת AI (בינה מלאכותית, או אינטליגנציה מלאכותית) שמייצרת שיחה מלאכותית עם המשתמש - מבלי שבצד השני נמצא אדם אמיתי.
בעשור השני של המאה ה-21 הצ'אטבוט הלך ותפס את מקומו ברשת ובאפליקציות שונות והפך לדרך חדשה לחלוטין להשתמש באינטרנט. לקוחות מצאו את עצמם מנהלים התכתבות בצ'אט או שיחה אוטומטיות עם בוט, שנתן מענה מותאם אישית ושיפר את עצמו עם הזמן.
הצ'טבוט הבטיח לספק שירות לאורך כל שעות היממה, 24/7. הוא סימן הפחתה של המון מהעומס של שירות הלקוחות האנושי, חסך זמן למתעניינים וללקוחות שביקשו שירות וחסך לעסקים הרבה כסף.
התגלה שבוט AI ממוקד ואיכותי מסוגל להציע תגובות מהירות ומדויקות, מה שהוביל לשיפור ניכר בחוויית הלקוח ולעלייה בשביעות הרצון, אף שהיו לקוחות שהתעקשו לשוחח עם בן אדם, שהיה עמוס עכשיו פחות ולכן גם זמין להם הרבה יותר.
היתרונות של הצ'טבוט בטיפול אישי במשתמש ובלקוח היו עצומים. שולבו בו טכנולוגיות פרסונליזציה מתקדמות שהלכו והתפתחו, תוך גיוס הבינה המלאכותית לצרכי השיווק, המכירות והתמיכה.
רבים חזו שצ'אטבוטים עשויים להחליף חלק ניכר מהשימוש באתרי שירותים שונים ולייתר אותם בעתיד, מה שהתממש אבל חלקית.
בזמנו החליטה פייסבוק להשתמש בצ'אטבוטים בתוך שירות המסרים שלה מסנג'ר. היא אפשרה למפתחים חיצוניים לפתח צ'אטבוטים שיתנו שירותים ומידע מאתרים אחרים. ההכרזה על פלטפורמת הצ'אט בוט של פייסבוק מסנג'ר קדמה את רעיון הצ'אטבוטים המקוונים באופן משמעותי, במיוחד למשתמש הנייד בסמארטפונים ושעונים חכמים, אם כי הזינוק הטרנדי שנוצר עם ההשקה הלך ונרגע עם הזמן.
ההבשלה של אותם צ'אטבוטים באה בעשור הבא דווקא. זה קרה עם הגעתו של ChatGPT, מודל השפה הגדול הראשון (LLM), שאחריו הגיעו נוספים, כמו Gemini או Claude. מודל השפה הזה הוא בעיקרון מנוע בינה מלאכותית גדול ורחב-אופקים, המצויד ביכולת להבין שפה טבעית, אנושית, ויכול לעשות המון דברים, כלומר להתמודד עם מגוון ענקי של משימות ושהיכולות שלו הולכות וגדלות מיום ליום. ראו בתגית "LLM".
ממודלי השפה הגדולים התפתחו גם מנועי היצירה של הבינה הג'נרטיבית (Generative AI), המייצרים תמונות, שירים, וידאו ועוד. הכירו בתגית "GenAI".
אחריו נולדו סוכני ה-AI, צ'אטבוטים שממלאים משימות עבורך, על ידי שילוב בין היכולת הבינתית של מודל השפה הגדול כמו ChatGPT, עם היכולת של רכיב תוכנה שיכול לפעול באופן עצמאי וממוקד, למילוי של משימה ספציפית עבורנו, כמו לתכנן טיול, לקנות מוצרים אונליין, לטפל בדואר האלקטרוני שלנו וכדומה.
אותם סוכני AI הם רכיבי תוכנה אוטונומיים, יישומים מבוססי בינה מלאכותית, המסוגלים לתפוס את סביבתם, לקבל החלטות ולפעול לביצוע או השגת מטרות ממוקדות בשירות המשתמש. הכירו אותם בתגית "סוכני AI".
כלומר, אם הצ'טבוט של העשור שהחל ב-2010 היה עובד חרוץ אך לא חכם מדי, הצ'טבוט הבינתי של מודל השפה הגדול בעשור שאחריו רכש השכלה ופיתח את יכולותיו האינטליגנטיות באופן שהפך אותו למומחה ואז מגיע הסוכן הבינתי, AI agent והוא כבר עובד שמתמחה במשימה מסוימת ועושה אותה בצורה מיומנת וחרוצה.
עסקה טובה לרובנו.
פעילות נחמדה
============
בקישורים שלמטה יש לינק לצ'ט בוט נהדר. נסו לשוחח איתה (באנגלית) ולהכיר קצת את חוויית השיחה עם צ'ט בוט אופייני.
הנה עולם הצ'אטבוט:
http://youtu.be/iE9LtfQAYYU
עוד על השימוש בצ'אטבוטים ברשת:
http://youtu.be/G8z--x5tFOI
ההכרזה על הצ'אט בוט במסנג'ר של פייסבוק:
http://youtu.be/EOYnFUJyOlQ
ומנגד - כשהושק הצ'אטבוט של מיקרוסופט הוא "הסתבך" עם ביטויי גזענות קשים:
http://youtu.be/LA49GBcbudg
צ'אטבוט (Chatbot) הוא סוג של סייען חכם וממוחשב, שניתן לשוחח איתו בהתכתבות צ'אט, או במקרה של צ'אטבוט מתקדם יותר גם שיחה מבוססת דיבור.
כמובן שהצ'אטבוט הוא מערכת מבוססת AI (בינה מלאכותית, או אינטליגנציה מלאכותית) שמייצרת שיחה מלאכותית עם המשתמש - מבלי שבצד השני נמצא אדם אמיתי.
בעשור השני של המאה ה-21 הצ'אטבוט הלך ותפס את מקומו ברשת ובאפליקציות שונות והפך לדרך חדשה לחלוטין להשתמש באינטרנט. לקוחות מצאו את עצמם מנהלים התכתבות בצ'אט או שיחה אוטומטיות עם בוט, שנתן מענה מותאם אישית ושיפר את עצמו עם הזמן.
הצ'טבוט הבטיח לספק שירות לאורך כל שעות היממה, 24/7. הוא סימן הפחתה של המון מהעומס של שירות הלקוחות האנושי, חסך זמן למתעניינים וללקוחות שביקשו שירות וחסך לעסקים הרבה כסף.
התגלה שבוט AI ממוקד ואיכותי מסוגל להציע תגובות מהירות ומדויקות, מה שהוביל לשיפור ניכר בחוויית הלקוח ולעלייה בשביעות הרצון, אף שהיו לקוחות שהתעקשו לשוחח עם בן אדם, שהיה עמוס עכשיו פחות ולכן גם זמין להם הרבה יותר.
היתרונות של הצ'טבוט בטיפול אישי במשתמש ובלקוח היו עצומים. שולבו בו טכנולוגיות פרסונליזציה מתקדמות שהלכו והתפתחו, תוך גיוס הבינה המלאכותית לצרכי השיווק, המכירות והתמיכה.
רבים חזו שצ'אטבוטים עשויים להחליף חלק ניכר מהשימוש באתרי שירותים שונים ולייתר אותם בעתיד, מה שהתממש אבל חלקית.
בזמנו החליטה פייסבוק להשתמש בצ'אטבוטים בתוך שירות המסרים שלה מסנג'ר. היא אפשרה למפתחים חיצוניים לפתח צ'אטבוטים שיתנו שירותים ומידע מאתרים אחרים. ההכרזה על פלטפורמת הצ'אט בוט של פייסבוק מסנג'ר קדמה את רעיון הצ'אטבוטים המקוונים באופן משמעותי, במיוחד למשתמש הנייד בסמארטפונים ושעונים חכמים, אם כי הזינוק הטרנדי שנוצר עם ההשקה הלך ונרגע עם הזמן.
ההבשלה של אותם צ'אטבוטים באה בעשור הבא דווקא. זה קרה עם הגעתו של ChatGPT, מודל השפה הגדול הראשון (LLM), שאחריו הגיעו נוספים, כמו Gemini או Claude. מודל השפה הזה הוא בעיקרון מנוע בינה מלאכותית גדול ורחב-אופקים, המצויד ביכולת להבין שפה טבעית, אנושית, ויכול לעשות המון דברים, כלומר להתמודד עם מגוון ענקי של משימות ושהיכולות שלו הולכות וגדלות מיום ליום. ראו בתגית "LLM".
ממודלי השפה הגדולים התפתחו גם מנועי היצירה של הבינה הג'נרטיבית (Generative AI), המייצרים תמונות, שירים, וידאו ועוד. הכירו בתגית "GenAI".
אחריו נולדו סוכני ה-AI, צ'אטבוטים שממלאים משימות עבורך, על ידי שילוב בין היכולת הבינתית של מודל השפה הגדול כמו ChatGPT, עם היכולת של רכיב תוכנה שיכול לפעול באופן עצמאי וממוקד, למילוי של משימה ספציפית עבורנו, כמו לתכנן טיול, לקנות מוצרים אונליין, לטפל בדואר האלקטרוני שלנו וכדומה.
אותם סוכני AI הם רכיבי תוכנה אוטונומיים, יישומים מבוססי בינה מלאכותית, המסוגלים לתפוס את סביבתם, לקבל החלטות ולפעול לביצוע או השגת מטרות ממוקדות בשירות המשתמש. הכירו אותם בתגית "סוכני AI".
כלומר, אם הצ'טבוט של העשור שהחל ב-2010 היה עובד חרוץ אך לא חכם מדי, הצ'טבוט הבינתי של מודל השפה הגדול בעשור שאחריו רכש השכלה ופיתח את יכולותיו האינטליגנטיות באופן שהפך אותו למומחה ואז מגיע הסוכן הבינתי, AI agent והוא כבר עובד שמתמחה במשימה מסוימת ועושה אותה בצורה מיומנת וחרוצה.
עסקה טובה לרובנו.
פעילות נחמדה
============
בקישורים שלמטה יש לינק לצ'ט בוט נהדר. נסו לשוחח איתה (באנגלית) ולהכיר קצת את חוויית השיחה עם צ'ט בוט אופייני.
הנה עולם הצ'אטבוט:
http://youtu.be/iE9LtfQAYYU
עוד על השימוש בצ'אטבוטים ברשת:
http://youtu.be/G8z--x5tFOI
ההכרזה על הצ'אט בוט במסנג'ר של פייסבוק:
http://youtu.be/EOYnFUJyOlQ
ומנגד - כשהושק הצ'אטבוט של מיקרוסופט הוא "הסתבך" עם ביטויי גזענות קשים:
http://youtu.be/LA49GBcbudg
מהם טוקנים ב-AI ולמידת מכונה?
מאסימוני הטלפונים ועד עולם אבטחת מערכות מחשוב, טוקן (Token), בעברית “אסימון”, הוא מושג המשתנה בהתאם להקשר שבו הוא מוזכר. אפילו בתוך עולם המחשבים יש למושג טוקן כמה שימושים.
בלמידת מכונה, אחת הזירות המרתקות של העידן המודרני והתחום בו פועלים מודלי השפה הפופולריים של ימינו, כמו Claude או ChatGPT, לטוקנים יש משמעות אדירה.
אותם מודלים גדולים, LLMs, הם מודלים מתמטיים. כדי לבצע את המשימות שאנו מבקשים מהם, תוך כדי תקשורת איתם בשפה טבעית, כמו אנגלית, עברית וכדומה, הם משתמשים בתהליך שנקרא "טוקניזציה" (Tokenization).
במרכז הטוקניזציה נעשה פילוח של הטקסטים שהמודלים הללו מקבלים כנתונים, כדאטה, ליחידות קטנות יותר, תרגום של חלקי המידע הקטנים למספרים, כשאת יחידות המידע הללו, שהומרו למספרים, הם ינתחו בהמשך.
כך, אחרי שמסתיימת הטוקניזציה, הם מייצרים מהמידע טוקנים, מספרים שכל אחד מהם מייצג פריט מידע קטן. ה"טוקן" משמש בהם בתפקיד "אסימון למידת המכונה", שמתאר באופן מתמטי את יחידות הטקסט הקטנות. אלה מעין יחידות מידה שהמודלים המוכרים יוצרים מהקונטקסט.
לאחר שסיימו להפוך את המידע לטוקנים, מרבית המודלים שאנו מכירים הטוקנים משמשים לייצוג של הטקסט, ביחידות קטנות שהמודל מעבד בצורה מתמטית.
כשאנו משתמשים בטוקנים, זה כדי לסייע למודל להבין את המבנה של הטקסט, כך שיוכל לבצע על פיו את החישובים שלו. טוקן אחד יכול להיות כל חלק ממילה בשפה הרגילה שלנו, או אפילו תו אחד.
כדי להבין ולהגיב לקלט, המודל משתמש בכמות מסוימת של טוקנים. וטוקן יכול להיות כל פיסת מידע, מתו בודד ועד מילה שלמה ולעתים גם יותר. יש שיטות שונות של טוקניזציה והבחירה ביניהן היא בהתאם לאלגוריתם בו משתמשים. יש שהאסימון הוא לפי תווים (Character tokenization), אסימון לפי מילים, לפי משפט, ביטויים, טוקניזציה לפי מילת משנה ולפי מספר.
בשיחה על מודל AI (ה-LLM, כמו ChatGPT או Claude) משמש הטוקן לציון גודל השיחה על המודל והיקף המידע שיכול להיות בה. לכל מודל יש מגבלה של זיכרון התוכן שהוא יכול לעבד בשיחה אחת ולהתבסס עליו בתשובות שלו ובמהלך השיחה.
כל הטקסט שהמודל מכיל ובא מהקלט שמזרים לו המשתמש, כולל השאלות והתשובות וכל מידע נוסף, כל אלו מכונים "קונטקסט" (Context), כלומר "ההקשר".
חלון ההקשר (context window), או "חלון הקונטקסט", מייצג את כמות התוכן שהמודל יכול לעבד בשיחה עם משתמש. הכמות הזו נספרת בטוקנים. אם קלוד, למשל, תומך ב-200 אלף טוקנים, זה אומר שהשיחה יכולה לכלול כ-40 אלף מילים. אם לג'מיני של גוגל יש מיליון טוקנים, זה אומר פי 5 יותר מילים וגודל חלון הקונטקסט שלה, כלומר השיחות עם ג'מיני הוא של כ-2 ספרים ממוצעים.
טוקניזציה כפי שהיא נעשית בידי מדעני נתונים:
https://youtu.be/fNxaJsNG3-s
פרמטרים וטוקנים הם לא הכל במודלים:
https://youtu.be/a1nqXQMOCks
הסבר של Machine Learning Token באנגלית:
https://youtu.be/mnqXgojQCJI
וטוקניזציה באתרי אינטרנט שיכולה לשמש בהקשר אחר כאמצעי אבטחה:
https://youtu.be/Y7I4IDojhJk
מאסימוני הטלפונים ועד עולם אבטחת מערכות מחשוב, טוקן (Token), בעברית “אסימון”, הוא מושג המשתנה בהתאם להקשר שבו הוא מוזכר. אפילו בתוך עולם המחשבים יש למושג טוקן כמה שימושים.
בלמידת מכונה, אחת הזירות המרתקות של העידן המודרני והתחום בו פועלים מודלי השפה הפופולריים של ימינו, כמו Claude או ChatGPT, לטוקנים יש משמעות אדירה.
אותם מודלים גדולים, LLMs, הם מודלים מתמטיים. כדי לבצע את המשימות שאנו מבקשים מהם, תוך כדי תקשורת איתם בשפה טבעית, כמו אנגלית, עברית וכדומה, הם משתמשים בתהליך שנקרא "טוקניזציה" (Tokenization).
במרכז הטוקניזציה נעשה פילוח של הטקסטים שהמודלים הללו מקבלים כנתונים, כדאטה, ליחידות קטנות יותר, תרגום של חלקי המידע הקטנים למספרים, כשאת יחידות המידע הללו, שהומרו למספרים, הם ינתחו בהמשך.
כך, אחרי שמסתיימת הטוקניזציה, הם מייצרים מהמידע טוקנים, מספרים שכל אחד מהם מייצג פריט מידע קטן. ה"טוקן" משמש בהם בתפקיד "אסימון למידת המכונה", שמתאר באופן מתמטי את יחידות הטקסט הקטנות. אלה מעין יחידות מידה שהמודלים המוכרים יוצרים מהקונטקסט.
לאחר שסיימו להפוך את המידע לטוקנים, מרבית המודלים שאנו מכירים הטוקנים משמשים לייצוג של הטקסט, ביחידות קטנות שהמודל מעבד בצורה מתמטית.
כשאנו משתמשים בטוקנים, זה כדי לסייע למודל להבין את המבנה של הטקסט, כך שיוכל לבצע על פיו את החישובים שלו. טוקן אחד יכול להיות כל חלק ממילה בשפה הרגילה שלנו, או אפילו תו אחד.
כדי להבין ולהגיב לקלט, המודל משתמש בכמות מסוימת של טוקנים. וטוקן יכול להיות כל פיסת מידע, מתו בודד ועד מילה שלמה ולעתים גם יותר. יש שיטות שונות של טוקניזציה והבחירה ביניהן היא בהתאם לאלגוריתם בו משתמשים. יש שהאסימון הוא לפי תווים (Character tokenization), אסימון לפי מילים, לפי משפט, ביטויים, טוקניזציה לפי מילת משנה ולפי מספר.
בשיחה על מודל AI (ה-LLM, כמו ChatGPT או Claude) משמש הטוקן לציון גודל השיחה על המודל והיקף המידע שיכול להיות בה. לכל מודל יש מגבלה של זיכרון התוכן שהוא יכול לעבד בשיחה אחת ולהתבסס עליו בתשובות שלו ובמהלך השיחה.
כל הטקסט שהמודל מכיל ובא מהקלט שמזרים לו המשתמש, כולל השאלות והתשובות וכל מידע נוסף, כל אלו מכונים "קונטקסט" (Context), כלומר "ההקשר".
חלון ההקשר (context window), או "חלון הקונטקסט", מייצג את כמות התוכן שהמודל יכול לעבד בשיחה עם משתמש. הכמות הזו נספרת בטוקנים. אם קלוד, למשל, תומך ב-200 אלף טוקנים, זה אומר שהשיחה יכולה לכלול כ-40 אלף מילים. אם לג'מיני של גוגל יש מיליון טוקנים, זה אומר פי 5 יותר מילים וגודל חלון הקונטקסט שלה, כלומר השיחות עם ג'מיני הוא של כ-2 ספרים ממוצעים.
טוקניזציה כפי שהיא נעשית בידי מדעני נתונים:
https://youtu.be/fNxaJsNG3-s
פרמטרים וטוקנים הם לא הכל במודלים:
https://youtu.be/a1nqXQMOCks
הסבר של Machine Learning Token באנגלית:
https://youtu.be/mnqXgojQCJI
וטוקניזציה באתרי אינטרנט שיכולה לשמש בהקשר אחר כאמצעי אבטחה:
https://youtu.be/Y7I4IDojhJk
מהי טפשת ה-AI שתפגע באיכות התוכן והקוד?
אחת התופעות שמתחילות להתגלות בשנים האחרונות, מאז הפריצה של הבינה המלאכותית הגנרטיבית, היא של טפשת שגורמת הבינה הגנרטיבית למידע ולתוכן באינטרנט.
ברור שהשימוש הכל כך קל ב-Generative AI מקל על המשתמשים, אבל ידוע לכל שיש לבדוק את המידע שהיא יוצרת לפני שמחזירים אותו לציבור כמידע שיצרו בני אדם. מסתבר שרבים לא מבינים את החולשות והפגמים שעדיין מלאים בהם מודלי השפה, אותם מודלים גדולים (LLMs) שעושים היום את הידע. אם אלה תכנים שהתקבלו מקלוד או ChatGPT, רכיבי AI שנועדו לייצר קוד בתכנות, וידאו או תמונות גנרטיביות שיוצרים מנועים שונים ועוד.
התופעה הזו כבר פוגעת באיכות המידע באינטרנט, לפי בדיקות אובייקטיביות שעורכים באופן תקופתי לאיכות הרשת. מסתבר שלא זו בלבד שבני אדם מסתמכים על מידע שחלקו לא מדויק בלשון המעטה, אלא שהקרולרים עצמם, אותן תוכנות שאוספות את המידע מהרשת לצורך אימון, הזנת ועדכון מודלי השפה הגדולים - מסתבר שהם עצמם מסתמכים על המידע הגרוע הזה. ובדיוק כך, הוא חוזר למודל השפה ונכנס לתוכן שמקוטלג לטוקנים (Tokens) ובחזרה לדאטה שעליו הם מסתמכים. התוצאה היא שיותר ויותר מידע לא בדוק ולא אחראי, שהגיע מלכתחילה לרשת ממודלי שפה לא בשלים מספיק, חוזר ומפרה את המודלים הבוגרים, שאמורים לקבל מידע אנושי ואיכותי ולא תמיד יודעים לאתר את השגיאות שבו.
גם בעולם העסקים והארגונים יש כבר החמרה. הירידה באיכות התוכן שבאינטרנט נובעת מהשימוש הגובר והולך בחומר בינוני, שהגיע מהבינה המלאכותית הגנרטיבית, אך לא בוגרת, של הדור הראשון. כבר עם ההשקה של ChatGPT ב-2022, גילו מנהלים את הצ'טבוט שמאפשר להם ליצור חומרים באמצעות בינה מלאכותית יוצרת (generative AI) וחיפשו דרכים להשתמש בהם, במקום בעבודה של עובדים או חברות מיקור החוץ שבהם השתמשו בעבר. מעט מאותם מאמצים התגלו כיעילים ומרביתם נשארו בפוטנציאל יותר מאשר החליפו עובדים.
אך בתחום התכנות זה כן קרה. מסתבר שמודלים כמו CoPilot, Claude ואחרים מייצרים קוד במהירות ומחליפים את הג'וניורים, המתכנתים הצעירים בתעשייה. לפי סקרים שמתפרסמים בעולם נראה שקצב האימוץ של המנועים הללו הוא גבוה, במיוחד ביחס לזמן הקצר שבו הם פועלים. אלא שבסוף 2024 מתחיל להסתבר שכ-40% מהמתכנתים בעולם משתמשים בכלים כאלה ומשגרים קוד שלפחות בחלקו הוא פחות מוצלח. קוד זה חוזר ו"נלמד" על ידי המודלים ומוריד את איכות התכנות שלהם באופן מתמשך, שעלול אף להחמיר.
אחת התופעות שמתחילות להתגלות בשנים האחרונות, מאז הפריצה של הבינה המלאכותית הגנרטיבית, היא של טפשת שגורמת הבינה הגנרטיבית למידע ולתוכן באינטרנט.
ברור שהשימוש הכל כך קל ב-Generative AI מקל על המשתמשים, אבל ידוע לכל שיש לבדוק את המידע שהיא יוצרת לפני שמחזירים אותו לציבור כמידע שיצרו בני אדם. מסתבר שרבים לא מבינים את החולשות והפגמים שעדיין מלאים בהם מודלי השפה, אותם מודלים גדולים (LLMs) שעושים היום את הידע. אם אלה תכנים שהתקבלו מקלוד או ChatGPT, רכיבי AI שנועדו לייצר קוד בתכנות, וידאו או תמונות גנרטיביות שיוצרים מנועים שונים ועוד.
התופעה הזו כבר פוגעת באיכות המידע באינטרנט, לפי בדיקות אובייקטיביות שעורכים באופן תקופתי לאיכות הרשת. מסתבר שלא זו בלבד שבני אדם מסתמכים על מידע שחלקו לא מדויק בלשון המעטה, אלא שהקרולרים עצמם, אותן תוכנות שאוספות את המידע מהרשת לצורך אימון, הזנת ועדכון מודלי השפה הגדולים - מסתבר שהם עצמם מסתמכים על המידע הגרוע הזה. ובדיוק כך, הוא חוזר למודל השפה ונכנס לתוכן שמקוטלג לטוקנים (Tokens) ובחזרה לדאטה שעליו הם מסתמכים. התוצאה היא שיותר ויותר מידע לא בדוק ולא אחראי, שהגיע מלכתחילה לרשת ממודלי שפה לא בשלים מספיק, חוזר ומפרה את המודלים הבוגרים, שאמורים לקבל מידע אנושי ואיכותי ולא תמיד יודעים לאתר את השגיאות שבו.
גם בעולם העסקים והארגונים יש כבר החמרה. הירידה באיכות התוכן שבאינטרנט נובעת מהשימוש הגובר והולך בחומר בינוני, שהגיע מהבינה המלאכותית הגנרטיבית, אך לא בוגרת, של הדור הראשון. כבר עם ההשקה של ChatGPT ב-2022, גילו מנהלים את הצ'טבוט שמאפשר להם ליצור חומרים באמצעות בינה מלאכותית יוצרת (generative AI) וחיפשו דרכים להשתמש בהם, במקום בעבודה של עובדים או חברות מיקור החוץ שבהם השתמשו בעבר. מעט מאותם מאמצים התגלו כיעילים ומרביתם נשארו בפוטנציאל יותר מאשר החליפו עובדים.
אך בתחום התכנות זה כן קרה. מסתבר שמודלים כמו CoPilot, Claude ואחרים מייצרים קוד במהירות ומחליפים את הג'וניורים, המתכנתים הצעירים בתעשייה. לפי סקרים שמתפרסמים בעולם נראה שקצב האימוץ של המנועים הללו הוא גבוה, במיוחד ביחס לזמן הקצר שבו הם פועלים. אלא שבסוף 2024 מתחיל להסתבר שכ-40% מהמתכנתים בעולם משתמשים בכלים כאלה ומשגרים קוד שלפחות בחלקו הוא פחות מוצלח. קוד זה חוזר ו"נלמד" על ידי המודלים ומוריד את איכות התכנות שלהם באופן מתמשך, שעלול אף להחמיר.