שלום,
נראה שכבר הכרתם את אאוריקה. בטח כבר גיליתם כאן דברים מדהימים, אולי כבר שאלתם שאלות וקיבלתם תשובות טובות.
נשמח לראות משהו מכם בספר האורחים שלנו: איזו מילה טובה, חוות דעת, עצה חכמה לשיפור או כל מה שיש לכם לספר לנו על אאוריקה, כפי שאתם חווים אותה.
»
«
אג'נטיק AI
מה זה LoRA ב-AI ולמה היא משמשת?
LoRA, ובעברית לורה (Low-Rank Adaptation) היא טכניקה בעולם ה-GenAI, העולם של הבינה המלאכותית היוצרת. היא מאפשרת כוונון עדין (fine-tuning) של מודלים גדולים (LLMs) וכלליים מדי, להתאמה של מודלים קיימים לצרכים ספציפיים בצורה יעילה וחסכונית במשאבים.
מפני שההסבר הטכני הזה כנראה לא מובן מדי, נסביר את הלורה באמצעות דוגמה פשוטה:
נניח שיש לנו מודל AI שיודע לג'נרט (generate), כלומר לצייר בבינה מלאכותית. אנחנו רוצים שהוא ייצר דמויות בסגנון אנימה או דמות מסוימת, שמשום מה הוא אינו מכיר, כי היא לא הייתה בדאטה שהוא אומן עליו.
לכן, במקום לבקש שיאמנו את המנוע, או המודל הגדול, מחדש על המון ציורי אנימה, או להמתין בסבלנות מתסכלת עד שיום אחד הוא כן יכיר את הסגנון או הדמות הספציפית, נשתמש בטכניקה שונה. טכניקת הלורה.
ב-LoRA, כדי ללמד את המודל על הסגנון הזה או על הדמות המסוימת שאנחנו רוצים, מאפשרים לנו לאמן אותו בעצמנו, בעזרת דוגמאות בודדות ש"נראה לו", כלומר נטען אליו ב-Upload.
השיטה היעילה הזו לכוונון עדין של מערכות AI, מתאימה במיוחד ליצירת תמונות ריאליסטיות, למשל, להתאמה של סגנונות עיצוביים או ליצירת דמויות עקביות בפרויקטים גרפיים, תוך שימוש בכמות קטנה יחסית של נתוני אימון.
כך נוכל ליצור, למשל את אותה דמות מדויקת, בסצנות שונות של סרטון שמייצר ה-AI או בציורי קומיקס רציפים שנוצרים כך.
כלומר,ה-LoRA נועדה להוסיף שכבת משקולות חדשה למודל המקורי, מבלי לשנות אותו, תוך כדי קיצור של זמן האימון ושיפור של הגמישות שלו.
ואגב, השיטה עובדת עבור כל רשת עצבית ולא רק עבור מודלי שפה גדולים LLMs (קראו עליהם בתגית "LLM").
הנה הסבר של רעיון ה-LoRA:
https://youtu.be/lixMONUAjfs
כך יוצרים LoRA במערכת ספציפית:
https://youtu.be/HfwFgkFCtpM
ויצירת לורה של דמות מוכרת:
https://youtu.be/KEv-F5UkhxU?long=yes
LoRA, ובעברית לורה (Low-Rank Adaptation) היא טכניקה בעולם ה-GenAI, העולם של הבינה המלאכותית היוצרת. היא מאפשרת כוונון עדין (fine-tuning) של מודלים גדולים (LLMs) וכלליים מדי, להתאמה של מודלים קיימים לצרכים ספציפיים בצורה יעילה וחסכונית במשאבים.
מפני שההסבר הטכני הזה כנראה לא מובן מדי, נסביר את הלורה באמצעות דוגמה פשוטה:
נניח שיש לנו מודל AI שיודע לג'נרט (generate), כלומר לצייר בבינה מלאכותית. אנחנו רוצים שהוא ייצר דמויות בסגנון אנימה או דמות מסוימת, שמשום מה הוא אינו מכיר, כי היא לא הייתה בדאטה שהוא אומן עליו.
לכן, במקום לבקש שיאמנו את המנוע, או המודל הגדול, מחדש על המון ציורי אנימה, או להמתין בסבלנות מתסכלת עד שיום אחד הוא כן יכיר את הסגנון או הדמות הספציפית, נשתמש בטכניקה שונה. טכניקת הלורה.
ב-LoRA, כדי ללמד את המודל על הסגנון הזה או על הדמות המסוימת שאנחנו רוצים, מאפשרים לנו לאמן אותו בעצמנו, בעזרת דוגמאות בודדות ש"נראה לו", כלומר נטען אליו ב-Upload.
השיטה היעילה הזו לכוונון עדין של מערכות AI, מתאימה במיוחד ליצירת תמונות ריאליסטיות, למשל, להתאמה של סגנונות עיצוביים או ליצירת דמויות עקביות בפרויקטים גרפיים, תוך שימוש בכמות קטנה יחסית של נתוני אימון.
כך נוכל ליצור, למשל את אותה דמות מדויקת, בסצנות שונות של סרטון שמייצר ה-AI או בציורי קומיקס רציפים שנוצרים כך.
כלומר,ה-LoRA נועדה להוסיף שכבת משקולות חדשה למודל המקורי, מבלי לשנות אותו, תוך כדי קיצור של זמן האימון ושיפור של הגמישות שלו.
ואגב, השיטה עובדת עבור כל רשת עצבית ולא רק עבור מודלי שפה גדולים LLMs (קראו עליהם בתגית "LLM").
הנה הסבר של רעיון ה-LoRA:
https://youtu.be/lixMONUAjfs
כך יוצרים LoRA במערכת ספציפית:
https://youtu.be/HfwFgkFCtpM
ויצירת לורה של דמות מוכרת:
https://youtu.be/KEv-F5UkhxU?long=yes
מה זה אג'נטיק AI?
בינה מלאכותית אג'נטית (Agentic Al) היא סוג של בינה מלאכותית שמשלבת את מודלי השפה, כמו ה-GPT, עם כלי פיתוח, ידע ופעולות שנועדו לאפשר בנייה של "סוכנים בינתיים" (AI agent) שיסייעו לנו במשימות שונות.
המושג הזה והכלים המיועדים עבור Agentic Al מכוונים בדרך כלל למתכנתים. אך לעולם של בניית סוכני AI הולכים ונכנסים, ללא כתיבת קוד, גם מי שאינם מתכנתים.
נזכיר שאותם סוכני AI שהאג'נטיק AI מאפשר הם כבר לא לאו דווקא מודלי שפה כלליים שעושים או יודעים לעשות הכל, כמו ה-LLMים הגדולים, אלא מנועים מתמחים, מתוכנתים עם יעדים ברורים ומכוונים לביצוע של משימות ספציפיות, עבור אנשים פרטיים או לארגונים ועסקים.
כי בניגוד למנועי השפה הגדולים (LLM) שהתמחו בהמלצות, עזרה וחשיבה, אבל בעיקר בטקסט, הסוכנים החכמים יכולים לעשות וממש עושים פעולות בעולם האמיתי ומהחיים עצמם - הם מתכנתים, בונים אתרים, משווקים, יוצרים תוכן, משרתים לקוחות, נותנים תמיכה ושירות, מעדכנים גיליון אלקטרוני, נותנים תמיכה טכנית, עונים לאימיילים, קונים מוצרים ועוד המון.
#שלוש תכונות בסיס יש לסוכני AI:
אוטונומיה - שמשמעותה פעילות ללא צורך מתמיד בהנחיה אנושית.
סתגלנות - יכולתם ללמוד מהאינטראקציות שלהם ולהגדיר מחדש את האלגוריתמים שלהם על סמך הידע שרכשו.
מכוונות למטרה - הם מתוכנתים להשגת יעדים ברורים, כמו נהיגה ברכב אוטונומי, טיפול במיילים שלנו, או תזמון פגישות.
#אג'נטיק AI בתעשיה
בחברות ענק מפתחים כל הזמן סוכנים חכמים שיכולים לבצע משימות, בפיקוח של מנהלים וראשי צוותים כמובן. אלה מערכות אוטונומיות ואג'נטיות, מבוססות בינה מלאכותית, המסוגלות לבצע משימות מורכבות, ממש כמו "מערכות המומחה", שמדענים חלמו עליהן בשנות ה-80 המאוחרות ומתגשמות עכשיו כסוכני בינה מלאכותית (AI Agents) שעובדים על סטרואידים.
אותם סוכנים, מבוססי בינה מלאכותית, ממש עובדים בשביל החברה וכבר בהתחלה משתמשים בכלים יומיומיים כמו Gmail, Salesforce, Office365, Google Sheets ועוד. הם מקבלים משימות מורכבות, מסוגלים לפרקן לתתי-משימות ולחלק את העבודה על ידי שיוך כל תת-משימה כזו לסוכן ה-AI המתאים ביותר לבצעה. כך ניתן לקבל את הפתרונות המתאימים ביותר גם למשימות מורכבות ביותר.
#עתיד מרובה סוכנים
השלב הבא הוא כמובן שלב החיבור של מספר סוכנים ועובדים חכמים שכאלה, לעבודה משותפת ומילוי משימות משותף. כי אחת היכולות המשמעותיות ביותר של סוכן AI היא לתקשר ולשתף פעולה עם מערכות AI אחרות, לצד תשתיות דיגיטליות. זה מה שמאפשר גישה משולבת ויעילה יותר, למשל לפתרון בעיות וניהול משימות בבית. זה נקרא בתעשייה "מערכות מרובות סוכנים" (Multi-Agent Systems).
דמיינו שרשרת של מכונות חכמות הפועלות כמו משרד אנושי, בו לכל עובד יש התמחות ותפקיד תואם. השלם בה הוא גדול מסכום חלקיו, קצת כמו הקובוטים (Cobots), עדרי הרובוטים המסונכרנים להפליא, שעובדים במחסני ומרכזי השילוח של Amazon.
מהחזון האג'נטי הזה קל לדמיין כיצד קם ז'אנר חדש ואולטרה מודרני של עסקים. אלה מפעלים תעשייתיים, וירטואליים לחלוטין, כמעט ללא בני אדם, או עם בני האדם המפקחים ומנהלים את הבינות, כשהם מייצרים בקבוצות קטנות את מה שבעבר חייב מאות או אלפי עובדים ויותר.
זה העתיד והוא מתחיל עכשיו. אג'נטיק AI מבטיח בפשטות שאם פעם השמיים היו הגבול, היום האופק הוא השמיים ואת הגבול לא ניתן לראות.
הנה הסבר על Agentic AI:
https://youtu.be/-pqzyvRp3Tc
אלה הם סוכני AI:
https://youtu.be/Fyo6vnM8BBk
כך יוצרים סוכן AI ב-Claude בתחילת 2025:
https://youtu.be/amCjKc9O_Bo
Windsurf האג'נטי הוא סוכן AI שמייצר קוד לתוכנות ואתרים:
https://youtu.be/pOvI02of5oo
הבשלת היכולות של סוכנים חכמים מבוססי AI היא תוצאה של התפתחות אדירה. הנה "Do Browser" שיודע לתת לנו שירות מופלא אונליין:
https://youtu.be/vMFWeCMrFNU
וזה החזון המבהיל או מבטיח - תאגיד של אחד או אחת:
https://youtu.be/6EGqLE0Y6Z0?long=yes
בינה מלאכותית אג'נטית (Agentic Al) היא סוג של בינה מלאכותית שמשלבת את מודלי השפה, כמו ה-GPT, עם כלי פיתוח, ידע ופעולות שנועדו לאפשר בנייה של "סוכנים בינתיים" (AI agent) שיסייעו לנו במשימות שונות.
המושג הזה והכלים המיועדים עבור Agentic Al מכוונים בדרך כלל למתכנתים. אך לעולם של בניית סוכני AI הולכים ונכנסים, ללא כתיבת קוד, גם מי שאינם מתכנתים.
נזכיר שאותם סוכני AI שהאג'נטיק AI מאפשר הם כבר לא לאו דווקא מודלי שפה כלליים שעושים או יודעים לעשות הכל, כמו ה-LLMים הגדולים, אלא מנועים מתמחים, מתוכנתים עם יעדים ברורים ומכוונים לביצוע של משימות ספציפיות, עבור אנשים פרטיים או לארגונים ועסקים.
כי בניגוד למנועי השפה הגדולים (LLM) שהתמחו בהמלצות, עזרה וחשיבה, אבל בעיקר בטקסט, הסוכנים החכמים יכולים לעשות וממש עושים פעולות בעולם האמיתי ומהחיים עצמם - הם מתכנתים, בונים אתרים, משווקים, יוצרים תוכן, משרתים לקוחות, נותנים תמיכה ושירות, מעדכנים גיליון אלקטרוני, נותנים תמיכה טכנית, עונים לאימיילים, קונים מוצרים ועוד המון.
#שלוש תכונות בסיס יש לסוכני AI:
אוטונומיה - שמשמעותה פעילות ללא צורך מתמיד בהנחיה אנושית.
סתגלנות - יכולתם ללמוד מהאינטראקציות שלהם ולהגדיר מחדש את האלגוריתמים שלהם על סמך הידע שרכשו.
מכוונות למטרה - הם מתוכנתים להשגת יעדים ברורים, כמו נהיגה ברכב אוטונומי, טיפול במיילים שלנו, או תזמון פגישות.
#אג'נטיק AI בתעשיה
בחברות ענק מפתחים כל הזמן סוכנים חכמים שיכולים לבצע משימות, בפיקוח של מנהלים וראשי צוותים כמובן. אלה מערכות אוטונומיות ואג'נטיות, מבוססות בינה מלאכותית, המסוגלות לבצע משימות מורכבות, ממש כמו "מערכות המומחה", שמדענים חלמו עליהן בשנות ה-80 המאוחרות ומתגשמות עכשיו כסוכני בינה מלאכותית (AI Agents) שעובדים על סטרואידים.
אותם סוכנים, מבוססי בינה מלאכותית, ממש עובדים בשביל החברה וכבר בהתחלה משתמשים בכלים יומיומיים כמו Gmail, Salesforce, Office365, Google Sheets ועוד. הם מקבלים משימות מורכבות, מסוגלים לפרקן לתתי-משימות ולחלק את העבודה על ידי שיוך כל תת-משימה כזו לסוכן ה-AI המתאים ביותר לבצעה. כך ניתן לקבל את הפתרונות המתאימים ביותר גם למשימות מורכבות ביותר.
#עתיד מרובה סוכנים
השלב הבא הוא כמובן שלב החיבור של מספר סוכנים ועובדים חכמים שכאלה, לעבודה משותפת ומילוי משימות משותף. כי אחת היכולות המשמעותיות ביותר של סוכן AI היא לתקשר ולשתף פעולה עם מערכות AI אחרות, לצד תשתיות דיגיטליות. זה מה שמאפשר גישה משולבת ויעילה יותר, למשל לפתרון בעיות וניהול משימות בבית. זה נקרא בתעשייה "מערכות מרובות סוכנים" (Multi-Agent Systems).
דמיינו שרשרת של מכונות חכמות הפועלות כמו משרד אנושי, בו לכל עובד יש התמחות ותפקיד תואם. השלם בה הוא גדול מסכום חלקיו, קצת כמו הקובוטים (Cobots), עדרי הרובוטים המסונכרנים להפליא, שעובדים במחסני ומרכזי השילוח של Amazon.
מהחזון האג'נטי הזה קל לדמיין כיצד קם ז'אנר חדש ואולטרה מודרני של עסקים. אלה מפעלים תעשייתיים, וירטואליים לחלוטין, כמעט ללא בני אדם, או עם בני האדם המפקחים ומנהלים את הבינות, כשהם מייצרים בקבוצות קטנות את מה שבעבר חייב מאות או אלפי עובדים ויותר.
זה העתיד והוא מתחיל עכשיו. אג'נטיק AI מבטיח בפשטות שאם פעם השמיים היו הגבול, היום האופק הוא השמיים ואת הגבול לא ניתן לראות.
הנה הסבר על Agentic AI:
https://youtu.be/-pqzyvRp3Tc
אלה הם סוכני AI:
https://youtu.be/Fyo6vnM8BBk
כך יוצרים סוכן AI ב-Claude בתחילת 2025:
https://youtu.be/amCjKc9O_Bo
Windsurf האג'נטי הוא סוכן AI שמייצר קוד לתוכנות ואתרים:
https://youtu.be/pOvI02of5oo
הבשלת היכולות של סוכנים חכמים מבוססי AI היא תוצאה של התפתחות אדירה. הנה "Do Browser" שיודע לתת לנו שירות מופלא אונליין:
https://youtu.be/vMFWeCMrFNU
וזה החזון המבהיל או מבטיח - תאגיד של אחד או אחת:
https://youtu.be/6EGqLE0Y6Z0?long=yes
מהי מולטי מודאליות בעולם ה-AI?
זה אחד הפיתוחים המרגשים של עידן הבינה החדש ומה שמרגיש לא פעם כמו סרטי מד"ב מהיותר מתוחכמים. קוראים לזה מולטי-מודאליות (Multimodality) והוא בעצם היכולת של כלי AI לעבוד עם סוגי נתונים שונים, כמו טקסט, אודיו, קוד, וידאו ותמונות - גם כקלט וגם כפלט.
במקום להתמקד בסוג אחד בלבד של נתונים, מערכת רב-מודאלית מקבלת ומנתחת מידע ממקורות מגוונים, בכדי לקבל הבנה מעמיקה יותר של העולם הסובב אותה. מדובר בכלי ממוחשב שבדיוק כמו שבני אדם חווים את העולם דרך כל החושים והחוויות, לא רק מבין טקסט, אלא גם רואה תמונות וסרטים, מעבד ומנתח וידאו, מגלה הבנה מרחבית, שומע קולות וצלילים, מפענח קוד של תוכנה ומסוגל גם ליצור תכנים ותוצרים בכל המדיות הללו.
בדומה למוח האנושי, המשלב בטבעיות מידע מכל החושים, העולם של המערכות המולטי מודאליות ב-generative AI מציג יכולת שהיא עוד רכיב במהפכה הגדולה של מערכות בינה מלאכותית, מהפכונת שמאפשרת לעבד ולשלב כמה סוגי מדיה במקביל.
המערכות החדשות הללו מצוידות בשכבות מורכבות של פענוח ומפענחות את העולם פחות או יותר כמו מחשב-על. דוגמאות לא חסר. למשל עם צ'טבוט שבזכות ההבנה המרחבית המשופרת שלו מסוגל לזהות ולהוסיף כיתוב מדויק לעצמים שונים בתמונות עמוסות פריטים. או צ'טבוט שמנתח תמונות ומאפשר למשתמש לנהל עליהן דיון, או סוקר אינפוגרפיקה ונותן לה פרשנות קולית רלוונטית, בהתאם לרמת ההבנה של המשתמש או קהל היעד המבוקש. לכלי כזה יש גם כלי וידאו שמקבלים תמונה והנחייה כתובה (פרומפט) ומנפישים את התמונה לקליפ וידאו שכמו צולם בידי צוות צילום הוליוודי.
דוגמה נוספת היא כלי אינטראקציה רב-מודאלי כמו NotebookLM. הוא מאפשר למשתמשים לשתף איתו את המסך או המצלמה שלהם בזמן אמת. כך ניתן לקיים שיחות קוליות דמויות אדם, תוך כדי שמאפשרים ל-AI לצפות במסך ולעזור, תוך כדי מודעות להקשר ולתוכן.
אפילו תכונת זיהוי הפנים בסמארטפון שלכם היא תכונה שמשלבת היטב ראייה ממוחשבת, מיפוי תלת-ממדי ועיבוד נתונים מתקדם. ומאלה היא יוצרת פיצ'ר מדהים, בצד חווית משתמש פשטותה כמו מבט של שומר אנושי.
שילוב של צורות נתונים מרובות, כמו טקסט, תמונות ואודיו לתוך מערכת מאוחדת ורב-מודאלית היא שמאפשרת למודלים כמו Claude או GPT-4 לכתוב קוד כשמזינים לתוכו דיאגרמה ולמודלים שונים ליצור תמונות או סרטוני וידאו עם תיאורים.
את המהפכה המולטימודאלית אפשר לזהות בקלות בפלטפורמות כמו טיקטוק (TikTok) ואינסטגרם (Instagram), בהן משלבים סוגי מדיה מגוונים ומעבדים במגוון כלים, המשנים את הדרך בה אנו מספרים את הסיפור שלנו לעולם.
הנה הסבר היכולת המולטי-מודאלית:
https://youtu.be/97n1u66Shgg
כך עובדים מערכות מולטי מודאליות:
https://youtu.be/WkoytlA3MoQ
וההיפר מודאליות החדשה של גוגל מארינר:
https://youtu.be/KeUMm1xF3o0?long=yes
זה אחד הפיתוחים המרגשים של עידן הבינה החדש ומה שמרגיש לא פעם כמו סרטי מד"ב מהיותר מתוחכמים. קוראים לזה מולטי-מודאליות (Multimodality) והוא בעצם היכולת של כלי AI לעבוד עם סוגי נתונים שונים, כמו טקסט, אודיו, קוד, וידאו ותמונות - גם כקלט וגם כפלט.
במקום להתמקד בסוג אחד בלבד של נתונים, מערכת רב-מודאלית מקבלת ומנתחת מידע ממקורות מגוונים, בכדי לקבל הבנה מעמיקה יותר של העולם הסובב אותה. מדובר בכלי ממוחשב שבדיוק כמו שבני אדם חווים את העולם דרך כל החושים והחוויות, לא רק מבין טקסט, אלא גם רואה תמונות וסרטים, מעבד ומנתח וידאו, מגלה הבנה מרחבית, שומע קולות וצלילים, מפענח קוד של תוכנה ומסוגל גם ליצור תכנים ותוצרים בכל המדיות הללו.
בדומה למוח האנושי, המשלב בטבעיות מידע מכל החושים, העולם של המערכות המולטי מודאליות ב-generative AI מציג יכולת שהיא עוד רכיב במהפכה הגדולה של מערכות בינה מלאכותית, מהפכונת שמאפשרת לעבד ולשלב כמה סוגי מדיה במקביל.
המערכות החדשות הללו מצוידות בשכבות מורכבות של פענוח ומפענחות את העולם פחות או יותר כמו מחשב-על. דוגמאות לא חסר. למשל עם צ'טבוט שבזכות ההבנה המרחבית המשופרת שלו מסוגל לזהות ולהוסיף כיתוב מדויק לעצמים שונים בתמונות עמוסות פריטים. או צ'טבוט שמנתח תמונות ומאפשר למשתמש לנהל עליהן דיון, או סוקר אינפוגרפיקה ונותן לה פרשנות קולית רלוונטית, בהתאם לרמת ההבנה של המשתמש או קהל היעד המבוקש. לכלי כזה יש גם כלי וידאו שמקבלים תמונה והנחייה כתובה (פרומפט) ומנפישים את התמונה לקליפ וידאו שכמו צולם בידי צוות צילום הוליוודי.
דוגמה נוספת היא כלי אינטראקציה רב-מודאלי כמו NotebookLM. הוא מאפשר למשתמשים לשתף איתו את המסך או המצלמה שלהם בזמן אמת. כך ניתן לקיים שיחות קוליות דמויות אדם, תוך כדי שמאפשרים ל-AI לצפות במסך ולעזור, תוך כדי מודעות להקשר ולתוכן.
אפילו תכונת זיהוי הפנים בסמארטפון שלכם היא תכונה שמשלבת היטב ראייה ממוחשבת, מיפוי תלת-ממדי ועיבוד נתונים מתקדם. ומאלה היא יוצרת פיצ'ר מדהים, בצד חווית משתמש פשטותה כמו מבט של שומר אנושי.
שילוב של צורות נתונים מרובות, כמו טקסט, תמונות ואודיו לתוך מערכת מאוחדת ורב-מודאלית היא שמאפשרת למודלים כמו Claude או GPT-4 לכתוב קוד כשמזינים לתוכו דיאגרמה ולמודלים שונים ליצור תמונות או סרטוני וידאו עם תיאורים.
את המהפכה המולטימודאלית אפשר לזהות בקלות בפלטפורמות כמו טיקטוק (TikTok) ואינסטגרם (Instagram), בהן משלבים סוגי מדיה מגוונים ומעבדים במגוון כלים, המשנים את הדרך בה אנו מספרים את הסיפור שלנו לעולם.
הנה הסבר היכולת המולטי-מודאלית:
https://youtu.be/97n1u66Shgg
כך עובדים מערכות מולטי מודאליות:
https://youtu.be/WkoytlA3MoQ
וההיפר מודאליות החדשה של גוגל מארינר:
https://youtu.be/KeUMm1xF3o0?long=yes