אג'נטיק AI

» «

בינה מלאכותית אג'נטית (Agentic Al) היא סוג של בינה מלאכותית שמשלבת את מודלי השפה, כמו ה-GPT, עם כלי פיתוח, ידע ופעולות שנועדו לאפשר בנייה של "סוכנים בינתיים" (AI agent) שיסייעו לנו במשימות שונות.

המושג הזה והכלים המיועדים עבור Agentic Al מכוונים בדרך כלל למתכנתים. אך לעולם של בניית סוכני AI הולכים ונכנסים, ללא כתיבת קוד, גם מי שאינם מתכנתים.

נזכיר שאותם סוכני AI שהאג'נטיק AI מאפשר הם כבר לא לאו דווקא מודלי שפה כלליים שעושים או יודעים לעשות הכל, כמו ה-LLMים הגדולים, אלא מנועים מתמחים, מתוכנתים עם יעדים ברורים ומכוונים לביצוע של משימות ספציפיות, עבור אנשים פרטיים או לארגונים ועסקים.

כי בניגוד למנועי השפה הגדולים (LLM) שהתמחו בהמלצות, עזרה וחשיבה, אבל בעיקר בטקסט, הסוכנים החכמים יכולים לעשות וממש עושים פעולות בעולם האמיתי ומהחיים עצמם - הם מתכנתים, בונים אתרים, משווקים, יוצרים תוכן, משרתים לקוחות, נותנים תמיכה ושירות, מעדכנים גיליון אלקטרוני, נותנים תמיכה טכנית, עונים לאימיילים, קונים מוצרים ועוד המון.

#שלוש תכונות בסיס יש לסוכני AI:

אוטונומיה - שמשמעותה פעילות ללא צורך מתמיד בהנחיה אנושית.

סתגלנות - יכולתם ללמוד מהאינטראקציות שלהם ולהגדיר מחדש את האלגוריתמים שלהם על סמך הידע שרכשו.

מכוונות למטרה - הם מתוכנתים להשגת יעדים ברורים, כמו נהיגה ברכב אוטונומי, טיפול במיילים שלנו, או תזמון פגישות.

#אג'נטיק AI בתעשיה
בחברות ענק מפתחים כל הזמן סוכנים חכמים שיכולים לבצע משימות, בפיקוח של מנהלים וראשי צוותים כמובן. אלה מערכות אוטונומיות ואג'נטיות, מבוססות בינה מלאכותית, המסוגלות לבצע משימות מורכבות, ממש כמו "מערכות המומחה", שמדענים חלמו עליהן בשנות ה-80 המאוחרות ומתגשמות עכשיו כסוכני בינה מלאכותית (AI Agents) שעובדים על סטרואידים.

אותם סוכנים, מבוססי בינה מלאכותית, ממש עובדים בשביל החברה וכבר בהתחלה משתמשים בכלים יומיומיים כמו Gmail, Salesforce, Office365, Google Sheets ועוד. הם מקבלים משימות מורכבות, מסוגלים לפרקן לתתי-משימות ולחלק את העבודה על ידי שיוך כל תת-משימה כזו לסוכן ה-AI המתאים ביותר לבצעה. כך ניתן לקבל את הפתרונות המתאימים ביותר גם למשימות מורכבות ביותר.

#עתיד מרובה סוכנים
השלב הבא הוא כמובן שלב החיבור של מספר סוכנים ועובדים חכמים שכאלה, לעבודה משותפת ומילוי משימות משותף. כי אחת היכולות המשמעותיות ביותר של סוכן AI היא לתקשר ולשתף פעולה עם מערכות AI אחרות, לצד תשתיות דיגיטליות. זה מה שמאפשר גישה משולבת ויעילה יותר, למשל לפתרון בעיות וניהול משימות בבית. זה נקרא בתעשייה "מערכות מרובות סוכנים" (Multi-Agent Systems).

דמיינו שרשרת של מכונות חכמות הפועלות כמו משרד אנושי, בו לכל עובד יש התמחות ותפקיד תואם. השלם בה הוא גדול מסכום חלקיו, קצת כמו הקובוטים (Cobots), עדרי הרובוטים המסונכרנים להפליא, שעובדים במחסני ומרכזי השילוח של Amazon.

מהחזון האג'נטי הזה קל לדמיין כיצד קם ז'אנר חדש ואולטרה מודרני של עסקים. אלה מפעלים תעשייתיים, וירטואליים לחלוטין, כמעט ללא בני אדם, או עם בני האדם המפקחים ומנהלים את הבינות, כשהם מייצרים בקבוצות קטנות את מה שבעבר חייב מאות או אלפי עובדים ויותר.

זה העתיד והוא מתחיל עכשיו. אג'נטיק AI מבטיח בפשטות שאם פעם השמיים היו הגבול, היום האופק הוא השמיים ואת הגבול לא ניתן לראות.

הנה הסבר על Agentic AI:

https://youtu.be/-pqzyvRp3Tc

אלה הם סוכני AI:

https://youtu.be/Fyo6vnM8BBk

כך יוצרים סוכן AI ב-Claude בתחילת 2025:

https://youtu.be/amCjKc9O_Bo

Windsurf האג'נטי הוא סוכן AI שמייצר קוד לתוכנות ואתרים:

https://youtu.be/pOvI02of5oo

הבשלת היכולות של סוכנים חכמים מבוססי AI היא תוצאה של התפתחות אדירה. הנה "Do Browser" שיודע לתת לנו שירות מופלא אונליין:

https://youtu.be/vMFWeCMrFNU

וזה החזון המבהיל או מבטיח - תאגיד של אחד או אחת:

https://youtu.be/6EGqLE0Y6Z0?long=yes

מה זה LoRA ב-AI ולמה היא משמשת?

LoRA, ובעברית לורה (Low-Rank Adaptation) היא טכניקה בעולם ה-GenAI, העולם של הבינה המלאכותית היוצרת. היא מאפשרת כוונון עדין (fine-tuning) של מודלי AI גדולים (LLMs) וכלליים מדי, להתאמה של מודלים קיימים לצרכים ספציפיים בצורה יעילה וחסכונית במשאבים.

מפני שההסבר הטכני הזה כנראה לא מובן מדי, נסביר את הלורה באמצעות דוגמה פשוטה:

נניח שיש לנו מודל AI שיודע לג'נרט (generate), כלומר לצייר בבינה מלאכותית. אנחנו רוצים שהוא ייצר דמויות בסגנון אנימה או דמות מסוימת, שמשום מה הוא אינו מכיר, כי היא לא הייתה בדאטה שהוא אומן עליו.

לכן, במקום לבקש שיאמנו את המנוע, או המודל הגדול, מחדש על המון ציורי אנימה, או להמתין בסבלנות מתסכלת עד שיום אחד הוא כן יכיר את הסגנון או הדמות הספציפית, נשתמש בטכניקה שונה. טכניקת הלורה.

ב-LoRA, כדי ללמד את המודל על הסגנון הזה או על הדמות המסוימת שאנחנו רוצים, מאפשרים לנו לאמן אותו בעצמנו, בעזרת דוגמאות בודדות ש"נראה לו", כלומר נטען אליו ב-Upload.

השיטה היעילה הזו לכוונון עדין של מערכות AI, מתאימה במיוחד ליצירת תמונות ריאליסטיות, למשל, להתאמה של סגנונות עיצוביים או ליצירת דמויות עקביות בפרויקטים גרפיים, תוך שימוש בכמות קטנה יחסית של נתוני אימון.

כך נוכל ליצור, למשל את אותה דמות מדויקת, בסצנות שונות של סרטון שמייצר ה-AI או בציורי קומיקס רציפים שנוצרים כך.

כלומר,ה-LoRA נועדה להוסיף שכבת משקולות חדשה למודל המקורי, מבלי לשנות אותו, תוך כדי קיצור של זמן האימון ושיפור של הגמישות שלו.

ואגב, השיטה עובדת עבור כל רשת עצבית ולא רק עבור מודלי שפה גדולים LLMs (קראו עליהם בתגית "LLM").

הנה הסבר של רעיון ה-LoRA:

https://youtu.be/lixMONUAjfs

כך יוצרים LoRA במערכת ספציפית:

https://youtu.be/HfwFgkFCtpM

ויצירת לורה של דמות מוכרת:

https://youtu.be/KEv-F5UkhxU?long=yes

מהי מולטי מודאליות בעולם ה-AI?

זה אחד הפיתוחים המרגשים של עידן הבינה החדש ומה שמרגיש לא פעם כמו סרטי מד"ב מהיותר מתוחכמים. קוראים לזה מולטי-מודאליות (Multimodality) והוא בעצם היכולת של כלי AI לעבוד עם סוגי נתונים שונים, כמו טקסט, אודיו, קוד, וידאו ותמונות - גם כקלט וגם כפלט.

במקום להתמקד בסוג אחד בלבד של נתונים, מערכת רב-מודאלית מקבלת ומנתחת מידע ממקורות מגוונים, בכדי לקבל הבנה מעמיקה יותר של העולם הסובב אותה. מדובר בכלי ממוחשב שבדיוק כמו שבני אדם חווים את העולם דרך כל החושים והחוויות, לא רק מבין טקסט, אלא גם רואה תמונות וסרטים, מעבד ומנתח וידאו, מגלה הבנה מרחבית, שומע קולות וצלילים, מפענח קוד של תוכנה ומסוגל גם ליצור תכנים ותוצרים בכל המדיות הללו.

בדומה למוח האנושי, המשלב בטבעיות מידע מכל החושים, העולם של המערכות המולטי מודאליות ב-generative AI מציג יכולת שהיא עוד רכיב במהפכה הגדולה של מערכות בינה מלאכותית, מהפכונת שמאפשרת לעבד ולשלב כמה סוגי מדיה במקביל.

המערכות החדשות הללו מצוידות בשכבות מורכבות של פענוח ומפענחות את העולם פחות או יותר כמו מחשב-על. דוגמאות לא חסר. למשל עם צ'טבוט שבזכות ההבנה המרחבית המשופרת שלו מסוגל לזהות ולהוסיף כיתוב מדויק לעצמים שונים בתמונות עמוסות פריטים. או צ'טבוט שמנתח תמונות ומאפשר למשתמש לנהל עליהן דיון, או סוקר אינפוגרפיקה ונותן לה פרשנות קולית רלוונטית, בהתאם לרמת ההבנה של המשתמש או קהל היעד המבוקש. לכלי כזה יש גם כלי וידאו שמקבלים תמונה והנחייה כתובה (פרומפט) ומנפישים את התמונה לקליפ וידאו שכמו צולם בידי צוות צילום הוליוודי.

דוגמה נוספת היא כלי אינטראקציה רב-מודאלי כמו NotebookLM. הוא מאפשר למשתמשים לשתף איתו את המסך או המצלמה שלהם בזמן אמת. כך ניתן לקיים שיחות קוליות דמויות אדם, תוך כדי שמאפשרים ל-AI לצפות במסך ולעזור, תוך כדי מודעות להקשר ולתוכן.

אפילו תכונת זיהוי הפנים בסמארטפון שלכם היא תכונה שמשלבת היטב ראייה ממוחשבת, מיפוי תלת-ממדי ועיבוד נתונים מתקדם. ומאלה היא יוצרת פיצ'ר מדהים, בצד חווית משתמש פשטותה כמו מבט של שומר אנושי.

שילוב של צורות נתונים מרובות, כמו טקסט, תמונות ואודיו לתוך מערכת מאוחדת ורב-מודאלית היא שמאפשרת למודלים כמו Claude או GPT-4 לכתוב קוד כשמזינים לתוכו דיאגרמה ולמודלים שונים ליצור תמונות או סרטוני וידאו עם תיאורים.

את המהפכה המולטימודאלית אפשר לזהות בקלות בפלטפורמות כמו טיקטוק (TikTok) ואינסטגרם (Instagram), בהן משלבים סוגי מדיה מגוונים ומעבדים במגוון כלים, המשנים את הדרך בה אנו מספרים את הסיפור שלנו לעולם.

הנה הסבר היכולת המולטי-מודאלית:

https://youtu.be/97n1u66Shgg

כך עובדים מערכות מולטי מודאליות:

https://youtu.be/WkoytlA3MoQ

וההיפר מודאליות החדשה של גוגל מארינר:

https://youtu.be/KeUMm1xF3o0?long=yes

מהו שרת MCP בעולם ה-AI ומה הוא משפר?

שרת ה-MCP מיועד לשדרג מנועי AI או LLMs משלב הצ'אט לאפשרות של שליטה בכלים חיצוניים על המחשב שלנו. למעשה, הוא מכוון להתחבר בשמנו כמשתמשים, לכלים ותכנים מהעולם הפרטי שלנו, במחשב או בענן ולעשות עליהם פעולות AI מדהימות ומגוונות.

MCP, ראשי התיבות של Model Context Protocol, הוא פרוטוקול שיצרה בנובמבר 2024 חברת אנתרופיק, המפתחת של מנוע השפה המצוין Claude. הפרוטוקול אומץ על ידי חברות רבות, כולל המתחרות הגדולות אנתרופיק, דוגמת openAI, מפתחת ChatGPT.

באמצעות MCP, הצ'אטבוט יכול להיכנס למתכונים שבגוגל דרייב ולשלוף אותם משם, באופן חכם למשימה שמטילים עליו, למשל להכין עוגה. כלומר, פרוטוקול ה-MCP הוא שמאפשר את החיבור של ה-LLM אל המשאב, במקרה הזה המאגר שבגוגל דרייב ובמקרים אחרים המחשב הפרטי או מחשבי הארגון שלנו.

עבור משתמשים מן השורה, השימוש ב-MCP הוא בדרך כלל שקוף לחלוטין. כלומר, הם לא מודעים לקיומו כשהם מפעילים סוכן AI או עוזר אישי, המבצעים דברים עבורם. זה גם לא מעניין את המשתמש שהחיבור לדברים שה-LLM עושה מתבצעים באמצעות הפרוטוקול הזה. מי שיודעים את זה הם המתכנתים שמשתמשים בו כדי לבנות מוצרים חדשים שבהם היכולות שלו נחוצות.

מהצד המסחרי, MCP יכול להאיץ מאוד את קצב פיתוח המוצרים מבוססי ה-LLM. הכוונה היא לא רק לצ'אטים, אלא גם למוצרים רבים אחרים. למשל, מוצרי אבטחה שונים שיכולים להציע התערבות בזמן אמת בגלל פעילות חשודה של משתמשים ושימושים שונים במערכות לוגיסטיות — במערכות כאלה היה אתגר משמעותי בחיבור של LLM שמפעיל או קורא למשאבים, והאתגר הזה נעשה קל יותר כשיש פרוטקול כזה. הנמכת הרף לחיבור בין LLM לבין משאבים שונים פותחת את הדלת למוצרים חדשים שיכולים להיווצר במהירות.

הרעיון הוא בעצם שניתן לגרום ל- AI לא רק לשוחח איתנו ולענות על שאלות או לצ'טט ולייצר טקסטים וקוד, אלא ממש לייצר ולפעול עם תוכנות במחשב, להשתמש בהן ובכך לסייע לנו בביצוע פעולות מורכבות, להחליף אותנו בביצוע של משימות עבודה משעממות ובגדול - לשדרג את התפקוד שלנו מבלי לגזול יותר זמן.

שרת mCP או mCPAI הוא בעצם פרוטוקול הקשר של מודל בינה מלאכותית (model context protocol). אפשר לחשוב על זה כמערכת פלאג-אין אוניברסלית ל-AI שמאפשרת לו לפעול בעולם החיצון, עם גישה לתוכנות, כלים, אתרים, קבצים, מסדי נתונים ועוד.

עם MCP יש לנו כלי שמאפשר פתאום ל-AI לעשות פעולות כמו שליחת מיילים, הודעות לווטסאפ, קידוד בתוכנה שאנחנו רגילים, שליטה בכלי אוטומציה חיצוניים או להעלות פוסט לפייסבוק, ציוץ לטוויטר וכדומה.

עוד אפשרות היא להתחבר לשירותים שישלימו את יכולות התשובות של מודל בינה. זה יכול לעזור, למשל במקרים של שאלות או צרכים שהידע שלו לא מספיק בכדי לקבל מענה או תפוקה מספקת או ממש טובה.

בפשטות, הרעיון הוא שאם יש לנו שרת mCP על המחשב, זה אומר שהבינה המלאכותית שלנו יכולה לבצע משימות מפרכות, יומיומיות או סתם עבודה שחורה במקומנו. לכתוב דו"חות, לתכנן טיול עם Google Maps, לטפל במסרים שקיבלנו, ליצור פלייליסטים ב-Spotif, לשלם חשבונות וכך הלאה.

עם שרתי mCP אתם בעצם נותנים למודל הבינה חיבור לאינטרנט וארגז כלים שלם שמאפשר לו לבצע משימות מורכבות או תובעניות מבחינת זמן. השרתים האלה יכולים לפעול על המחשב שלנו, באופן מקומי, או מול שרתים בענן - אבל עדיין בשליטתנו.

ואגב, מובן שהעניין החדש הזה מגדיל גם את סיכוני האבטחה למוצרים מבוססים LLM. אם עד עתה הסיכון המשמעותי בצ'טבוטים היה להזיות או מידע שגוי, מיס-אינפורמציה, מעתה, כשכלי בינתי מקבל גישה לעשיית דברים בפועל, נפתחים בפניו גם אפשרויות תקיפה חדשות.

דוגמאות? - דמיינו האקרים או מפתחים שיגרמו ל-LLM לבצע פעולות שונות בקבצים מקומיים, או לגשת למאגרי מידע סגורים ולעשות שם פעולות תוקפניות. MCP מספק לתוקפים אפשרויות והזדמנות חדשות ולכן, סביר שדי מהר יצוצו חברות שיציעות הגנה מכל אלה.

מכל מקום, המהפיכה הטכנולוגית הזו מייצרת שרתי mCP חדשים בקצב מטורף וכל יום נכנסים שחקנים חדשים לזירה.

זהו ה-MCP וכך הוא עובד:

https://youtu.be/5ecTQ5e-pSg

הסבר של שימושי MCP בעולם הבינתי:

https://youtu.be/UG5yHP_Zx-8

יצירת MCP למתכנתים:

https://youtu.be/MC2BwMGFRx4

מה ההבדל בין MCP ל-API?

https://youtu.be/qYChSSP8TTA

הסבר מקיף של MCP (עברית):

https://youtu.be/2jHGFfU8kpM?long=yes&t=60s

והדגמה של בניית סוכני AI עם MCP בלי קוד (עברית):

https://youtu.be/bls2qM9XkGs?long=yes

אג'נטיק AI

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!