שלום,
נראה שכבר הכרתם את אאוריקה. בטח כבר גיליתם כאן דברים מדהימים, אולי כבר שאלתם שאלות וקיבלתם תשובות טובות.
נשמח לראות משהו מכם בספר האורחים שלנו: איזו מילה טובה, חוות דעת, עצה חכמה לשיפור או כל מה שיש לכם לספר לנו על אאוריקה, כפי שאתם חווים אותה.
»
«
מולטי מודאליות
מהי מולטי מודאליות בעולם ה-AI?
זה אחד הפיתוחים המרגשים של עידן הבינה החדש ומה שמרגיש לא פעם כמו סרטי מד"ב מהיותר מתוחכמים. קוראים לזה מולטי-מודאליות (Multimodality) והוא בעצם היכולת של כלי AI לעבוד עם סוגי נתונים שונים, כמו טקסט, אודיו, קוד, וידאו ותמונות - גם כקלט וגם כפלט.
במקום להתמקד בסוג אחד בלבד של נתונים, מערכת רב-מודאלית מקבלת ומנתחת מידע ממקורות מגוונים, בכדי לקבל הבנה מעמיקה יותר של העולם הסובב אותה. מדובר בכלי ממוחשב שבדיוק כמו שבני אדם חווים את העולם דרך כל החושים והחוויות, לא רק מבין טקסט, אלא גם רואה תמונות וסרטים, מעבד ומנתח וידאו, מגלה הבנה מרחבית, שומע קולות וצלילים, מפענח קוד של תוכנה ומסוגל גם ליצור תכנים ותוצרים בכל המדיות הללו.
בדומה למוח האנושי, המשלב בטבעיות מידע מכל החושים, העולם של המערכות המולטי מודאליות ב-generative AI מציג יכולת שהיא עוד רכיב במהפכה הגדולה של מערכות בינה מלאכותית, מהפכונת שמאפשרת לעבד ולשלב כמה סוגי מדיה במקביל.
המערכות החדשות הללו מצוידות בשכבות מורכבות של פענוח ומפענחות את העולם פחות או יותר כמו מחשב-על. דוגמאות לא חסר. למשל עם צ'טבוט שבזכות ההבנה המרחבית המשופרת שלו מסוגל לזהות ולהוסיף כיתוב מדויק לעצמים שונים בתמונות עמוסות פריטים. או צ'טבוט שמנתח תמונות ומאפשר למשתמש לנהל עליהן דיון, או סוקר אינפוגרפיקה ונותן לה פרשנות קולית רלוונטית, בהתאם לרמת ההבנה של המשתמש או קהל היעד המבוקש. לכלי כזה יש גם כלי וידאו שמקבלים תמונה והנחייה כתובה (פרומפט) ומנפישים את התמונה לקליפ וידאו שכמו צולם בידי צוות צילום הוליוודי.
דוגמה נוספת היא כלי אינטראקציה רב-מודאלי כמו NotebookLM. הוא מאפשר למשתמשים לשתף איתו את המסך או המצלמה שלהם בזמן אמת. כך ניתן לקיים שיחות קוליות דמויות אדם, תוך כדי שמאפשרים ל-AI לצפות במסך ולעזור, תוך כדי מודעות להקשר ולתוכן.
אפילו תכונת זיהוי הפנים בסמארטפון שלכם היא תכונה שמשלבת היטב ראייה ממוחשבת, מיפוי תלת-ממדי ועיבוד נתונים מתקדם. ומאלה היא יוצרת פיצ'ר מדהים, בצד חווית משתמש פשטותה כמו מבט של שומר אנושי.
שילוב של צורות נתונים מרובות, כמו טקסט, תמונות ואודיו לתוך מערכת מאוחדת ורב-מודאלית היא שמאפשרת למודלים כמו Claude או GPT-4 לכתוב קוד כשמזינים לתוכו דיאגרמה ולמודלים שונים ליצור תמונות או סרטוני וידאו עם תיאורים.
את המהפכה המולטימודאלית אפשר לזהות בקלות בפלטפורמות כמו טיקטוק (TikTok) ואינסטגרם (Instagram), בהן משלבים סוגי מדיה מגוונים ומעבדים במגוון כלים, המשנים את הדרך בה אנו מספרים את הסיפור שלנו לעולם.
הנה הסבר היכולת המולטי-מודאלית:
https://youtu.be/97n1u66Shgg
כך עובדים מערכות מולטי מודאליות:
https://youtu.be/WkoytlA3MoQ
וההיפר מודאליות החדשה של גוגל מארינר:
https://youtu.be/KeUMm1xF3o0?long=yes
זה אחד הפיתוחים המרגשים של עידן הבינה החדש ומה שמרגיש לא פעם כמו סרטי מד"ב מהיותר מתוחכמים. קוראים לזה מולטי-מודאליות (Multimodality) והוא בעצם היכולת של כלי AI לעבוד עם סוגי נתונים שונים, כמו טקסט, אודיו, קוד, וידאו ותמונות - גם כקלט וגם כפלט.
במקום להתמקד בסוג אחד בלבד של נתונים, מערכת רב-מודאלית מקבלת ומנתחת מידע ממקורות מגוונים, בכדי לקבל הבנה מעמיקה יותר של העולם הסובב אותה. מדובר בכלי ממוחשב שבדיוק כמו שבני אדם חווים את העולם דרך כל החושים והחוויות, לא רק מבין טקסט, אלא גם רואה תמונות וסרטים, מעבד ומנתח וידאו, מגלה הבנה מרחבית, שומע קולות וצלילים, מפענח קוד של תוכנה ומסוגל גם ליצור תכנים ותוצרים בכל המדיות הללו.
בדומה למוח האנושי, המשלב בטבעיות מידע מכל החושים, העולם של המערכות המולטי מודאליות ב-generative AI מציג יכולת שהיא עוד רכיב במהפכה הגדולה של מערכות בינה מלאכותית, מהפכונת שמאפשרת לעבד ולשלב כמה סוגי מדיה במקביל.
המערכות החדשות הללו מצוידות בשכבות מורכבות של פענוח ומפענחות את העולם פחות או יותר כמו מחשב-על. דוגמאות לא חסר. למשל עם צ'טבוט שבזכות ההבנה המרחבית המשופרת שלו מסוגל לזהות ולהוסיף כיתוב מדויק לעצמים שונים בתמונות עמוסות פריטים. או צ'טבוט שמנתח תמונות ומאפשר למשתמש לנהל עליהן דיון, או סוקר אינפוגרפיקה ונותן לה פרשנות קולית רלוונטית, בהתאם לרמת ההבנה של המשתמש או קהל היעד המבוקש. לכלי כזה יש גם כלי וידאו שמקבלים תמונה והנחייה כתובה (פרומפט) ומנפישים את התמונה לקליפ וידאו שכמו צולם בידי צוות צילום הוליוודי.
דוגמה נוספת היא כלי אינטראקציה רב-מודאלי כמו NotebookLM. הוא מאפשר למשתמשים לשתף איתו את המסך או המצלמה שלהם בזמן אמת. כך ניתן לקיים שיחות קוליות דמויות אדם, תוך כדי שמאפשרים ל-AI לצפות במסך ולעזור, תוך כדי מודעות להקשר ולתוכן.
אפילו תכונת זיהוי הפנים בסמארטפון שלכם היא תכונה שמשלבת היטב ראייה ממוחשבת, מיפוי תלת-ממדי ועיבוד נתונים מתקדם. ומאלה היא יוצרת פיצ'ר מדהים, בצד חווית משתמש פשטותה כמו מבט של שומר אנושי.
שילוב של צורות נתונים מרובות, כמו טקסט, תמונות ואודיו לתוך מערכת מאוחדת ורב-מודאלית היא שמאפשרת למודלים כמו Claude או GPT-4 לכתוב קוד כשמזינים לתוכו דיאגרמה ולמודלים שונים ליצור תמונות או סרטוני וידאו עם תיאורים.
את המהפכה המולטימודאלית אפשר לזהות בקלות בפלטפורמות כמו טיקטוק (TikTok) ואינסטגרם (Instagram), בהן משלבים סוגי מדיה מגוונים ומעבדים במגוון כלים, המשנים את הדרך בה אנו מספרים את הסיפור שלנו לעולם.
הנה הסבר היכולת המולטי-מודאלית:
https://youtu.be/97n1u66Shgg
כך עובדים מערכות מולטי מודאליות:
https://youtu.be/WkoytlA3MoQ
וההיפר מודאליות החדשה של גוגל מארינר:
https://youtu.be/KeUMm1xF3o0?long=yes
מהי ראיית מכונה?
ראיית מכונה (Machine vision) היא יישום של ראייה ממוחשבת לבקרת מכונות, רובוטים ותהליכים שונים. ראיית המכונה היא חלק מתחום הלמידה הממוחשבת, ענף בתחום הבינה המלאכותית שמאפשר למחשבים יכולת לזהות תבניות בנתונים חזותיים, ויזואליים. הם עושים זאת על סמך נתונים קודמים ותוך התבססות על חוקים שנוצרו מקבוצות נתונים שבהם נתקלו מחשבים בעבר.
הדוגמה הכי בולטת שבה אולי נתקלתם, של ראיית מכונה (Machine vision), היא הטכנולוגיה שמאפשרת לדפי פייסבוק לזהות פרצופים בתמונות בעצמם. כך גם פועלים מנועי חיפוש תמונות, שיודעים לאתר תמונות לפי התוכן שבתוכן, כמו תמונות עם בית, תמונות בצבעי אדום-ירוק וכדומה.
בהרבה מקרים ראיית מכונה משתמשת בדימוּת, כלומר היא לא משתמשת דווקא במידע שהתקבל ממקורות אופטיים לצורך הניתוח, אלא במידע אחר.
השימושים של ראיית המכונה הם מגוונים כבר היום ונעים מהנחייה ובקרה של רובוטים, דרך אמצעי ראייה לכבדי ראייה ועיוורים ועד ליישומים כבדים כמו פיקוח תעשייתי על תהליכי ייצור במפעלים, צפיית בעיות בריאות באמצעות חיישנים רפואיים אישיים, פיתוח של מנועי חיפוש ויזואליים מתקדמים, המשתמשים בראיית מכונה וכאמור גם זיהוי פנים בתמונות וסרטים.
העתיד מבטיח יישומים מרגשים בהרבה. דמיינו את הסמארטפונים של העתיד, שיצויידו בבינה מלאכותית ויוכלו לעשות פעולות חכמות במיוחד עם המידע הויזואלי שהצטבר בתמונה שצילמתם במצלמת הטלפון, דמיינו רחפנים שמזהים ונמנעים ממכשולים כדי להביא משלוחים ללקוחות מבלי להישדד בדרך, דמיינו מערכות רמזורים והכוונת תנועה שחוזות פקקי תנועה ומשחררות אותם לבד, רובוטים מאבטחים ש"רואים" בני אדם ומזהים מיידית מבוקשים, חשודים וכדומה. אלה רק דוגמאות קטנות. למעשה, המהפכה התעשייתית הרביעית מתקיימת כבר עתה על ראיית מכונות.
אז אם ראיית המכונה מאפשרת למחשבים לראות את העולם, היא תאפשר למחשבים למצוא בו דפוסים ותבניות שיוצרים הגיון ולפעול כדי להפוך אותו למקום טוב ובטוח יותר.
הנה הדגמת ראיית המכונה והשימוש בה בטלפון החכם (מתורגם):
https://youtu.be/g-G12agmEoI
איך מחשבים יכולים לראות ולהבין תמונה (מתורגם):
https://youtu.be/2hXG8v8p0KM
שימושים בטכנולוגיה של ראיית המכונה:
https://youtu.be/luuLcY30fQQ
ראיית מכונה היא הכרחית למכוניות האוטונומיות של העתיד, למשל מכונית העתיד ללא נהג:
https://youtu.be/0DS9PY6iaxE
השפעת הראיית המכונה על התעשייה החדשה - זו שכבר נקראת תעשייה 4.0:
https://youtu.be/9FyPV59Q7-Q
אפליקציה לזיהוי ומידע על מוצרים בראיית מכונה:
https://youtu.be/uNy6Nt4F13o
זרוע רובוטית עם ראיית מכונה:
https://youtu.be/H01QG_EAMyw
וסרטון תיעודי על ראיית מחשב (Computer Vision):
https://youtu.be/eQLcDmfmGB0?long=yes
ראיית מכונה (Machine vision) היא יישום של ראייה ממוחשבת לבקרת מכונות, רובוטים ותהליכים שונים. ראיית המכונה היא חלק מתחום הלמידה הממוחשבת, ענף בתחום הבינה המלאכותית שמאפשר למחשבים יכולת לזהות תבניות בנתונים חזותיים, ויזואליים. הם עושים זאת על סמך נתונים קודמים ותוך התבססות על חוקים שנוצרו מקבוצות נתונים שבהם נתקלו מחשבים בעבר.
הדוגמה הכי בולטת שבה אולי נתקלתם, של ראיית מכונה (Machine vision), היא הטכנולוגיה שמאפשרת לדפי פייסבוק לזהות פרצופים בתמונות בעצמם. כך גם פועלים מנועי חיפוש תמונות, שיודעים לאתר תמונות לפי התוכן שבתוכן, כמו תמונות עם בית, תמונות בצבעי אדום-ירוק וכדומה.
בהרבה מקרים ראיית מכונה משתמשת בדימוּת, כלומר היא לא משתמשת דווקא במידע שהתקבל ממקורות אופטיים לצורך הניתוח, אלא במידע אחר.
השימושים של ראיית המכונה הם מגוונים כבר היום ונעים מהנחייה ובקרה של רובוטים, דרך אמצעי ראייה לכבדי ראייה ועיוורים ועד ליישומים כבדים כמו פיקוח תעשייתי על תהליכי ייצור במפעלים, צפיית בעיות בריאות באמצעות חיישנים רפואיים אישיים, פיתוח של מנועי חיפוש ויזואליים מתקדמים, המשתמשים בראיית מכונה וכאמור גם זיהוי פנים בתמונות וסרטים.
העתיד מבטיח יישומים מרגשים בהרבה. דמיינו את הסמארטפונים של העתיד, שיצויידו בבינה מלאכותית ויוכלו לעשות פעולות חכמות במיוחד עם המידע הויזואלי שהצטבר בתמונה שצילמתם במצלמת הטלפון, דמיינו רחפנים שמזהים ונמנעים ממכשולים כדי להביא משלוחים ללקוחות מבלי להישדד בדרך, דמיינו מערכות רמזורים והכוונת תנועה שחוזות פקקי תנועה ומשחררות אותם לבד, רובוטים מאבטחים ש"רואים" בני אדם ומזהים מיידית מבוקשים, חשודים וכדומה. אלה רק דוגמאות קטנות. למעשה, המהפכה התעשייתית הרביעית מתקיימת כבר עתה על ראיית מכונות.
אז אם ראיית המכונה מאפשרת למחשבים לראות את העולם, היא תאפשר למחשבים למצוא בו דפוסים ותבניות שיוצרים הגיון ולפעול כדי להפוך אותו למקום טוב ובטוח יותר.
הנה הדגמת ראיית המכונה והשימוש בה בטלפון החכם (מתורגם):
https://youtu.be/g-G12agmEoI
איך מחשבים יכולים לראות ולהבין תמונה (מתורגם):
https://youtu.be/2hXG8v8p0KM
שימושים בטכנולוגיה של ראיית המכונה:
https://youtu.be/luuLcY30fQQ
ראיית מכונה היא הכרחית למכוניות האוטונומיות של העתיד, למשל מכונית העתיד ללא נהג:
https://youtu.be/0DS9PY6iaxE
השפעת הראיית המכונה על התעשייה החדשה - זו שכבר נקראת תעשייה 4.0:
https://youtu.be/9FyPV59Q7-Q
אפליקציה לזיהוי ומידע על מוצרים בראיית מכונה:
https://youtu.be/uNy6Nt4F13o
זרוע רובוטית עם ראיית מכונה:
https://youtu.be/H01QG_EAMyw
וסרטון תיעודי על ראיית מחשב (Computer Vision):
https://youtu.be/eQLcDmfmGB0?long=yes