למידה עמוקה

» «

הלמידה העמוקה (Deep Learning) היא תחום מחקר בעולם המחשבים וספציפית בתחום "למידת המכונה" שמניח שהמחשב יכול ללמוד וללמד את עצמו, ממש כמו המוח האנושי. מטרתו הברורה של התחום הזה היא ליצור חיקוי ממוחשב של פעולת המוח האנושי.

בין שנות ה-70 לאמצע שנות ה-2000, רווחה אכזבה מאד גדולה מהביצועים של תחום הבינה המלאכותית. התחום, שהבטיח מהפכה של ממש בעולם המחשוב ו"לא סיפק את הסחורה", אכזב במידה רבה והמחקר שלו נכנס לתקופה שכונתה אז "החורף של הבינה המלאכותית".

אבל בשלב מסוים, בשנות האלפיים ואחרי שנים רבות של האכזבה, הפציעה האינטליגנציה המלאכותית מחדש, כשהפעם היא החלה לממש סוף כל סוף את ההבטחה מימי התום שלה. מחשבים מהירים פי מיליון, כמויות מידע עצומות שהחל להציע האינטרנט ושנאגרו על כונני ענק זולים ונגישים - כל אלה הבשילו ביחד עם הבשלה של טכנולוגיה חזקה ומעשית מאי-פעם - "הלמידה העמוקה". הרעיון בה, בפשטות, הוא לפתח "מוח ממוחשב", על בסיס המוח האנושי, תחת הרעיון שהמוח הוא סדרת רכיבים , שלכל אחד מהם תפקיד עצמאי והם מחוברים ביניהם.

ה"הלמידה העמוקה" היא תת-תחום בתוך תחום "למידת המכונה", שגם הוא עצמו, כמו שאומרים מקצועני תחום "למידת המכונה" (ML), מהווה תת-תחום מרכזי בעולם האינטליגנציה המלאכותית.

המיוחד במערכות "למידה עמוקה" הוא היכולת שלהן ללמוד ולהשתפר כל הזמן ולעשות את הלמידה והשיפור המתמיד לגמרי בעצמן. מפתחי מערכות כאלה בונים בשבילה מעין "רשת סמנטית". זו מערכת שמחקה את המערכת הנוירונים שבמוח האנושי וכאמור פועלת ולומדת כמוהו - ככל שהיא פועלת וככל שמשתמשים בה - היא משתפרת ו"יודעת" יותר.

מדובר בתחום חדש יחסית בעולם של חקר המערכות הלומדות, או "למידת המכונה". הוא נקרא גם "הלמידה החישובית" (Machine Learning) והרעיון החדשני בו היה שב"למידה עמוקה" המכונה לומדת בעצמה, מבלי שיאמנו אותה כמו שעושים בלמידה מכונה רגילה.

לטווח רחוק מטרת התחום היא פיתוח של מחשב שיוכל להחליף את החשיבה האנושית. מערכת כזו תהיה מסוגלת לזהות תבניות ודפוסים בדיבור, תמונות, צלילים ועוד סוגי מידע, שהמערכות הממוחשבות התקשו, עד לא מזמן, לעבד ולטפל בהם.

חשיבה עמוקה היא רק בתחילתה, אבל חוקרים נעזרו בה כבר לזיהוי מולקולות שייקשרו למטרות בגוף טוב יותר ומסתייעים בממצאים לפיתוח תרופות חדשות. מחשב או תוכנה שמצוידים ב"חשיבה עמוקה" מבינים כבר היום שפה אנושית במנועי חיפוש, בחיפוש קולי ובעוזרים דיגיטליים כמו "סירי" של חברת אפל ו"קורטנה" של מיקרוסופט. בעתיד יסיקו מערכות כאלה גם מסקנות ויקבלו החלטות בכוחות עצמן.

העתיד מבטיח מפיתוחים אלה מערכות רפואיות שמטפלות בחולים, אנליסטים ומומחים ממוחשבים לניהול כספים ומסחר במניות ועד למערכות ראיה ממוחשבת, שיוכלו לזהות עצמים במרחב ולסווג אותם, ללא צורך בהתערבות אנושית.

באמצעות חיקוי היכולת האנושית ללמוד, מצליחות מערכות למידה עמוקה גם ליצור ציורים, מוסיקה, סרטונים וטקסטים,להמליץ ללקוחות על רכישות, לייצר קריינות מלאכותית, לזהות עצמים ופנים מדויקות בתמונות וסרטונים, לאבחן מחלות, להפיק רווחים ממניות, להלביש פנים של מפורסמים על סרטי וידאו ועוד שלל יישומים.

המלצה:
======
קראו באאוריקה בתגית "Google Brain", על אחד מפרויקטי הבינה המלאכותית הגדולים ביותר אי פעם.

הנה טכנולוגיית הלמידה העמוקה והעתיד שהיא מסמנת, כולל הסכנות האפשריות:

http://youtu.be/IoP9akd44wk

כך עובדים על פיתוח המוח העמוק:

http://youtu.be/zLp-edwiGUU

הדגמה ויזואלית של עץ ההחלטות הגדל ומתפתח של מערכת חכמה:

http://youtu.be/nSg4HKHdDs4

מהו ניסוי החתולים של גוגל?

כשרוצים ללגלג על יוטיוב והרשת, תמיד מדברים על סרטונים טפשיים של חתולים. אבל האמת היא שניתן לעשות באמצעותם לא מעט. בשנת 2012 הצליחה חברת גוגל להוכיח את היכולת של מערכת הלמידה העמוקה שלה באופן משמעותי. לאחר שהוכיחה שצפייה ב-10 מיליון תמונות מסרטוני יוטיוב, הביאה אותה ליכולת טובה פי שניים מניסיונות קודמים בזיהוי עצמים כמו חתולים בתמונות.

בכך הצליחה לראשונה תוכנה חכמה לחבר באופן לוגי בין תמונה למילה. היכולת לזהות באופן עצמאי את הקשר בין המידע הויזואלי למילה חתול הוא שלב מרשים בצעידה לכיוון של הבינה המלאכותית והלמידה העמוקה. במדעי המוח מזוהה שלב זה עם שלב דומה בלמידה של התינוק. בשלבי הלמידה הראשונים שלו הוא לומד לזהות עצמים עם מילים שלמד מהוריו.

הנה תיאור הניסוי של הלמידה העמוקה בגוגל לזהות חתולים בסרטונים:

https://youtu.be/TK4qLwTye_s

הומור סרקסטי על העובדה שהמוח של גוגל יהפוך בסוף לטיפש מעודף צפייה בסרטוני חתולים ברשת:

https://youtu.be/lWijWH8VnlA

והרצאת טד עם ראייה חכמה וההתקדמות המדהימה שלה (מתורגם):

https://youtu.be/40riCqvRoMs?long=yes

מה ההבדל בין למידת מכונה ללמידה עמוקה?

הלמידה העמוקה (Deep Learning) היא טכנולוגיה שמאפשרת למערכות מחשב לחקות את פעולת המוח האנושי ולבצע למידה עצמית, תוך שיפור מתמיד המאפשר למערכת להיות חכמה יותר ויותר כל הזמן.

אבל מה ההבדל בין למידה עמוקה ללמידת מכונה?

אז ראשית, מבחינת מיון - דיפ לרנינג, בעברית למידה עמוקה, הוא תת-תחום של למידת מכונה.

אבל בעוד שב"למידת מכונה" (Machine Learning) קלאסית הלימוד הוא מתוך דאטה שתויג ואורגן מראש לשם כך, על ידי מי שמאמן את המכונה, בעזרת מה שנקרא "דאטה מתויג" (Labeled data), "למידה עמוקה" (Deep Learning) לומדת בעצמה - עם דאטה כמותי, כלומר מידע רב ולא מאורגן. למשל המוני דוגמאות לא מזוהות או מסודרות דווקא הניתנות לתוכנת הלמידה העמוקה והיא מייצרת את הסיווג וה"הבנה" של הדפוסים והסדר, שמאפשרים לה בהדרגה "להבין" את הדאטה הזה ולהפוך אותו לתובנות וידע, שגם הולך ומשתפר כל הזמן, כמו ילד שכל הזמן לומד דברים חדשים ורוכש תובנות טובות יותר על המציאות והחוקים ששוררים בה.

אם למידת מכונה זו למידת בית ספר, ממישהו שמלמד אותך ומתרגל אותך בלמידה, למידה עמוקה היא הלימוד אחרי שעת הלימודים - בשכונה, מתוך התבוננות, סקרנות ועיבוד נתונים עצמי.

משום כך, ככל שמערכת למידה עמוקה פועלת וככל שהיא בשימוש - היא משתפרת, יודעת יותר ויכולה לבצע משימות מורכבות יותר ובהצלחה הולכת וגדלה.

אז ההבדל בין למידה עמוקה ללמידת מכונה הוא בסיסי. בלמידת מכונה, כדי ללמוד ולהשתפר המערכת הממוחשבת צריכה מומחה אנושי, שיאתר תכונות מסוימות שעל פיהן הוא מאמן את המכונה או התוכנה.

בלמידה עמוקה, לעומת זאת, לא נדרשים בהכרח מי שיבצעו את האימון והארגון, התיוג והסידור של המידע בכדי שהמכונה תלמד. פשוט מזינים אליה המוני מקרים, למשל תמונות לזיהוי או מידע לניתוח, ונותנים לתוכנה לאתר בהם מאפיינים, הבדלים, דפוסים וכדומה. כך היא תזהה בעתיד דברים בתמונות או המלצות לשימוש במידע וכדומה. כך היא תלמד את עצמה כל הזמן ותהפוך יותר ויותר חכמה.

זה אולי גם קצת דומה לשני טיפוסי מורים. יש את המורים שמתעקשים להגיש לתלמידים את הידע "בכפית" ולהראות להם על מה להביט בלמידה, בעוד אחרים, נקרא להם "המלמדים העמוקים", נותנים לתלמידים לאתר את ההבדלים, להעלות השערות לגבי דפוסי מידע וחלוקה, להסיק מסקנות וכדומה.

אז כך, ממש כמו התלמידים אצל "המורה העמוק", תוכנת הלמידה העמוקה מקבלת בלמידה כזו המון "הזדמנויות" ללמוד בעצמה ולהתבגר. זאת במקום האימון על ידי אדם, שמתבטא בהוראות ואימון הממחישים לתוכנה מה לחפש בדאטה, כדי להבחין בין המקרים.

זו, אגב, גם הביקורת של המדענים על השיטה הזו. הם גורסים שלא נדרש עוד ממדענים להבין בעיה כדי לפתור אותה, מה שמביא לרדידות ולפתרון בעיות בניסוי וטעייה טכנולוגיים, במקום באמצעות תיאוריות מעמיקות ובחינתן באופן מדעי.

הנה הסבר פשוט של הלמידה העמוקה:

https://youtu.be/6M5VXKLf4D4

למידה עמוקה מחייבת יותר זמן, יותר דאטה ויותר כוח מחשוב מלמידת מכונה:

https://youtu.be/-SgkLEuhfbg

כך הולך ומתפתח עץ ההחלטות המשתפר של מערכת הלמידה העמוקה:

http://youtu.be/nSg4HKHdDs4

שיעור וידאו קצר על שיטות הלמידה השונות (עברית):

https://youtu.be/Bqdn6e-nH18?long=yes

והרצאה אקדמית על למידה עמוקה (עברית):

https://youtu.be/z-aezi4W90o?long=yes

מהן רשתות סמנטיות?

רשתות סמנטיות (Semantic networks) הן שיטה להכנת מפות מידע, שבה מסומנים ומוגדרים הקשרים בין המושגים השונים. רשת סמנטית מיועדת למיפוי לפי משמעות ועל פי הקשרים בין מרכיבים שונים בה (מיפוי סמנטי). שימוש ברשת מושגית מתקדמת שכזו יכול לסייע בתהליכי חשיבה, סיעור מוחין וקבלת החלטות.

המידע ברשת סמנטית מאורגן לפי מושגים שמיוצגים במילה או במשפט ומקושרים למושג מרכזי. נכנה את המושגים "צמתים". בין כל צומת לאחרות יש קשרים, שהם בעצם קשרים אל המושגים הקרובים אליה משמעותית. רשת כזו ניתן לבנות לדוגמה סביב המושג המרכזי "אריה". קשרים יחברו בינו לבין מושגים קרובים כמו: טורפים, יונקים, חתולים גדולים, חיות פרא, אוכל בשר, אפריקה וכדומה. לכל קשר יהיה את התפקיד והמשמעות שלו וצבעים שונים יכולים לבטא את סוג הקשר בין מושגים.

שרטוט רשתות סמנטיות מאפשר תהליך למידה. זה קורה בשילוב שאנו עושים בין הדברים הידועים לנו בטרם הלמידה, לבין הדברים שנלמד תוך כדי השילוב של ידע חדש ברשת הסמנטית. קשרים שלא נדע להסביר את טיבם ומושגים ללא קשרים ביניהם יצביעו על מה שדורש למידה נוספת ומעמיקה יותר. בהנחה שחקר ולמידה כאלו אכן יבוצעו ויקרו, ההבנה של המושגים והקשרים שביניהם היא הלמידה.

בשנים האחרונות הפך נושא הרשת הסמנטית לתחום חם גם בעולם הטכנולוגיה. זאת לאחר שהסתבר שרשת כזו יכולה להוות בסיס למערכות בינה מלאכותית ולשיפור רשת האינטנרט ומנועי החיפוש. המחקר המדעי בעולם עוסק לא מעט במיפוי סמנטי לצורכי המיחשוב ובמקביל התפתח חזון הווב הסמנטי, שמציג רשת עתידית, מבוססת משמעות ובעלת יכולות רבות לשיפור האינטרנט (קראו עליה באאוריקה בתגית "ווב סמנטי").

משימת התנסות
===========
הכינו רשת סמנטית על המושג "מחשב", בכתיבת המושג, המושגים הקרובים והמושגים שנובעים מהם ויצירת הקשרים ביניהם על גבי נייר.

הנה הרשת הסמנטית:

https://youtu.be/3wMfKTkYemY

מהי מערכת הלמידה העמוקה של גוגל?

למידת מכונה היא תחום שנחקר כבר עשרות שנים. בשנים האחרונות הוא הולך ומתפתח לכיוון של למידה עמוקה. מערכת הלמידה העמוקה הגדולה והמתקדמת בעולם כיום היא ה-Google Brain. זהו אחד מפרויקטי הבינה המלאכותית הגדולים בעולם. הפרויקט מנסה לפתח מוח ממוחשב מ-16,000 ליבות מחשבים ותוכנת מחשב שלומדת מתוך דוגמאות ומסיקה מסקנות בעצמה, תוך כדי התמודדות עם בעיות מורכבות במיוחד. משאבי המחשב שמוקדשים לפיתוח זה הם עצומים וכך גם התקציבים שחברת הענק משקיעה במחקר והפיתוח, כולל גיוס האנשים המתקדמים בעולם בתחום זה ושל המדען והעתידן הגאון ריי קורצווייל, שהסכים לעמוד בראש הפרויקט.

אבל למה גוגל צריכה מערכת למידה עמוקה? - היות ופיתוח של רשתות מחשב מבוססות נוירונים עולה המון כסף, חברת גוגל בעלת המיליארדים היא מהיחידות בעולם שיכולות להקצות משאבים לנושא. לרשת שמאפשרת את הלמידה של המחשב העמוק מוקצים עוד ועוד מחשבים. רק כך ניתן לדמות את אופן הפעולה של המוח האנושי.

וזה עוד כלום. ברצונם להגיע למאה טריליון קישורים בין נוירונים במחשב העל של גוגל, מגייסת החברה את מיטב חידושי הטכנולוגיה שיוצאים לשוק, כולל מעבדים מקביליים ומהירים ביותר, כרטיסי מסך גרפיים המכונים "GPU" ושפותחו עבור תעשיית המשחקים, ועד רכיבי מחשוב קוונטי. גוגל כה רצינית בשאיפות שלה בתחום זה, שהיא רוכשת חברות קטנות שעוסקות בתחום וכך קונה הן את הטכנולוגיות והידע שהן צברו והן את כוח האדם המעולה שלהן.

המלצה:
======
בתגית "למידה עמוקה" תוכלו לקרוא על עולם הבינה המלאכותית, המתבססת על רשת נוירונים כמו זו שבונה גוגל. שווה לקרוא גם בתגית "רשתות נוירונים".

הנה למידת המכונה:

https://youtu.be/59bMh59JQDo

כך מתבצעים פרויקטי הבינה המלאכותית הגדולים של גוגל ומתחרותיה:

https://youtu.be/gB_-LabED68

כך מסייעים מוחות טכנולוגיים עם למידה עמוקה לעולם להתקדם:

https://youtu.be/Dy0hJWltsyE

סרטון עם מתיחה שבה גוגל הולכים להחליף את המוח האנושי:

https://youtu.be/fV52J7_7gss

מהו המחשוב הקוגניטיבי?

יתכן ששאלתם את עצמכם פעם איך זה שהמחשבים המשוכללים והמהירים כל כך יכולים לבצע כיום משימות שלא ייאמנו, אבל לא מסוגלים לבצע דברים שאפילו תינוקות עושים בקלות.

מזיהוי אנשים ועד להבנת השפה המדוברת, דרך למידה מטעויות או הבנת ההקשר בשיחה, להסיק מסקנות ועוד, יש לא מעט דברים שבני אדם מקבלים כמובנים מאליהם ואף כפשוטים, בעוד המחשבים מתקשה בהם מאד.

בדיוק לשם כך נוצר תחום חשוב במדעי המחשב. מחשוב קוגניטיבי (cognitive computing) הוא תחום בתוכנה המדמה את החשיבה האנושית.

מדובר בתוכנות שאמורות להיות מסוגלות לבנות ולנתח ידע, לבצע תהליך ארוך ומשמעותי של למידה עצמית, להבין את המידע לעומקו, לנתח טקסטים בצורה תבונית ולתקשר עם בני אדם בדרך שמבינה מצבי רוח, הקשרים חברתיים ואישיים ועוד, בקיצור כל דבר מהמרכיבים הקטנים של השפה האנושית ועד לסתם ללמוד מהניסיון.

במחשוב הקוגניטיבי מנסים לשלב בין יכולות שונות, שחלקן בפיתוח כבר שנים רבות. למידת מכונה, כריית מידע, זיהוי עצמים ייחודיים בתמונות, עיבוד שפה טבעית או איתור של דפוסים ותבניות במידע גולמי - כל אלה ואחרות אמורות לאפשר יצירה של מחשב שיכול לחקות את הדרך בה המוח האנושי עובד ולהפיק תוצאות ברמה גבוהה במיוחד, לקבל החלטות חכמות ועוד.

אם זה מזכיר לכם תחומים כמו אינטליגנציה מלאכותית או למידת מכונה, זה לא מקרה. מדובר בתחומי מחקר קרובים ומשיקים בהרבה מובנים.

מטרת החוקרים והמהנדסים העוסקים בתחום המחשוב הקוגניטיבי להביא לכך שבעתיד יוכלו מחשבים לבצע משימות פשוטות עבור בני-אדם, כמו חשיבת מומחה והבנת השפה האנושית.

כמובן שבצד פעולות "אנושיות" אלה ישלבו המחשבים גם את יכולותיהם המסורתיות כמו עיבוד נתונים בכמויות עצומות, מה שמוכר מתחום הביג דאטה, על מנת להפוך ליועצים נבונים לאנשי מקצוע בתחומים שונים, מרפואה ועד מדע והייטק.

יישומים נוספים שמצפים לפתח בעזרת מחשבים קוגניטיביים הם מערכות תקשורת בשפה טבעית, "נהגים ממוחשבים" ברכבים אוטונומיים (מכונית ללא נהג), עיבוד סמנטי, מנועי חיפוש שלומדים ועוד.

הנה המחשוב הקוגניטיבי המודרני בחצי דקה:

https://youtu.be/1tsFTBqXDdI

מצגת וידאו שמראה מה מאפשרות מערכות מחשוב קוגניטיביות:

https://youtu.be/1mPO-rXcmaw

מומחים מחברת יבמ מסבירים על העתיד של המחשוב הקוגניטיבי:

https://youtu.be/xRamODPdU1U

עולם זיהוי העצמים הממוחשב (מתורגם):

https://youtu.be/Cgxsv1riJhI?long=yes

והאם אנו מתקרבים למחשבים עם תודעה:

https://youtu.be/JTOMNkZJRao?long=yes

מהי טכנולוגיית הדיפ נוסטלגיה?

בשנים האחרונות הולכת ותופסת את מקומה טכנולוגיה מבוססת בינה מלאכותית (AI) שנקראת דיפ פייק (Deepfake). טכנולוגיה זו משמשת לייצור או שינוי תוכן וידאו כך שהיא מציגה מציאות שלמעשה לא התרחשה מעולם. מנאומים שלא ננאמו מעבירים מסרים בדויים מפיהם לכאורה, של אנשים מפורסמים ועד סרטונים "פסאודו-תיעודיים", שמציגים מראות וטקסטים מדוברים, שנראים אמיתיים אך מעולם לא צולמו והוקלטו.

ענף חדש בעולם הדיפ פייק הוא יישום שזכה לשם "דיפ נוסטלגיה" (™Deep Nostalgia), המנפיש את פניהם של אנשים שצולמו בתמונות ישנות או היסטוריות, ומזיז את פניהם, כאילו צולמו בווידאו.

הטכנולוגיה הזו פועלת על כל תמונת סטילס (תמונות קפואות), כולל תמונות בשחור-לבן ותמונות שצולמו בצבע.

השם ניתן ליישום פורץ דרך זה על ידי חברת MyHeritage, שעוסקת בפיתוח טכנולוגיה ליצירת עצי משפחה מקוונים.

סרטוני הדיפ נוסטלגיה התפרסמו כשאנשים שיתפו עם בני משפחתם וחבריהם סרטונים קצרים ומונפשים שנוצרו כך, ובהם קרוביהם ואבותיהם מזיזים את ראשיהם, מצמצים, מחייכים ונעים בצורה ריאליסטית כמעט לחלוטין.

#איך פועלת הדיפ נוסטלגיה?
דיפ נוסטלגיה מחזירה, אם כן, לחיים אנשים שצולמו בצילומי סטילס. זה מתחיל באיתור פני המצולמים בתמונות ואז הפקה של מחוות ותנועות מציאותיות, ממש כאילו צולמו בווידאו. ההנפשה של הפנים בתמונות הסטילס מראה אותם מחייכים, זזים וממצמצים, כאילו צולמו כך במקור.

בבסיס הטכנולוגי של יישום ה"דיפ נוסטלגיה" פועל אלגוריתם למידה עמוקה (Deep Learning), המחבר בין תווי הפנים של המצולמים לבין אוסף מחוות שצולמו בווידאו ושמורים במאגר החברה.

פיתוח וצילום אותן מחוות נעשה כשצילמו אנשי מיי הריטג' מראש שלל מקטעי וידאו של שחקנים ועובדי החברה, המזיזים את ראשיהם ופניהם באורח טבעי, ממצמצים, מחייכים ומפנים את ראשם לכיוונים שונים.

למעשה שכרה חברת MyHeritage רישיון מחברת D-ID, לטכנולוגיה שפותחה בה ומאפשרת שחזור, באמצעות טכנולוגיית למידה עמוקה, של סרטוני וידאו.

על מנת שאפקט ההנפשה יופעל על התמונות, ברזולוציה הכי גבוהה האפשרית, עוברות תמונות מטושטשות חידוד אוטומטי, שמבצעת הטכנולוגיה החדשנית, מה שמעלה באופן דרמטי את איכות הסרטונים המופקים בה.

ההברקה האמיתית של הטכנולוגיה הזו נעוצה בזיהוי והבחירה האוטומטית שמבצע יישום הדיפ נוסטלגיה, מבין מקטעי המחוות בווידאו. ניתוח מהיר של מנח הראש וכיוון העיניים של המצולמים בתמונה מאפשרים ליישום להתאים להם באופן חכם את מחוללי ההנפשה המיטביים ולייצר את הסרטונים המונפשים באופן אופטימלי.

#ממה נמנעו מפתחי הדיפ נוסטלגי?
אנשי חברת MyHeritage ומפתחי היישום המלהיב נמנעו מהוספת דיבור לסרטונים.

לאור העובדה שטכנולוגיית הדיפ פייק ידועה ביכולות המטורפות שלה, גם בתחום הדיבור, נשאלת השאלה מדוע. הרי ניתן היה לשתול בפי המצולמים טקסטים מדוברים, שהיו נשמעים אמיתיים, על אף שמעולם לא צולמו והוקלטו.

ראשית, חשוב לומר שזיהוי קולי של המצולמים, ככל שמדובר באנשים שקרוביהם זוכרים עדיין את קולם האמיתי, היה מפחית את אפקט המציאות שיוצרים הסרטונים הללו.

אבל יש עוד סיבה לכך.

ב-MyHeritage מציינת שההימנעות מאפקטים קוליים של דיבור היא מכוונת. מטרתה, הם מטעימים, היא "למנוע שימושים זדוניים בכלי", דוגמת אלה שנעשים בסרטוני "דיפ פייק" של פוליטיקאים וידוענים שעודם בחיים.

לכן הם גם מבקשים מהמשתמשים לעשות בכלי שימוש רק על תמונות היסטוריות השייכות להם ולהימנע משימוש בתמונות של אנשים חיים, שלא אישרו את השימוש הזה.

הסבר לטכנולוגיה (עברית):

https://youtu.be/O4VPN_YjgIM?t=21s

הנה הדיפ נוסטלגיה:

https://youtu.be/tjBYSnoAWqg

ציורים מפורסמים שקמים לתחייה:

https://youtu.be/TWY1uBK4Zxc

ואפילו דיקטטורים קמים לתחיה עם הדיפ נוסטלגיה של מיי הריטג':

https://youtu.be/a-HR03bToew

מהי בינה מלאכותית כללית או AGI?

בינה מלאכותית כללית (AGI), באנגלית Artificial General Intelligence, משמעותה בפשטות היא בינת-על. בינה מלאכותית שלא יודעת לעשות רק דבר אחד, או בתחום אחד, אלא כזו שיודעת לעשות הכל.

היא נקראת גם בינה מלאכותית חזקה, בניגוד לבינה מלאכותית צרה, חלשה, המיועדת ומתוכנתת למשימות ספציפיות, הבינה הכללית המלאכותית היא סופר-אינטליגנציה, שאינה מוגבלת בתחום או במיומנות ספציפית, אלא בינה מאוד חכמה, מבריקה, גאונה.

דמיינו AGI בתור הגאון של החברה, אדם חכם ונבון מאוד, או בעצם המון כאלו. היא תהיה מצוידת בכל החושים ויכולות הקוגניציה שיש לאדם, כולל שמיעה, ראייה, הבנה של הקשרים, יכולת לפענח התנהגות, חשיבה יצירתית וכדומה.

בקיצור, ה-AGI היא מאסטר מיינד גאוני, כלי ממוחשב שיהיה כה מבריק ומתוחכם, עד שיעקוף את האדם בבינה שלו ומן הסתם את האדם הכי חכם שאתם מכירים, או את כל הכי חכמים (אולי בעולם) יחדיו.

אם בעבר היה פיתוח AGI מושג מופשט ומטרת מחקר תיאורטית, בשנת 2020 העריכו בקבוצות בינה מתקדמות שייקח עוד 50 שנה עד שתגיע בינה מלאכותית ג'נרליסטית שכזו. ההערכה כיום, באפריל 2024, היא שבין 2026 ל-2027 תהיה הבינה המלאכותית הכללית בשוק.

לא יאומן? - התרגלתם. אנחנו חיים בעתיד...

כל חברות הטכנולוגיה הגדולות נמצאות בעיצומו של המרוץ לפיתוח בינת-על שכזו. מגוגל, אפל, אמזון ומטא ועד למלכת ה-AI הנוכחית, חברת OpenAI הצעירה, זו שהשיקה את מהפכת הבינה היוצרת והיצירתית (GenAI), פיתחה את דאלי ואת. הצ'ט בוט המצליח בעולם ChatGPT ושועטת עכשיו קדימה בפיתוח הבינה המלאכותית הכללית.

#מה בינה כללית תדע לעשות?
נזכיר שבינה מלאכותית הכללית, מעבר לתחכום שלה, מסוגלת לבצע מגוון משימות רחב, לפתור בעיות לפני שנוצרו ולמלא משימות מושלמות, מבלי שיתכנתו אותה ליכולת ספציפית כלשהי. היא פשוט תלמד כל יכולת כזו שתצטרך בעצמה ותדע לבצעה כאילו כל חייה היא עשתה זאת...

כבר עכשיו ברור שמערכת AGI סופר אינטליגנטית שכזו תתאפיין בתבונה כללית ויכולת להפעיל שיקול דעת, תוך קבלת החלטות מורכבות. לצד זה יהיו לה יכולות של הבנת שפה טבעית של בני אדם, ביחד עם למידה עצמאית של מידע חדש ובכך שיפור מתמיד של יכולותיה לתחומים ומיומנויות חדשות (ללא תכנות ספציפי), ביכולות של חשיבה מופשטת ויכולת להבין וליישם מושגים מופשטים, כולל במצבים חדשים.

לא פחות חשובה היא היכולת היצירתית החשובה כל כך של העברה בין תחומים, כלומר היכולת לנייד ולהעביר בין תחומי דעת שונים ידע, מיומנויות ויכולות שונות. כך, חברים, נולדים המצאות, פתרונות לבעיות והברקות הנדסיות, מדעיות וטכנולוגיות שונות.

סופר-אינטליגנציה שכזו תקבל בעתיד החלטות ביטחוניות שיילכו וישתבחו, ככל שהיא תלך ותשכלל את עצמה. היא תיקח על עצמה את האחריות על ניהול המערכת הפיננסית, מהאישית ומשפחתית ועד לרמת אוצר המדינה או הבנק הלאומי. היא תנהל מגוון מערכות שירותים ומערכות תשתית, טוב יותר מכל אדם, תמצא תרופות למגוון סוגי הסרטן ותפתור את בעיות האקלים. לא מן הנמנע שפרסי נובל יתרחבו למפתחי בינות-על, שיפצחו בעיות שהמין האנושי לא השכיל לפתור.

#סכנות בינת העל
השאלה העיקרית והמפחידה לא מעט אנשים היא מה יקרה אם או כשבינת העל הזו תחליט שאנו, בני האדם, מיותרים בעולם... זו הסיבה שעולם הטכנולוגיה מלא באזהרות של מומחים מקוגניציית-העל שלה.

כבר עתה ברור שתהיה חובה לייצר פיקוח ורישוי (רגולציה) וחוקים שיחייבו את החברות שיפתחו AGI לקחת אחריות מלאה לנזקים שבינתם עלולה לגרום. מה יהיה שבינות חכמות כל כך יקבלו החלטות שיסכנו ואף יקטלו בני אדם, או שיעדיפו בקבלת ההחלטות שלהן שיקולים שונים מטובת בני-אדם לפני הכל.

כשבידיה של אינטליגנציה עילית שכזו תהיה היכולת לשלוט ישירות בכל המערכות הטכנולוגיות שמקיפות אותנו, לא ניתן יהיה למנוע את ההחלטות שהיא עלולה לקבל, כמו גם את הביצוע שלהן.

לכן ברור שיהיו חייבים להינקט עיצומים מרתיעים וכבדים דיים, כך שימנעו מחברות הטכנולוגיה כניסה להרפתקאות בלתי אחראיות ומסוכנות לאנושות.

הנה הסבר של מושג ה-AGI:

https://youtu.be/_P9UykEJ3eU

ההשפעה הצפויה של הבינה המלאכותית הכללית על המין האנושי (מתורגם):

https://youtu.be/RzkD_rTEBYs

מהי הבינה המלאכותית הכללית?

https://youtu.be/kHFVZV-lj8g

הסבר מפורט לגבי בינה מלאכותית כללית:

https://youtu.be/LhLyOWoUnDI?long=yes

האם AGI פרק את צוות החברה המובילה את ה-AI כיום?

https://youtu.be/OphjEzHF5dY?long=yes

והיום כבר מדובר על ASI שתעבור בהרבה את הבינה האנושית:

https://youtu.be/C0RjMAWhvh8?long=yes

מהן רשתות נוירונים ממוחשבות?

רשתות נוירונים (Neural Networks) הן רשתות מחשבים מתקדמות שמחקות את החשיבה האנושית.

נוירון במוח הוא תא עצב. זהו תא טיפש, ללא יכולת מרשימה בפני עצמו. את כוחו ויכולתו המדהימה לפתור בעיות מורכבות הוא קונה רק כשהוא שותף זעיר ברשת העצבית העצומה, שקוראים לה מוח.

למוח ולרשת נוירונים טכנולוגית שמחקה אותו יש את היכולת המדהימה לפתרון בעיות מורכבות. רשת נוירונים היא "רשת עצבית" מלאכותית, שמעתיקה את הפעילות של שכבות תאי העצב בניאו-קורטקס, האזור שתופס את רוב המוח האנושי.

בניאו קורטקס נעשית החשיבה שלנו. ב"רשת נוירונית" מחובר כל נוירון בסינפסות אל נוירונים נוספים. התקשורת בין הנוירונים היא באמצעות "פוטנציאלי פעולה" - מעין הבזקים, פעימות חשמליות, שעוברות בסינפסות בין נוירון, תא עצב, למשנהו והלאה אל הנוירון הבא ולאלה שאחריו.

מחקר רשתות הנוירונים עוסק בבניית מודלים וירטואליים של שכבות תאי העצב ובתחום זה עוסקים כיום צוותים מגוונים, שמורכבים ממדעני מוח, מדעני מחשב ותוכנה. רשתות מחשבים כאלה יוכלו בעתיד לבצע פעולות שהמוח יודע לבצע בקלות: לאסוף מידע, לנתחו ולהגיב לו בקבלת החלטות שאנו עושים אלפי פעמים ביום.

תחום הנוירו-מחשוב הוא אחד התחומים החשובים בעולם כיום. הוא יוביל בעתיד לדור מתקדם במיוחד של תוכנות חכמות. כבר היום רואים את האפשרויות של תוכנות-מוח שכאלה - מאפליקציות שלומדות את טעמנו האישי ומציעות לנו בגדים, אוכל, מוסיקה או ספרים שאנו אוהבים. בעתיד יותר ויותר טלפונים חכמים ילמדו הרגלים, תחביבים, העדפות וצרכים של המשתמש ויסייעו לו.

גם ברפואה משפרות רשתות עצביות את היכולות ומציעות השפעות נפלאות על היכולת לאתר סרטן עור מוקדם, לגלות טיפולים תרופתיים חדשים למחלות ועוד.

דמיינו מצלמות חכמות, שיודעות לזהות פורץ או מבקר תמים בביתנו, מערכות מחשוב שיזהו האקרים לעומת משתמשים תמימים שטעו, בידוק בטחוני שיזהה מפגים או עבריינים ומערכות צבאיות שיוודאו שכוחותינו יזהו וישמידו את כוחות האויב ולא את כוחותינו.

המלצה:
======
קראו באאוריקה בתגית "למידה עמוקה", על פיתוח מערכות הבינה המלאכותית שמתבססות על רשתות הנוירונים.

הנה רשתות הנוירונים הממוחשבות (מתורגם):

https://youtu.be/JrXazCEACVo

דרך לזהות בהן הפרעות נוירולוגיות (עברית):

https://youtu.be/Agrf1PPXSl8

רשתות הנוירונים שבמוחנו:

https://youtu.be/Gf5QEzZ9F3w

התהליך הכימי של מעבר המידע בין הנוירונים (מתורגם):

https://youtu.be/6Ra3il45vnE

כיום מפתחים רשת נוירונים שמחקה את יכולת הלמידה של תינוק:

http://youtu.be/VNNsN9IJkws

הסבר מדעי (מתורגם):

https://youtu.be/Z6xDuPOgT_Q

דרך שבה רשתות נוירוניות פועלות:

https://youtu.be/h52wgSsm57g

והפיתוח שלהם על ידי למידה מהביולוגיה והטבע:

https://youtu.be/JqMpGrM5ECo

מהו ווטסון, מחשב העל הלומד?

המודל הבינתי שנקרא "ווטסון" (Watson) הוא ככל הנראה הראשון שפותח על ידי חברת IBM, על מחשב-העל שלה. זה מודל AI קוגניטיבי, כמעט המחשב החושב שדורות של מדעני מחשב דיברו על בואו, אבל עם רגליים אי-שם בעתיד.

ווטסון נחשב עם הצגתו לציבור למחשב החכם בעולם וזכה להכרה בינלאומית. הוא החליף את "כחול עמוק". גם הוא פותח על ידי אותה חברה (Ibm) וזכה להישג היסטורי וחסר תקדים, כשניצח בעבר את אלוף העולם בשחמט.

ווטסון נקרא על שם תומאס ווטסון, מייסד IBM, אם כי לפי גרסה אחרת ווטסון קיבל את שמו מהעוזר של שרלוק הולמס, אותו עוזר שכמו מודל כזה, תמיד מסייע לו בחקר ובתשובות שונות לצרכי הבלש הנודע.

זה היה כשהיה הראשון שניצח בני אדם בשעשועון טריוויה בטלוויזיה. ווטסון השתתף אז בתוכנית הטלוויזיה הוותיקה בארה"ב, "ג'פרדי" ("מלך הטריוויה"). במהלך התכנית הוא הראה ידע עצום ושלט גם בטקטיקה של משחקי הטלוויזיה מסוג זה.

הניצחון של המחשב בנוק אאוט על פני המוח האנושי היה מהפכני בכל קנה מידה, במיוחד בזכות העובדה שווטסון לא היה מחובר לאינטרנט ולמנועי חיפוש דוגמת "גוגל", אלא רק מצויד במידע של אנציקלופדיות, מילונים, מאגרי חדשות, יצירות ספרות ושירה וכדומה.

ווטסון היווה ממש מהפכה, ביכולתו לחבר יכולות מתקדמות בחיפוש מידע מהיר ויעיל עם אינטליגנציה מלאכותית מהסוג הדרוש למכונה כזו. טכנולוגיות מתקדמות של למידה ממוחשבת (Machine Learning), עיבוד שפה טבעית (NLP), זיהוי קול אנושי (Speech Recognition) ומגוון שיטות לאיחזור מידע (שליפה מהירה ממאגרים עצומים), היקנו לו את היכולת לתפקד באופן חסר תקדים בתחום המחשוב.

הנה סרטון על מחשב-העל ווטסון ואיך יבמ יצרה אותו:

https://youtu.be/U6rvaWaiZNg

רגע היסטורי - לראשונה ווטסון מנצח בני אדם בשעשועון הידע הטלוויזיוני:

https://youtu.be/WFR3lOm_xhE

כיום הוא כלי מרכזי בניסיונות למצוא תרופה לסרטן:

https://youtu.be/HkEOJnn_zlg

כאן ווטסון לומד לבשל:

https://youtu.be/yrfMcNE0y9s

והוא פתוח לשימוש של סטארטאפים ומפתחים הזקוקים לכוח המחשוב המטורף שלו:

https://youtu.be/RBF4hhgAJJc

ומסביבו יש כנסים מרתקים גם בארץ (עברית):

https://youtu.be/M_q5z6VXRzI

מהם סרטוני דיפ פייק ומה הבעיה בהם?

דיפ פייק (Deep fake או Deepfake) הוא שמה של טכנולוגיית וידאו, מבוססת בינה מלאכותית (AI), המאפשרת לייצר מציאות שנראית אמיתית ומבוססת על אנשים אמיתיים, אך לא התרחשה מעולם.

זה נעשה על ידי לקיחת תמונות, סרטונים וקולות ושינוי שלהם באמצעות AI, באופן שמאפשר לייצר תכנים דומים, הנראים אמיתיים, אך מעולם לא קרו, התרחשו או נאמרו באמת.

טכנולוגיה זו הולכת ותופסת בשנים האחרונות את מקומה ברשתות החברתיות שבאינטרנט.

העיקרון המוביל בסרטוני ה-Deepfakes הוא שחזורי פנים מדויקים, המולבשים על סרטוני וידאו, תמונות או אנימציה ומייצרים מראות הנראים אמיתיים לגמרי.

בסרטונים, למשל, מדובר על החלפת פניו של מי שצולם בווידאו, באמצעות למידת מכונה. התוצאה של זה היא יצירה בקלות של סרטוני וידאו המציגים אנשים העושים מעשים שמעולם לא עשו באמת או אומרים דברים שלא נאמרו.

#תולדות ה"דיפ פייק"
את לידת הטכנולוגיה הזו סימנה אפליקציה בשם FakeApp, שפותחה בסין על ידי מיזם בשם MoMo. המיזם היה ככל הנראה החלוץ בכך שאפשר להמונים להדביק את פניהם לזמרים, שחקנים ודמויות ממשחקי וידאו. לראשונה ראו המשתמשים שמספיקה תמונה אחת של פניהם, כדי שהאפליקציה תדביק ותמפה אותה באופן אוטומטי על גבי הקליפים שהיא מציעה.

בשנת 2016 כבר פותחו מערכות למידת מכונה אוטומטיות וחזקות יחסית, כאלה שלומדות ומשתפרות בעצמן, ככל שהן מופעלות. המערכות הללו חזרו שוב ושוב על תהליכי יצירת Deepfake וככל שהתהליך נמשך, לאחר מיליוני פעמים, הן שיפרו את התוצר. בשנה זו יצאו כבר תוכנות שאפשרו זאת גם על מחשבי PC ביתיים וחלשים יחסית.

את שמה קיבלה הטכנולוגיה הזו בשנת 2017, ממשתמש באתר Reddit שכינויו "זיופים עמוקים". הוא טבע את המונח לאחר שערך כמה סרטונים פורנוגרפיים ובהם הוא הטמיע, באמצעות טכנולוגיית "למידה עמוקה" (Deep learning), את פניהם של ידוענים ומפורסמים שונים.

את פרסומה העיקרי חייבת הטכנולוגיה הזו לסרטוני "פייק ניוז", חדשות כזב, שיצרו תומכי פוליטיקאים בארצות הברית, במהלך קמפיין הבחירות לנשיאות 2020. לפתע החלו להופיע סרטונים בהם ממליצים ומסבירים נשיאי עבר ומשפיענים פוליטיים שונים על דברים בדויים ומנוגדים לאמת. על התחום הזה שווה לקרוא בתגית "פייק ניוז".

#למה משמשים סרטונים אלו?
טכנולוגיית ה-Deepfake משמשת ליצירת תוכן וידאו המציג מציאות בדויה לחלוטין, דברים שנראים ונשמעים אמיתיים ומצולמים, אך למעשה לא התרחשו מעולם.

ביטויי הסרטונים הללו, שזכו לכינוי Deepfakes, הם רבים. הם מתחילים מפוליטיקה בה מיוצרים כך נאומים שלא ננאמו ומעבירים מסרים בדויים מפיהם של ידוענים, מנהיגים ומפורסמים ומסתיימים כיום בסרטונים "פסאודו-תיעודיים", המציגים מעשים, מראות וטקסטים מדוברים, הנראים אמיתיים לחלוטין אך מעולם לא צולמו והוקלטו.

מדובר בעניין מהפכני. מעולם לא עמדה טכנולוגיה כה חזקה וריאליסטית לטובת תעשיית השקר, או בשמה המכובס, תעשיית ה"פוסט אמת".

בעולם של ה-Deepfakes השתפרו האפשרויות ליצירה והפצה של שקרים פראיים. הן כה מרשימות, עד כדי כך שמיליונים "נופלים בפח", מאמינים לסרטוני הדיפ פייק הללו ומשנים בגללם את דעותיהם ואף את התנהגותם והעדפותיהם הפוליטיות. ראו את סרטון הטבע שאנו מציגים למטה ובו בעלי חיים בדויים וכמה שהוא נראה אמיתי.

#סיכום
הכלים ליצירת סרטוני ה"דיפ פייקס" הם כלים טכנולוגיים, מתוחכמים מכל טכנולוגיה שעמדה בעבר לטובת השקרנים ומקדמי מה שזכה לכינויים כמו "אמת אלטרנטיבית", תיאוריות קונספירציה וכדומה.

מעולם לא עמדו טכנולוגיות כה חזקות לרשות השקרים הקטנים, להם מתאפשר עתה להמציא ולהפיק את הבדיות שלהם באופן מוחשי וריאליסטי מאי-פעם.

מצד שני, מעולם הדיפ פייק נולד עם הזמן גם יישום ה"דיפ נוסטלגיה". עד שימצאו גם לו שימושים מזיקים ואף מחרידים, זהו עולם חיובי, סנטימנטלי ומעורר התרגשות אמיתי, בהנחה שנוסטלגיה אינה מזיקה לאיש. ניתן לקרוא עליו בתגית "דיפ נוסטלגיה".

הסבר לטכנולוגיה (עברית):

https://youtu.be/lk-1hBpAyiU

אובמה מדבר פייק:

https://youtu.be/gLoI9hAX9dw

סרט טבע פיקטיבי שיצרו בעזרת Sora ומציג פייק חיות:

https://youtu.be/ObUBUKOn-bo

ההשלכות של זה מטורפות (עברית):

https://youtu.be/4BsiYnt51ok

כך יוצרים פנים ממאפיינים או שילובי פנים אמיתיים:

https://youtu.be/kSLJriaOumA

ושעשוע עם טראמפ ומיסטר בין:

https://youtu.be/HN-qlGf2mZw

מה היה החורף של הבינה המלאכותית?

החורף של הבינה המלאכותית (The winter of artificial intelligence), או "חורף ה-AI", הוא מונח המתאר תקופה משמעותית בהיסטוריה של מדעי המחשב והטכנולוגיה. תקופה זו, שהתרחשה בעיקר בשנות ה-70 של המאה ה-20, סימנה נקודת מפנה בהתפתחות הבינה המלאכותית ובתפיסה הציבורית שלה.

בתחילת דרכה, בשנות ה-50 וה-60, הבינה המלאכותית הייתה מושא להתלהבות ואופטימיות רבה. חוקרים ומדענים הצליחו לפתח מערכות שיכלו לבצע משימות בסיסיות כמו משחק שחמט ופתרון בעיות מתמטיות פשוטות. ההישגים הללו יצרו ציפיות גבוהות לגבי העתיד, והאמונה הרווחת הייתה שבקרוב נראה מכונות חושבות ברמה אנושית.

אולם, עם כניסת שנות ה-70, החלה להתפשט תחושת פיכחון. התברר כי המערכות שפותחו היו מוגבלות מאוד ביכולותיהן, המחשבים לא ענו על הציפיות הגבוהות שתלו בהם ודרשו תכנות מורכב ומפורט, אפילו לביצוע של מטלות פשוטות יחסית. גם מדענים מצאו את עצמם מתקשים ללמד מחשבים דברים בסיסיים שתינוק יודע לעשות, כמו להבין משפטים על פי ההקשר שלהם ושפה בכלל. הטרידו גם העלויות הגבוהות במיוחד שהיו כרוכות בפיתוח והתחושה בתחום הייתה שהתוצאות לא עומדות בציפיות הגבוהות שנוצרו בעשורים הקודמים.

כתוצאה מכך, ההתלהבות והאופוריה סביב הבינה המלאכותית דעכו. המימון למחקר ופיתוח בתחום הצטמצם באופן דרמטי, וחלק מהחוקרים המובילים עברו לתחומים אחרים. תקופה זו סימנה האטה משמעותית בהתקדמות התחום, והובילה לספקנות רבה לגבי היכולת להגשים את החזון של מכונות חושבות.

חוקרים שונים מגדירים אחרת את אורך התקופה. יש הטוענים שהתקוות המנופצות בחורף של הבינה המלאכותית נמשך עד שנות ה-80, כשתחום ה-AI מתחיל לחוות פריחה מחודשת ואיטית, כשבין השאר שווקו לראשונה מכונות ה-LISP, מכונות הבינה המלאכותית הראשונות. אחרים טוענים שהאביב של הבינה המלאכותית מגיע רק באמצע שנות ה-2000. אין ויכוח שהשינוי הונע, בין השאר, מפיתוח "מערכות המומחה", מערכות ממוחשבות שנועדו לחקות את יכולות קבלת ההחלטות של מומחה אנושי בתחומים ספציפיים. התפתחויות אלו סימנו את תחילתו של "האביב" החדש בבינה מלאכותית.

וכך, בתוך עשור מאז 2005, השתנו מקצה לקצה התפיסה לגבי הבינה המלאכותית והתחזיות לגביה. מי שהובילו לכך היו קבוצות שונות של חוקרים, שניסו בהתמדה לפתח "מוח ממוחשב". הגישה התבססה על הרעיון שהמוח האנושי הוא אוסף רכיבים, המחוברים ביניהם כשלכל אחד מהם תפקיד עצמאי משלו. השינוי שהובילו אותן קבוצות, בהשראת מדעי המוח, היה "הלמידה העמוקה", גישה לבניית מכונות תבוניות, ברעיון שהחל להבשיל ולהתפתח יותר ויותר.

את התוצרים של השינוי המאסיבי הזה אנחנו רואים היום, בעידן הבינה המלאכותית הגנרטיבית, המכונות הלומדות ואינסוף הפיתוחים שמתפוצצים מול עינינו ומושתתים על Deep Learning, אותה "למידה עמוקה", שבה המחשב לומד ומלמד, למעשה, את עצמו.

השפעתו של חורף הבינה המלאכותית חרגה מעבר לתחום המדעי והטכנולוגי. הוא השפיע באופן עמוק על התפיסה הציבורית של התחום, וסימן מעבר מאופטימיות מופרזת לגישה מפוכחת יותר לגבי האפשרויות והמגבלות של טכנולוגיה זו. תקופה זו עיצבה את הדרך שבה אנו מתייחסים לבינה מלאכותית עד היום, ומזכירה לנו את החשיבות של שמירה על ציפיות ריאליסטיות לצד המשך החדשנות והפיתוח הטכנולוגי.

למרות שהחורף של הבינה המלאכותית נתפס בזמנו כתקופה של נסיגה, בראייה לאחור ניתן לראות בו שלב הכרחי בהתפתחות התחום. הוא אילץ את החוקרים לבחון מחדש את הנחות היסוד שלהם ולפתח גישות חדשות ומציאותיות יותר, שבסופו של דבר הובילו להתקדמויות המשמעותיות שאנו עדים להן כיום בעולם הבינה המלאכותית.

הנה סיפור החורף של הבינה המלאכותית:

https://youtu.be/w_v5lumtoPk

כך משתלב חורף הבינה המלאכותית בתולדות ה-AI כשלב קשה ומשתק:

https://youtu.be/yaL5ZMvRRqE

וכך קידמה למידת המכונה את הבינה המלאכותית לשלב הבא (מתורגם):

https://youtu.be/f_uwKZIAeM0

אילו מקצועות ייפגעו מהבינה המלאכותית הגנרטיבית?

אנו בעידן הצ'אט בוט המדהים של Open AI שנקרא ChatGPT. ה-GPT הוא קיצור בראשי תיבות של Generative Pre-trained Transformer. הצ'ט בוט הזה מוביל שורה של פיתוחים דומים ולמעשה הוליד, כמעט יש מאין, עולם חדש של טכנולוגיות. יצירתיות, חדשניות ומדהימות.

העניין הזה כבר הוליד פועל חדש בעברית, כשהמערכות הללו מתחילות לג'נרט (מלשון generate), כלומר לייצר תוכן באופן אוטומטי על ידי מחשבים ומודלי שפה תבוניים, דוגמת ChatGPT, Claude, Gemini ודומיהם.

מודלי השפה הללו מתקדמים במהירות והמירוץ לפתחם ימשיך. במקביל לעבודה המדהימה שעושים המפתחים של O.AI יוצאים כל הזמן כלים מתחרים, כולל של ענקיות כמו גוגל, פייסבוק ואמזון, העובדות על מוצרים דומים.

ביחס לכל מוצר AI שהיה נגיש לציבור בעבר, ChatGPT ומקביליו עושים דברים מדהימים, מהפכניים וכמעט בלתי נתפשים במהירות שהם מבוצעים.

אז נכון שיש לצ'אט הזה ולעמיתיו עוד דרך עד שנוכל לסמוך עליו ועל הידע והמידע שהיא מציע לנו בכל התחומים, אבל בתחומים מסוימים הם כבר כאן ועם יכולות בינה מלאכותית שהן די מהפכניות. בעניינים אחרים המרוץ לבשלות ככל הנראה ימשיך והם יגיעו די מהר...

קשה אולי להאמין שהמקצועות שאנו מכירים ייעלמו לגמרי. וגם אלו שאכן ייעלמו - זה לא יקרה מיד, אבל זה תהליך שיימשך, תהליך בו מקצועות עבודה יהפכו יותר ויותר למקצועות של פיקוח על הבינה המלאכותית שעושה אותה.

כשהאדם מפקח על עבודת המכונה, הוא יצטרך להיות בתחום כדי להיכנס לפעולה כשהמכונה נתקלת בבעיה שהיא לא יודעת לפתור, לא מתפקדת, מתקלקלת וכדומה.

אז אילו סוגי מקצועות ייפגעו מהבינה? - ההערכה היא שבעיקר מדובר בעבודות הקשורות בשפה. כל מי שמשתמשים בעבודה שלהם בשפה, באופן ישיר ומשמעותי ולא הכרח ביכולות אחרות, פיזיות, ליטרלי שריריות, יכולים לשער שהבינה המלאכותית תוכל לבצע במעלה ההתפתחות שלה את מלאכתם.

עיתונאים, מידענים, תחקירנים, אנשי שיווק, פרסום ויוצרי תוכן, מתכנתים ואפילו מוסיקאים - אצל כולם השפה היא כלי מרכזי בו הם עושים שימוש בליבת שיטת העבודה. אז זה לא שלא יהיו עיתונאי-על, או מוסיקאים אנושיים - הם פשוט יהיו מעטים ומעולים. השאר ימצאו את עצמם מוקפים באנשים שאינם אנשי מקצוע, אך למדו לנצל כלי AI ולייצר תוצרים שייתחרו בשלהם.

גם אנשי מדיה צריכים לדעת שהמקצועות שלהם יעברו שינויים משמעותיים ולמעשה כבר עוברים. עורכי סרטים, צלמים, יוצרי סרטים, מקליטים, עובדי אולפנים, טכנאי סאונד, עורכי אפקטים ומעצבים גרפיים - המקצועות הללו כבר עוברים שינויים וכדאי שיתעדכנו בהם היטב כי כך יוכלו להשתנות עם התחום ולהתבגר לחידושי ה-AI שייכנסו אליו, למצוינות והובלה בו.

הנה השפעת הבינה המלאכותית על העולם האנושי שלנו (מתורגם):

https://youtu.be/RzkD_rTEBYs

יחליף את המורים? - למה בחינוך מודאגים ממודל השפה החדש?

https://youtu.be/Fn8jDanbf0c

האם הג'י פי טי יחליף למשל את הסופרים ויכתוב ספרים, כמו שהוא מייצר היום ספרי ילדים (עברית):

https://youtu.be/sDjFRAP0Szg

כך ה-AI מאיים דווקא על מקצועות הצווארון הלבן:

https://youtu.be/lxvIuoD-nOs?long=yes

ומה הוא עושה לתלמידים והמורים (עברית):

https://youtu.be/vmmUiyeGNB8?long=yes

מהם מנועי תמונות ובינה ויזואלית ב-AI?

הבינה המלאכותית היצירתית (GenAI) כמו DALL-E היא מערכת המסוגלת לייצר תמונות ודימויים ויזואליים דמיוניים, המבוססים על פרומפטים - תיאורי מלל, אינפוטים טקסטואליים שכתב והזין לה המשתמש.

הכל הוא חלק מטכנולוגיה שנקראת "ג'נרטיב AI". זו בינה מלאכותית שבמקום לחשב ולנצח במשחקי טריוויה הפכה ליוצרת AI, לציירת, צלמת ועוד כל מיני סוגי אמנים - אבל במקרה שלה - תמיד באינטליגנציה מלאכותית.

באמצעות פרומפטים, תיאורים מילוליים דוגמת "אביר ימי-בייניימי עשוי מחצילים" או "מגדל מודרני בנוי על שריון של צב בסגנון פיקאסו" מייצרת המערכת תמונות וציורים מרהיבים ואפילו מדהימים.

ליצירת התמונות מהטקסט אחראית הבינה המלאכותית המבוססת על למידה עמוקה, מערכת הלומדת בעצמה רשתות נוירונים מלאכותיות, על סמך דפוסים שהיא מאתרת עצמאית, במיליוני תמונות וציורים המוזנים אליה על ידי המפעילים שלה.

להישג המקורי של DALL-E קמו די מהר מתחרים איכותיים לא פחות ואף יותר. הם מציעים עולם חדש וחסר תקדים של ציירים בינתיים, שרק ממתינים לבקשות מהמשתמשים ומזדרזים לצייר מבחר טיוטות, מהן יכול המשתמש לבחור את התוצר הסופי שמועדף, שיבוצע באיכות גבוהה.

איש לא יודע בדיוק כיצד המנועים השונים פועלים, אבל זו עבודה מדהימה של למידה עמוקה שמעבדת בעצמה את הדאטה ממיליוני תמונות ומלמדת את עצמה לצייר ולפרש את הפרומפטים לפיקסלים ותמונות.

התוצאות של DALL-E 2 היכו די מהר גלים בעולם הבינה המלאכותית ותחרות של חברות ומפתחי קוד פתוח יצרו גם הרבה שיפורים, הן באיכות הטכנית של התמונות והן ביכולות האמנותיות. כך למשל הולכות התמונות ונעשות מפורטות, הרזולוציה גדלה, יכולות הריאליזם, עבודת הצל והתאורה, השימוש במרקמים וציור הנראה כמעט טבעי לחלוטין. השטח מלא במודלים שבראשם מידג'רני, אידיאוגרם ו-Flux, המודל בקוד פותח שמייצר תוצרים שומטי לסתות.

מחפשים ליצור סגנונות של ציורים? - ראו בתגית "כלי איי, תמונות, סגנונות".

הנה כלי Gen AI מצטיין בשם ideogram ליצירה ויזואלית:

https://youtu.be/XZjaHJP0PQE

באיזה כלי לבחור לכל צורך? (עברית)

https://youtu.be/a5wUS6SQ0us?t=1m47s

"דאל-E" שכבר יכולה לצייר דיוקנאות מתיאור מילולי בשפה טבעית של מה שיכיל הציור:

https://youtu.be/qTgPSKKjfVg

על היכולת המופלאה של דאלי ליצור אמנות:

https://youtu.be/hiSgpZUAy2c

הסבר אמנות ה-AI:

https://youtu.be/alJdw4JDJ4o

מנועי יצירת תמונות מתחרים:

https://youtu.be/rGbNJrywLhk

גם היהדות ואפילו החרדית מקבלת אפשרויות שהולכות ומתפתחות (עברית):

https://youtu.be/KR29znIp2LU

ה"אאוט פיינטינג" של דאלי, בו הוא מרחיב תמונה:

https://youtu.be/G-Wsh1vUeVQ

קבלו משפר פרומפטים ליצירת תמונות (עברית):

https://youtu.be/HLhRFaXQ0vQ

מדריך להרחבת תמונות:

https://youtu.be/V1KLG159A2s

קליפ שכולו תמונות שנוצרו ממילות שיר של קינג קרימזון:

https://youtu.be/VR3AWdyVVdU

למה יש לבינה כל הזמן בעיה עם אצבעות?

https://youtu.be/24yjRbBah3w

גם למחוללי תמונות מעולים כמו מידג'רני יש בעיות (עברית):

https://youtu.be/xUpUhHsAWlg?long=yes

הסבר מעמיק וארוך על יצירת תמונות גנרטיבית (עברית):

https://youtu.be/aHPFq-Q6JQ0?long=yes

ויוצר רשת שחודש שלם העלה לרשת החברתית תמונות אושר ואווירה שיצר AI - ואז גילה לעוקביו את האמת:

https://youtu.be/FRClNMC_z-s?long=yes

למה מחשבים לא חכמים או נבונים כמו בני אדם?

מחשבים יודעים לעשות המון דברים מצוין, אפילו יותר מבני אדם. אבל זה לא אומר שהם נבונים או חכמים מבני אדם. עדיין...

מהירות הפעולה של המחשבים מאפשרת להם לבצע חישובים מסובכים ביותר, בשבריר מהמהירות שאפילו הגאון האנושי הכי גדול יכול רק לקנא בה. הם יכולים לחשב מתמטיקה ולבצע פעולות על תמונות, וידאו, תקשורת ועוד, אפילו לנצח את רובנו בשחמט... מחשב כבר ניצח את האלופים האנושיים, אפילו בשעשועון טלוויזיה שהתנהל בשפה טבעית, שהיא שפה אנושית.

אבל האם זה אומר שהם נבונים או חכמים באמת? ואם לא, האם בעתיד יוכל המחשב להיות חכם כמו ואפילו יותר מבני אדם? ונבון?

כרגע מחשבים הם ממש לא נבונים כבני אנוש. הם מחשבים מצוין, אבל חושבים ברמה של ילד קטן. החשיבה האנושית היא מפותחת כל כך, שהם אפילו לא קרובים לחיקוי שלה.

בקשר לחוכמה, הם לומדים ועושים זאת לא רע, אפילו טוב. למידת מכונה, למשל, מחייבת עדיין בני אדם מקצועיים שיאמנו את המחשב וזו עדיין מלאכה למומחים. זה אומר שמדובר במשהו כמו מורים ברמת פרופסור המלמדים תלמידים בבית הספר היסודי.

אבל למידה עמוקה היא סיפור אחר. כבר היום מחשבים מלמדים את עצמם, באמצעות טיפול בכמויות אדירות של נתונים, מה שקרוי לעתים "ביג דאטה", לזהות ולהסיק מסקנות שמעט מאוד בני אדם יכולים היו להגיע אליהם. זו כבר סוג של תבונה ולא סתם זהו חלק מובחר בעולם של ה"בינה המלאכותית" של ימינו.

ישנם מדענים שמאמינים שבקרוב, ממש בתוך כמה עשרות שנים, יהיו כבר מחשבים נבונים ובעלי רגשות כמו של בני אדם. זה ייצור עולם חדש ומשונה שבו מחשבים יוכלו לבצע ולחשוב בשבילנו. יש אפילו מי שטוענים שזה יאריך את חיינו בהמון שנים. האם זה טוב או שיש בזה גם רע? - כנראה שגם וגם, אבל בכל מקרה זה מעניין וראוי למחשבה!

הנה סרטון על חוכמת המחשב לעומת חוכמת האדם (עברית):

http://youtu.be/YTNasDfDE6U

אולי המחשב כן יכול להיות חכם כמו בן אדם? (מתורגם):

https://youtu.be/3wLqsRLvV-c

מהי טפשת ה-AI שתפגע באיכות התוכן והקוד?

אחת התופעות שמתחילות להתגלות בשנים האחרונות, מאז הפריצה של הבינה המלאכותית הגנרטיבית, היא של טפשת שגורמת הבינה הגנרטיבית למידע ולתוכן באינטרנט.

ברור שהשימוש הכל כך קל ב-Generative AI מקל על המשתמשים, אבל ידוע לכל שיש לבדוק את המידע שהיא יוצרת לפני שמחזירים אותו לציבור כמידע שיצרו בני אדם. מסתבר שרבים לא מבינים את החולשות והפגמים שעדיין מלאים בהם מודלי השפה, אותם מודלים גדולים (LLMs) שעושים היום את הידע. אם אלה תכנים שהתקבלו מקלוד או ChatGPT, רכיבי AI שנועדו לייצר קוד בתכנות, וידאו או תמונות גנרטיביות שיוצרים מנועים שונים ועוד.

התופעה הזו כבר פוגעת באיכות המידע באינטרנט, לפי בדיקות אובייקטיביות שעורכים באופן תקופתי לאיכות הרשת. מסתבר שלא זו בלבד שבני אדם מסתמכים על מידע שחלקו לא מדויק בלשון המעטה, אלא שהקרולרים עצמם, אותן תוכנות שאוספות את המידע מהרשת לצורך אימון, הזנת ועדכון מודלי השפה הגדולים - מסתבר שהם עצמם מסתמכים על המידע הגרוע הזה. ובדיוק כך, הוא חוזר למודל השפה ונכנס לתוכן שמקוטלג לטוקנים (Tokens) ובחזרה לדאטה שעליו הם מסתמכים. התוצאה היא שיותר ויותר מידע לא בדוק ולא אחראי, שהגיע מלכתחילה לרשת ממודלי שפה לא בשלים מספיק, חוזר ומפרה את המודלים הבוגרים, שאמורים לקבל מידע אנושי ואיכותי ולא תמיד יודעים לאתר את השגיאות שבו.

גם בעולם העסקים והארגונים יש כבר החמרה. הירידה באיכות התוכן שבאינטרנט נובעת מהשימוש הגובר והולך בחומר בינוני, שהגיע מהבינה המלאכותית הגנרטיבית, אך לא בוגרת, של הדור הראשון. כבר עם ההשקה של ChatGPT ב-2022, גילו מנהלים את הצ'טבוט שמאפשר להם ליצור חומרים באמצעות בינה מלאכותית יוצרת (generative AI) וחיפשו דרכים להשתמש בהם, במקום בעבודה של עובדים או חברות מיקור החוץ שבהם השתמשו בעבר. מעט מאותם מאמצים התגלו כיעילים ומרביתם נשארו בפוטנציאל יותר מאשר החליפו עובדים.

אך בתחום התכנות זה כן קרה. מסתבר שמודלים כמו CoPilot, Claude ואחרים מייצרים קוד במהירות ומחליפים את הג'וניורים, המתכנתים הצעירים בתעשייה. לפי סקרים שמתפרסמים בעולם נראה שקצב האימוץ של המנועים הללו הוא גבוה, במיוחד ביחס לזמן הקצר שבו הם פועלים. אלא שבסוף 2024 מתחיל להסתבר שכ-40% מהמתכנתים בעולם משתמשים בכלים כאלה ומשגרים קוד שלפחות בחלקו הוא פחות מוצלח. קוד זה חוזר ו"נלמד" על ידי המודלים ומוריד את איכות התכנות שלהם באופן מתמשך, שעלול אף להחמיר.

מהו ומה היתרון של מודל שפה קטן, או SLM?

מודל שפה קטן (Small Language Model), ובקיצור SLM, הוא מודל מתמחה או מומחה, דגם קטן יותר ומזוקק, מה שהופך אותו להבטחה גדולה וממשית לצרכים עסקיים, בעולם האמיתי.

מודלים קטנים של שפה, או כמו שתרגום מכונה מכנה בטעות "מודלים של שפות קטנות", מאפשרים היום אימון בינה מלאכותית על ידע ספציפי לתחומים שונים ובכך להתאימם לתעשיות ספציפיות, משימות וזרימות עבודה תפעוליות.

SLM הוא קצת כמו סוס חזק ומהיר שיכול לבצע משימות ממוקדות, לעומת כרכרות LLM עמוסות, כבדות ולכן גם מוגבלות בתמרון.

שוב ושוב נשאלת השאלה האם יכולים מודלי שפה קטנים (SLMs) לנצח את ה-ChatGPTים או ה-Claudeים למיניהם, את האחים הגדולים והוותיקים, המצוידים, מאומנים ועתירי המשאבים מעולם ה-LLMs?

או במספרים - האם מודל של מיליארד בודד של פרמטרים (1B) יכול לגבור על היכולות של מודל עם 405B פרמטרים, יותר מפי 400 ממנו?

אז כן. בניגוד למודל שפה גדול של עולם ה-LLMs, שמעבד כמויות אדירות של ידע כללי, המודל הקטן מעולם ה-SLMs בנוי במחשבה על דיוק ויעילות. עלות הפעלתו היא נמוכה משמעותית, הוא דורש פחות כוח חישוב ובנוי כדי לספק תובנות רלוונטיות יותר לעסק מאשר מקביליו הגדולים והכלליים.

בעולם המודלים הגדולים של שפה כבר הסתבר שאופטימיזציה של החישובים ב-SLMs כאלה יכולה אכן לעלות את היכולות של הקטנים הללו על אלו של דגמים גדולים יותר, שמנסים ומצליחים להיות חכמים מכולם ויודעי-כל, אבל תפעולם יקר ומסורבל יותר והם לא יעמדו ביכולות ההתמחות של מודל קטן שלא מביט לצדדים ומרוכז רק במשימתו.

מחקרים שבחנו את היעילות של שיטה ששמה Compute-Optimal TTS, למשל, הראו ששיפור הביצועים של מודלים קטנים מאפשר לעלות בהם את הביצועים על אלו של דגמים גדולים יותר, במשימות מתמטיות כמו MATH-500 ו-AIME24 ובשיפור יכולות החשיבה של LLM.

#ביצועים, התמחות ואבטחת נתונים
לא מעט חברות וארגונים מבינים שהשאלה היא לא על איזה מודל בינה מלאכותית אנשים קופצים, אלא איזה מודל יספק לחברה או לארגון ערך עסקי אמיתי. SLMs מאפשרים לעסקים לפרוס AI ישירות על מחשבים ניידים, רובוטים וטלפונים ניידים ולהבטיח בכך גם שהנתונים, הדאטה שלהם, יישארו מוגנים.

דגמי SLM, שמותאמים להצטיין בתחומים ספציפיים - פיתוח תוכנה, רפואה, פיננסים וכדומה, יספקו תוצאות מדויקות ואמינות יותר, המותאמות לצרכי הארגון הייחודיים וליכולותיו.

ה-SLMs המזוקקים והקטנים יותר מצליחים לשמור על יכולות חשיבה חזקות וממוקדות תחום, ביחד עם יעילות המאפשרת להם לפעול באופן מקומי, מבלי להסתמך על מחשוב ענן.

#סוכני AI
אם SLMs מצוינים עבור עסקים הרוצים לייצר משימות אוטומציה שלא נזקקות לכל הרעש והצלצולים שמציע ה-LLM, אז מה עם סוכני בינה משויפים?

אז ברור שגם מפתחים של סוכני AI צריכים דגמים קלים, מהירים ומתמחים מאוד, המאומנים על ידע מעמיק וספציפי לתחום בו מתמחה הסוכן. בזכות דרישות המשאבים המצומצמות והגודל הקטן יותר שלהם, שירותי SLM יכולים בדרך כלל להתאים בול למגמת ה-Agentic AI, בכך שהם מאפשרים קבלת החלטות אוטונומית בקצה.

אמנם מודלי SLM עשויים לדרוש הכשרה מיוחדת מלכתחילה, אבל מנגד עומד היתרון של הפחתת הסיכונים הכרוכים בשימוש ב-LLM של צד שלישי וספקים חיצוניים. זהו יתרון עצום, המצטרף לשאר יתרונותיהם: יכולת הסבר גדולה יותר, ביצועים מהירים יותר ויכולת ביצוע מדויק, עקבי ושקוף יותר, המצטרפים לשליטה רבה יותר על פרטיות ואבטחת הנתונים.

#שילוב של המודלים
כיום מבינים שאמנם אין תחרות ל-LLMs בגודל ובעוצמה, אך הסתמכות יתר עליהם יכולה להוביל לתחושת ביטחון מוגזמת, לשאננות ולטעויות קריטיות שעלולות לחמוק מבלי להתגלות.

כך שאולי LLMs ו-SLMs אינם סותרים אלא משלימים. יתכן שבפועל, SLMs יכולים לחזק את ה-LLMs וליצור פתרונות היברידיים, משולבים, שבהם ה-SLMs ממונים על הביצוע הספציפי והמדויק בעוד ה-LLMs מספקים את הקונטקסט, ההקשר הרחב יותר .

מהם SLMs ומה יתרונות מודלי השפה הקטנים הללו:

https://youtu.be/C4Qt9Hnp6vs

הסבר פשוט וקצר:

https://youtu.be/AlwWuSor_M4

למה לבחור SLM ולאילו מגבלות לשים לב אל מול ה-LLM?

https://youtu.be/Hg8f5bjtsWc

ומודל השפה הקטן של מיסטרל:

https://youtu.be/nCXTdcggwkM

איך יוצרים ספרים ב-AI?

יצירה של ספר ילדים (Storybook) באמצעות AI היא דבר מדהים ומרגש. היכולת של ה-AI לקבל פרומפט קצר או מפורט של הסיפור, לראות כמה תמונות שאם נרצה נעלה אליו ולעשות את השאר בשבילנו - היכולת הזו היא מדהימה ומרגשת.

אלה השלבים ליצירת סיפור כזה:

1. החליטו מה ברצונכם שהספר יספר.

2. כתבו את הפרומפט, כלומר את ההנחייה שלכם. נדב, למשל, כתב את הפרומפט הבא:

Zoe, a mixed Labrador and Canaan dog, and how she came with her owner Nadav to the dog beach in Tel Aviv and met lots of dogs of different breeds. Each one has a different character and traits, and there are several dozen dogs here. At one point, one of the dogs complains that Zoe brought a person to the dog beach and worries that it is not a place for people, because they do not know how to behave. Many of the dogs join her and her concerns. So Zoe calmly answers them that Nadav is a good guy and does not make a mess or make noise and he behaves well. And because she is completely calm, they accept what she says and since then to this day, good people also come to the dog beach and everyone is happy that they do not discriminate against people, just because they are people.

אגב, אפשר גם בעברית, אם כי ייתכנו מעט הזיות אז עדיף לטרנסלט לאנגלית.

3. להשלמת הדמויות (אלא אם רוצים שהבינה תמציא את המראה שלהן) הוסיפו תמונות - באמצעות כפתור + שבצד שדה הפרומפט ובחירת images.

4. לוחצים על כפתור ה-Generate וממתינים 2-3 דקות לספר החדש שכתבתם.

5. למעלה יש כפתורי הדפסה ושיתוף עם אחרים.

בהצלחה!

הנה סיפור AI מודרך:

https://youtu.be/py2yXfgzQiQ

כך יוצרים סיפור AI:

https://youtu.be/rxGjFpDPsf8

מדריך מפורט ליצירת ספרים באמצעות AI:

https://youtu.be/3_oY8XQy2Qc? long=yes

ויצירת ספרים בבינה מלאכותית, כלומר ב-AI:

https://youtu.be/DH3FDF3sR8k?long=yes

כיצד ניתן לחזות את מזג האוויר?

תחזית מזג אוויר (Weather Forecast) היא רעיון ישן שבמשך אלפי שנים היה חלום בלתי מושג, שאיש לא הצליח לפצח. אבל כבר בסוף המאה ה-19 הגיעה הטכנולוגיה לרמה ראשונית של הבשלה. ראשונית, כי התחזית הייתה לא מדויקת וגם במקרה בו הצליחה, טווח התחזית היה של יום יומיים מקסימום ולא יותר.

המחשב שינה הכל. כבר משנות ה-60 הלך והחליף החיזוי מבוסס המחשב את כל שיטות החיזוי של פעם. עם התפתחות המחשוב ותפוצת המחשבים האישיים, החלו המטאורולוגים לבצע פעולות חישוב שאפשרו להם להריץ נוסחאות מתקדמות של חיזוי מזג האוויר ולשפר משמעותית את יכולות התחזית שלהם.

למעשה, האפשרות לחזות את מזג האוויר היא אחת המהפכות המעניינות והמהירות בהיסטוריה. ממצב שבו איש לא יכול לחזות את מזג האוויר בעוד שלושה ימים, הגענו בתוך חצי מאה למצב בו מספיק מחשב וידע שניתן לרכוש באינטרנט, בכדי להיות חזאי חובב ברמה יפה ולהגיע אפילו לבד לתחזיות די מדויקות.

ועדיין, יש לא מעט קשיים גם היום בחיזוי מודרני של מזג האוויר. כיום, גם אם יש תצפיות מטאורולוגיות במרבית הארצות בכדור הארץ, אין או חסרות תצפיות מעל מדבריות ואוקיינוסים. יש גם סירוב משמעותי של ארצות במלחמה, לשלוח ולשתף נתונים מטאורולוגיים עם מדינות אחרות.

אז נכון, לתחזיות מזג האוויר יש עוד דרך ארוכה עד שנוכל לצפות לתחזית לגשם ברזולוציה של דקות או לטווחים של מעל 5 ימים. ועדיין, הידע והטכנולוגיה הקיימת מאפשרים לשירותי החיזוי בימינו לתת תחזיות מודרניות ואמינות ברוב המקרים לארבעת ולחמשת הימים הבאים. יש למטאורולוגיה המודרנית אפילו את היכולת לתת הערכות לא רעות לעשרת הימים הבאים.

בשלב הזה נכנסות וייכנסו ללא ספק מערכות תוכנה מבוססות למידה עמוקה (Deep Learning). מצוידות בכמויות דאטה עצומות שיוכנסו אליהן, מערכות אלה יאתרו בעצמן דפוסים וקשרים בהתפתחות מזג האוויר, שישפרו בעתיד הנראה לעין את התחזיות הרבה מעבר למה שאנו משערים.

הנה חזאי מסביר כיצד הוא חוזה את תחזית מזג האוויר (עברית):

http://youtu.be/7joNfy4Ru1E

תוכנות מתקדמות מאפשרות כיום תחזית מזג אוויר משופרת:

https://youtu.be/KP-6Mgt3q4g

למה החזאים עדיין טועים? (עברית)

https://youtu.be/uKqGAKosLP0

ותכנית חינוכית ארוכה על נושא מזג האוויר (עברית):

http://youtu.be/QNvPN7asA9o?long=yes

מהם מודלי שפה גדולים, או LLM?

מודל שפה גדול (LLM), קיצור של Large Language Model, הוא ה"מוח" שמפעיל צ'אטבוט עוצמתי, כמו הצ'אטבוט ChatGPT, המייצר תוכן לבקשת המשתמשים ועושה זאת באמצעות מודל השפה הגדול GPT-4 ואחרים.

את התוכן מייצר הצ'אטבוט מדאטה עצום, כמות מידע אדירה שנשאבה מהאינטרנט ובאמצעותה אימנו את מודל השפה שמפעיל אותו. מודלי השפה GPT-3 ו-GPT-4, למשל, הם שמפעילים את הצ'אטבוט הכי מפורסם ChatGPT.

יש שאומרים שמודל השפה בעצם הוא לא יותר ממחולל מילים סטטיסטי. הם צודקים אבל גם טועים. כי מודל שפה יכול לחשב מצוין הסתברות של הופעת מילים שונות בכל משפט וכך לייצר משפטים חדשים, מילה אחר מילה, בשפה שבה הוא אומן על ידי המפתחים שלו. אבל זו דוגמה בלבד ואפילו קצת מטעה. כי סטטיסטיקה זה לא הכל וכנראה לא לגמרי המהות של העניין. המוח של מודל השפה, האופן שבו הוא בנוי והתובנות והביצועים שהוא יכול לנפק, הם משמעותיים הרבה יותר.

מודל כזה הוא תת-תחום של למידה עמוקה ומבוסס על רשת עצבית מלאכותית הבנויה בצורה דומה למוח האנושי. הרשת הזו היא בעלת כמות אדירה של פרמטרים, לרוב מיליארדים. הפרמטרים הללו הם ערכים מספריים שמסייעים לאלגוריתם ללמוד.

עוד ביטוי לגודלו הגדול של המודל הוא באימון שלו על מאות מיליוני מילים, בכמויות ענק של טקסט לא מתויג, בשיטת למידה שאינה מסתמכת רק על דוגמאות אנושיות, או מה שנקרא "למידה בפיקוח-עצמי".

#איך זה בדיוק עובד?
נניח ששאלתם שאלה, מודל השפה הגדול מניח את נוסח השאלה על שולחן הטיפולים שלו ובודק בדאטה שלו, במידע העצום שהוא אגר והמיר לקוד מתמטי (ראו אח"כ בתגית" טוקנים"), מה המילה שהכי סביר (מבחינת הסתברות) שתתחיל את התשובה. ואז הוא בודק מה המילה עם ההסתברות הכי גבוהה להופיע אחריה וכך הלאה. זה ייתן לו את התשובה הסבירה ביותר לשאלה.

למה הכי סבירה ולא הכי טובה? - כי הסתברות היא לעולם לא מושלמת וזו בדיוק הסיבה להזיות שנקבל לא פעם ממנועי בינה מלאכותית. אגב, אם תבקשו ממנו לבדוק את תשובתו, כל LLM ימצא ויפרט את שגיאותיו וגם יציע לתקן את המענה שנתן ובתיקון זה כבר יהיה הרבה יותר טוב.

ה-LLM משתמש בייצוג מתמטי של שפה טבעית באמצעות הסתברויות. כל מדען נתונים יאשר שהבסיס של מודלי שפה הוא היכולת שלהם לחשב הסתברות לכל משפט בשפה שבה הם אומנו ומהיכולת הזו נובע חלק משמעותי ביכולת שלהם לייצר משפטים חדשים, מילה אחר מילה.

#מודלי השפה הגדולים והבינה הג'נרטיבית
מודל השפה הגדול הוא בעצם הבסיס למהפכת הבינה הגנרטיבית שפרצה לחיינו בשלהי 2022-תחילת 23. מודלי השפה הגדולים הללו מסמנים קפיצת דרך של ממש ולמעשה הכניסו אותנו עמוק אל תוך העתיד.

הייתה זו IBM שפיתחה את אחד ממודלי השפה הראשונים. הוא נקרא ווטסון, על שם תומאס ווטסון, מייסד IBM. יש גרסה שאומרת שהוא קיבל את שמו משמו משם העוזר של שרלוק הולמס, ווטסון. מודל כזה, ממש כמו אותו עוזר, תמיד מסייע בחקר ובתשובות שונות, כיום של רבים ואצל שרלוק, לצרכי החקירות של הבלש הנודע.

מצוידים במודלים החדשים, הצ'אטבוטים המרשימים, כמו Claude ו-ChatGPT, מסרבים להיות לכם לווטסון. במקום זאת הם מפותחים כך שיהיו המוח, כלומר השרלוק שלכם, כשאתם וכמה זה אירוני, בתפקיד הווטסון או העוזר שלהם... אבל גם הלקוחות.

מודל שפה הוא שמאפשר לנו לבקש ממנו לסכם טקסטים, לענות על שאלות, לצייר או בעצם לייצר תמונות ו"צילומים", לחבר שירים, ליצור סרטונים או לכתוב קוד.

אז מודלי שפה גדולים אפשרו את קפיצת הדרך המדהימה של מהפכת ה-AI. אמנם הם רחוקים מלהיות מושלמים לחלוטין ועדיין פה ושם מקלקלים את ההתפעלות עם ההזיות המוכרות האלה שלהם, עובדות שגויות, מידע לא רלוונטי או מופרך ואפילו עלבונות נדירים. ומה שלא פחות מרגיז לעתים הוא הביטחון המלא שבו הם כותבים או מדברים אותן, שזה בדיוק מה שהופך את חשיפת ההזיות ובדיות הללו לכל כך קשה ומסוכנת...

כיום, המודלים הללו הולכים ומאפשרים צמיחה של עולם חדש, עולם סוכני ה-AI. הם ממוקדים בביצוע משימות ספציפיות, תגובה לסביבה ועוד תכונות מבטיחות. הכירו אותם בתגית "סוכני AI".

הנה מה שעושים המודלים, מנועי השפה הגדולים (מתורגם):

https://youtu.be/X-AWdfSFCHQ

כך פורצת מלחמת עולם ה-AI הראשונה:

https://youtu.be/nJjuYTpHQEE

מהו LLM?

https://youtu.be/iR2O2GPbB0E

המודל השולט בינואר 2025 - DeepSeek R1 הסיני:

https://youtu.be/hupQ97Or3jw

השוואת הצ'טבוטים הטובים, מנועי השפה הגדולים בסוף 2024 (עברית):

https://youtu.be/NanvGTQeO-g

כך פועל מודל השפה הגדול LLM:

https://youtu.be/iR2O2GPbB0E

כך בנויים ופועלים מודלי השפה הגדולים:

https://youtu.be/5sLYAQS9sWQ

יש להם גם חסרונות:

https://youtu.be/Gf_sgim24pI

כלי שמציע את המודלים הכי מתקדמים בחינם:

https://youtu.be/ZfCpn5agPN0

הסבר מעמיק על מודלים גדולים של שפה ומה שהם הובילו (עברית):

https://youtu.be/-NIsUKUnxhA?long=yes

הפרמטרים והטוקנים באימון מודלים כאלו:

https://youtu.be/r17HV0TzAWw?long=yes

ובאופן סטטיסטי - כך פועל LLM:

https://youtu.be/LPZh9BOjkQs?long=yes

מהו זיהוי פנים?

ממצלמות אבטחה במרחב הציבורי, דרך מצלמות מעקב המתעדות מיליוני אנשים בערים ובדרכים ועד לסוכנויות המעקב הממשלתיות, לאחרונה נראה שהיא בכל מקום. היכולת לזהות פנים באופן דיגיטלי מתבססת על המרה של תווי הפנים של אדם למפת נתונים, שניתן להשוות למיליוני מפות נתונים אחרות ולמצוא במי מדובר.

מדובר בטכנולוגיית זיהוי פנים (Facial recognition), המבוססת על יכולת טכנולוגית מבוססת אלגוריתם, או תוכנה, שמסוגלת לזהות אדם על פי צילום דיגיטלי שלו, אם בתצלום ואם בסרט וידאו. מערכות זיהוי פנים רבות מתיימרות כיום לעשות זאת באופן אוטומטי.

אחת השיטות לזיהוי פנים היא על ידי השוואת תכונות תווי הפנים שבתמונה לתמונות שמאוחסנות במאגר נתונים. אלגוריתם פשוט למד כבר מזמן לזהות בזמן צילום דיגיטלי, פנים אנושיות וכך עשה פוקוס עליהם, כדי שהפנים לא יצאו מטושטשים.

בשנים האחרונות הפכו האלגוריתמים של זיהוי פנים מדויקים מבעבר. הם מאפשרים לעבד כמויות אדירות של מידע, במהירות וביעילות, כשהם נעזרים במאגרי נתונים ענקיים המכילים את פניהם של אזרחים רבים.

המדהים הוא שהרשתות החברתיות מהוות כיום את מאגר הנתונים הגדול מאי-פעם, כשלכל צילום מתווספים מיידית שמות המצולם ופרטים מזהים רבים. המרכזיות של המדיה החברתית בחיינו מהווה סיכון לא קטן לפרטיות שלנו וזה יילך ויתחדד, ככל שיימצאו שימושים חדשים לטכנולוגיות הללו.

כל השחקנים הטכנולוגיים הגדולים כבר שם. אם זו פייסבוק, שמזהה את חבריך בתמונות שהעלית לקיר שלך, או גוגל שמזהה לבעלי סמארטפונים את פניהם של המצולמים בתמונות שבנייד האנדרואיד שלהם. מיקרוסופט, שהצליחה לפתח אלגוריתמים לשלטים שמזהים את המתבונן ומציעים לו פרסומות מטורגטות, כלומר פרסומות שונות לכל אדם ומותאמות לנושאים שבהם הוא מתעניין, בצורה די דומה לפרסומות בדפדפן, שמתאימות את עצמן לחיפושים שלך במנוע החיפוש. מוצר אחר של מיקרוסופט המשתמש בזיהוי פנים, הוא מצלמה שמסוגלת להבחין בין תאומים זהים ולזהותם על אף הדימיון הרב ביניהם.

מערכות זיהוי פנים משמשות כיום לאבטחה, לזיהוי החברים המצולמים ברשתות חברתיות ולמעקב אחרי פושעים וטרוריסטים במקומות ציבוריים. לעתים קרובות הן מופעלות ביחד עם טכנולוגיות משלימות, שכן זיהוי פנים היא חלק מתחום הזיהוי הביומטרי. טכנולוגיות נוספות שמשמשות בזיהוי ביומטרי הן זיהוי טביעות אצבע, זיהוי דנ"א וזיהוי קשתית העין.

כך אנו מזהים פנים (עברית):

https://youtu.be/mTSsCYob9mo

זיהוי פנים טכנולוגי:

https://youtu.be/wve5JWX7yoc

זיהוי פנים כאמצעי תשלום (עברית):

https://youtu.be/9yyeH6CK5xk

על זיהוי פנים ופרטיות (עברית):

https://youtu.be/fU3OMXLAKNk

טכנולוגיית האבטחה שמתבססת על זיהוי פנים:

https://youtu.be/9k-rTVfLesQ

מראת הפלא שמזהה בין השאר רגשות של המתבונן בה:

https://youtu.be/uN1yB17S2bk

נראה שזיהוי הפנים של חלונות 10 לא מתבלבל בין תאומים זהים:

https://youtu.be/J1NL246P9Vg

ויש גם זיהוי פנים מעט מביך כמו אלגוריתם שמבטיח לזהות את הגיל של המצולם:

https://youtu.be/Wi8DLKPQqJ0

מי טען שעיבוד נתונים הוא רק גימיק אופנתי?

איך מתבצעת צביעה של תמונות ישנות?

איך תיראה תעשיית העתיד?

מהו מודל היגיון, או Reasoning Model?

מה חכם בטלוויזיה החכמה?

מהי סקיינט בקולנוע שמהווה אזהרה כנגד AGI?

מהי ראייה ממוחשבת במערכות זיהוי תמונה?

איך צובעים סרטי קולנוע ישנים?

איך מלמדים מחשבים לזהות פנים?

מה זה ביג דאטה?

מהן שפות תכנות?

מהי הבינה הגנרטיבית שיודעת לייצר תוכן?