Deep Learning

» «

מכירים את זה שחבר מפעיל את הסירי שלו במסיבה, שהוא מדבר אליה והיא מצליחה או לא מצליחה להבין מה הוא אומר? - זה לא ברור מאליו.

"אפקט מסיבת הקוקטייל" (Cocktail party effect) ולפעמים "בעיית מסיבת הקוקטייל" (Cocktail Party Problem) הם השמות שניתנו לתופעת האבחנה בין בליל הקולות האנושיים המתערבבים זה בזה. מדובר באפקט ידוע מתחום הפסיכולוגיה הקוגניטיבית.

בעיית מסיבת הקוקטייל (Cocktail Party Problem) שואלת שאלה פשוטה לכאורה: כיצד המוח האנושי מצליח להתמקד בקול אחד בתוך ים של רעשים?

דמיינו שאתם עומדים במסיבה רועשת, עשרות שיחות מתנהלות סביבכם בו זמנית, מוסיקה מתנגנת ברקע, כוסות מתנפצות. ובכל זאת, אתם מסוגלים להקשיב בדיוק לאדם שעומד מולכם. יותר מזה: אם מישהו בצד השני של החדר מזכיר את שמכם, אתם מיד שומעים אותו. המוח שלנו עושה משהו שמחשבי-העל המתוחכמים ביותר עדיין מתקשים לשחזר.

הבעיה הוגדרה לראשונה ב-1953 על ידי המדען הבריטי קולין צ'רי (Colin Cherry), שחקר כיצד בני אדם מפרידים בין קולות מעורבבים. בניסוי מפורסם שלו, הוא ביקש מנבדקים להאזין לשתי הקלטות שונות בו זמנית, אחת לכל אוזן, ולעקוב אחרי רק אחת מהן. הנבדקים הצליחו לבצע זאת בקלות, אבל כמעט ולא זכרו דבר ממה שנאמר באוזן השנייה. האנקדוטה המשעשעת: כשצ'רי החליף את הדיבור באוזן השנייה לדיבור הפוך, כמעט אף אחד לא שם לב.

הוא גילה שבני אדם משתמשים ברמזים כמו מיקום מרחבי של הדובר, גובה הצליל, קצב הדיבור, אפילו היכרות עם הקול. המוח שלנו, כך מתברר, הוא מנגנון סינון מדהים שפועל ברובד לא מודע לחלוטין.

מחקרים מאוחרים יותר, כמו אלה של דונלד ברודבנט (Donald Broadbent) ב-1958, הציעו שהמוח פועל כמו "מסנן בקבוק" שמאפשר רק לערוץ מידע אחד לעבור בכל רגע. אחר כך הגיעה אן טריסמן (Anne Treisman) וסיבכה את התמונה: היא הראתה שהמוח לא פשוט חוסם מידע, אלא מחליש אותו, ולכן עדיין מסוגל "ללכוד" מילים משמעותיות כמו שמך גם מהשיחות שסוננו.

נמצא שליכולת הזו האחראית היא המערכת הרטיקולרית במוח, מערכת שאחראית למנגנון הקשב הסלקטיבי שיש לנו. תפקידה של המערכת הוא לעורר ולהסב את תשומת ליבנו לכל גירוי סביבתי שאנו תופסים כרלוונטי ובו בזמן לסנן אותו מבעד לגירויים אחרים.

בדיוק כמו כשאנו רוצים לשמוע שיחה של אדם או זוג ספציפי מבין אנשים רבים שמדברים, היום הבעיה רלוונטית מאוד בעולם הטכנולוגיה. מערכות זיהוי דיבור, מכשירי שמיעה, מערכות ועידת וידאו, כולן מתמודדות בדיוק עם אותו אתגר.

אחד האתגרים הגדולים ביותר בפיתוח עוזרות קוליות כמו סירי (Siri) ואלקסה (Alexa) היה ללמד אותן להתעלם מרעשי הרקע ולזהות רק את קולו של המשתמש, בדיוק כפי שמוחנו עושה זאת ללא מאמץ וכתוצר של אינספור שנות אבולוציה.

לפריצת הדרך אחראים שני חוקרים ישראלים שהצליחו להפריד בהצלחה קולות של מספר דוברים זה מזה ובהמשך גם לגרום למערכת להבין עצמאית וללא התערבות אנושית כמה דוברים היא "שומעת". כל זאת באמצעות דיפ לרנינג, בעברית "למידה עמוקה", הכלי החזק בלמידת מכונה (Machine Learning).

בעקבות פרסום מחקרם פורץ הדרך של ד"ר יוסי עדי ואליה נחמני מאותו מרכז מו"פ של פייסבוק בישראל, פיתחו חוקרים מהאוניברסיטה הטכנולוגית של הלסינקי מערכת שבאמצעות בינה מלאכותית פתרה למעשה את "בעיית מסיבת הקוקטייל".

הנה בעיית מסיבת הקוקטייל (עברית):

https://youtu.be/nmxeVf9KimE

את העניין הזה לומדים בלימודי הפסיכולוגיה:

https://youtu.be/9yRm7iWwFws

והסבר התופעה:

https://youtu.be/iO3jTl0WuS4

מהי למידה עמוקה?

הלמידה העמוקה (Deep Learning) היא תחום מחקר בעולם המחשבים וספציפית בתחום "למידת המכונה" שמניח שהמחשב יכול ללמוד וללמד את עצמו, ממש כמו המוח האנושי. מטרתו הברורה של התחום הזה היא ליצור חיקוי ממוחשב של פעולת המוח האנושי.

בין שנות ה-70 לאמצע שנות ה-2000, רווחה אכזבה מאד גדולה מהביצועים של תחום הבינה המלאכותית. התחום, שהבטיח מהפכה של ממש בעולם המחשוב ו"לא סיפק את הסחורה", אכזב במידה רבה והמחקר שלו נכנס לתקופה שכונתה אז "החורף של הבינה המלאכותית".

אבל בשלב מסוים, בשנות האלפיים ואחרי שנים רבות של האכזבה, הפציעה האינטליגנציה המלאכותית מחדש, כשהפעם היא החלה לממש סוף כל סוף את ההבטחה מימי התום שלה. מחשבים מהירים פי מיליון, כמויות מידע עצומות שהחל להציע האינטרנט ושנאגרו על כונני ענק זולים ונגישים - כל אלה הבשילו ביחד עם הבשלה של טכנולוגיה חזקה ומעשית מאי-פעם - "הלמידה העמוקה". הרעיון בה, בפשטות, הוא לפתח "מוח ממוחשב", על בסיס המוח האנושי, תחת הרעיון שהמוח הוא סדרת רכיבים , שלכל אחד מהם תפקיד עצמאי והם מחוברים ביניהם.

ה"הלמידה העמוקה" היא תת-תחום בתוך תחום "למידת המכונה", שגם הוא עצמו, כמו שאומרים מקצועני תחום "למידת המכונה" (ML), מהווה תת-תחום מרכזי בעולם האינטליגנציה המלאכותית.

המיוחד במערכות "למידה עמוקה" הוא היכולת שלהן ללמוד ולהשתפר כל הזמן ולעשות את הלמידה והשיפור המתמיד לגמרי בעצמן. מפתחי מערכות כאלה בונים בשבילה מעין "רשת סמנטית". זו מערכת שמחקה את המערכת הנוירונים שבמוח האנושי וכאמור פועלת ולומדת כמוהו - ככל שהיא פועלת וככל שמשתמשים בה - היא משתפרת ו"יודעת" יותר.

מדובר בתחום חדש יחסית בעולם של חקר המערכות הלומדות, או "למידת המכונה". הוא נקרא גם "הלמידה החישובית" (Machine Learning) והרעיון החדשני בו היה שב"למידה עמוקה" המכונה לומדת בעצמה, מבלי שיאמנו אותה כמו שעושים בלמידה מכונה רגילה.

לטווח רחוק מטרת התחום היא פיתוח של מחשב שיוכל להחליף את החשיבה האנושית. מערכת כזו תהיה מסוגלת לזהות תבניות ודפוסים בדיבור, תמונות, צלילים ועוד סוגי מידע, שהמערכות הממוחשבות התקשו, עד לא מזמן, לעבד ולטפל בהם.

חשיבה עמוקה היא רק בתחילתה, אבל חוקרים נעזרו בה כבר לזיהוי מולקולות שייקשרו למטרות בגוף טוב יותר ומסתייעים בממצאים לפיתוח תרופות חדשות. מחשב או תוכנה שמצוידים ב"חשיבה עמוקה" מבינים כבר היום שפה אנושית במנועי חיפוש, בחיפוש קולי ובעוזרים דיגיטליים כמו "סירי" של חברת אפל ו"קורטנה" של מיקרוסופט. בעתיד יסיקו מערכות כאלה גם מסקנות ויקבלו החלטות בכוחות עצמן.

העתיד מבטיח מפיתוחים אלה מערכות רפואיות שמטפלות בחולים, אנליסטים ומומחים ממוחשבים לניהול כספים ומסחר במניות ועד למערכות ראיה ממוחשבת, שיוכלו לזהות עצמים במרחב ולסווג אותם, ללא צורך בהתערבות אנושית.

באמצעות חיקוי היכולת האנושית ללמוד, מצליחות מערכות למידה עמוקה גם ליצור ציורים, מוסיקה, סרטונים וטקסטים,להמליץ ללקוחות על רכישות, לייצר קריינות מלאכותית, לזהות עצמים ופנים מדויקות בתמונות וסרטונים, לאבחן מחלות, להפיק רווחים ממניות, להלביש פנים של מפורסמים על סרטי וידאו ועוד שלל יישומים.

המלצה:
======
קראו באאוריקה בתגית "Google Brain", על אחד מפרויקטי הבינה המלאכותית הגדולים ביותר אי פעם.

הנה טכנולוגיית הלמידה העמוקה והעתיד שהיא מסמנת, כולל הסכנות האפשריות:

http://youtu.be/IoP9akd44wk

כך עובדים על פיתוח המוח העמוק:

http://youtu.be/zLp-edwiGUU

הדגמה ויזואלית של עץ ההחלטות הגדל ומתפתח של מערכת חכמה:

http://youtu.be/nSg4HKHdDs4

Deep Learning

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!