מהי בעיית מסיבת הקוקטייל?

איך זה שאני שומע מה מדברים אלי ועלי?

מכירים את זה שחבר מפעיל את הסירי שלו במסיבה, שהוא מדבר אליה והיא מצליחה או לא מצליחה להבין מה הוא אומר? - זה לא ברור מאליו.

"אפקט מסיבת הקוקטייל" (Cocktail party effect) ולפעמים "בעיית מסיבת הקוקטייל" (Cocktail Party Problem) הם השמות שניתנו לתופעת האבחנה בין בליל הקולות האנושיים המתערבבים זה בזה. מדובר באפקט ידוע מתחום הפסיכולוגיה הקוגניטיבית.

בעיית מסיבת הקוקטייל (Cocktail Party Problem) שואלת שאלה פשוטה לכאורה: כיצד המוח האנושי מצליח להתמקד בקול אחד בתוך ים של רעשים?

דמיינו שאתם עומדים במסיבה רועשת, עשרות שיחות מתנהלות סביבכם בו זמנית, מוסיקה מתנגנת ברקע, כוסות מתנפצות. ובכל זאת, אתם מסוגלים להקשיב בדיוק לאדם שעומד מולכם. יותר מזה: אם מישהו בצד השני של החדר מזכיר את שמכם, אתם מיד שומעים אותו. המוח שלנו עושה משהו שמחשבי-העל המתוחכמים ביותר עדיין מתקשים לשחזר.

הבעיה הוגדרה לראשונה ב-1953 על ידי המדען הבריטי קולין צ'רי (Colin Cherry), שחקר כיצד בני אדם מפרידים בין קולות מעורבבים. בניסוי מפורסם שלו, הוא ביקש מנבדקים להאזין לשתי הקלטות שונות בו זמנית, אחת לכל אוזן, ולעקוב אחרי רק אחת מהן. הנבדקים הצליחו לבצע זאת בקלות, אבל כמעט ולא זכרו דבר ממה שנאמר באוזן השנייה. האנקדוטה המשעשעת: כשצ'רי החליף את הדיבור באוזן השנייה לדיבור הפוך, כמעט אף אחד לא שם לב.

הוא גילה שבני אדם משתמשים ברמזים כמו מיקום מרחבי של הדובר, גובה הצליל, קצב הדיבור, אפילו היכרות עם הקול. המוח שלנו, כך מתברר, הוא מנגנון סינון מדהים שפועל ברובד לא מודע לחלוטין.

מחקרים מאוחרים יותר, כמו אלה של דונלד ברודבנט (Donald Broadbent) ב-1958, הציעו שהמוח פועל כמו "מסנן בקבוק" שמאפשר רק לערוץ מידע אחד לעבור בכל רגע. אחר כך הגיעה אן טריסמן (Anne Treisman) וסיבכה את התמונה: היא הראתה שהמוח לא פשוט חוסם מידע, אלא מחליש אותו, ולכן עדיין מסוגל "ללכוד" מילים משמעותיות כמו שמך גם מהשיחות שסוננו.

נמצא שליכולת הזו האחראית היא המערכת הרטיקולרית במוח, מערכת שאחראית למנגנון הקשב הסלקטיבי שיש לנו. תפקידה של המערכת הוא לעורר ולהסב את תשומת ליבנו לכל גירוי סביבתי שאנו תופסים כרלוונטי ובו בזמן לסנן אותו מבעד לגירויים אחרים.

בדיוק כמו כשאנו רוצים לשמוע שיחה של אדם או זוג ספציפי מבין אנשים רבים שמדברים, היום הבעיה רלוונטית מאוד בעולם הטכנולוגיה. מערכות זיהוי דיבור, מכשירי שמיעה, מערכות ועידת וידאו, כולן מתמודדות בדיוק עם אותו אתגר.

אחד האתגרים הגדולים ביותר בפיתוח עוזרות קוליות כמו סירי (Siri) ואלקסה (Alexa) היה ללמד אותן להתעלם מרעשי הרקע ולזהות רק את קולו של המשתמש, בדיוק כפי שמוחנו עושה זאת ללא מאמץ וכתוצר של אינספור שנות אבולוציה.

לפריצת הדרך אחראים שני חוקרים ישראלים שהצליחו להפריד בהצלחה קולות של מספר דוברים זה מזה ובהמשך גם לגרום למערכת להבין עצמאית וללא התערבות אנושית כמה דוברים היא "שומעת". כל זאת באמצעות דיפ לרנינג, בעברית "למידה עמוקה", הכלי החזק בלמידת מכונה (Machine Learning).

בעקבות פרסום מחקרם פורץ הדרך של ד"ר יוסי עדי ואליה נחמני מאותו מרכז מו"פ של פייסבוק בישראל, פיתחו חוקרים מהאוניברסיטה הטכנולוגית של הלסינקי מערכת שבאמצעות בינה מלאכותית פתרה למעשה את "בעיית מסיבת הקוקטייל".

הנה בעיית מסיבת הקוקטייל (עברית):