אלקסה

» «

בהמשך לעוזרים וירטואליים אישיים, כמו סירי וקורטנה, המשתמשים בבינה מלאכותית כדי להבין את המשתמש ולסייע מהסמארטפון בניהול החיים האישיים שלנו, מתפתח והולך דור של מכשירים חיצוניים, עם הבינה המלאכותית של ענקיות הטכנולוגיה, כדי לסייע לנו בניהול חיים נוחים ופשוטים יותר.

אלקסה של אמסון, ג'ארביס של פייסבוק או גוגל הום של גוגל - גם העוזרים החכמים הללו מבינים "שפה טבעית" (Natural language). הם מסתובבים בבית ובני הבית יכולים לשוחח ולתקשר איתם בדיבור רגיל ולא בשפת מחשב או בכתיבה.

מדובר במעין רמקולים חכמים, המשוטטים בבית החכם וממתינים לפקודות בני הבית. הם מסוגלים למלא הוראות מגוונות, מחיפוש מידע, דרך טיפול בהזמנות מוצרים ועד להשכמה, השמעת מוסיקה והפעלת מגוון שירותים של מפתחים עצמאיים, כמו הזמנת מוניות, שליחת פרחים וכדומה.

החזון הוא להפעיל משהו שהוא בין "באטלר" ואב-בית דיגיטלי לעולם הבית החכם ולתחום המתפתח של "האינטרנט של הדברים". כך פותחים העוזרים החכמים, לבקשתכם, את החנייה, מפעילים מזגן או הדוד החשמלי ועוד.

העוזרים החכמים והעוזרות החכמות נעשים חכמים מיום ליום וההערכה היא שהם ימלאו בבית העתיד יותר ויותר תפקידים שכיום ממלאים בני אדם, משירותי מזכירות ועזרה אישית, ועד תחזוקת בית, שירותי מודיעין, אספקת שירותים ומוצרים, הזמנת בעלי מקצוע, ארגון אירועים משפחתיים וחברתיים ועוד.

הנה ג'ארוויס של פייסבוק (בעברית):

https://youtu.be/0fNPG9SLZvc

גוגל הום של גוגל (בעברית):

https://youtu.be/LYaXf_QWnAk

אמזון אקו הוא עוזר מדומה ביתי שמדברים אליו:

https://youtu.be/vVYcOi8R8dg

העוזר החכם של EmoSpark:

http://youtu.be/odQw5BDnCRs

ואקו דוט של אמזון והעוזר החכם של גוגל:

https://youtu.be/dAsZVQvjCt8

מהי בעיית מסיבת הקוקטייל?

מכירים את זה שחבר מפעיל את הסירי שלו במסיבה, שהוא מדבר אליה והיא מצליחה או לא מצליחה להבין מה הוא אומר? - זה לא ברור מאליו.

"אפקט מסיבת הקוקטייל" (Cocktail party effect) ולפעמים "בעיית מסיבת הקוקטייל" (Cocktail Party Problem) הם השמות שניתנו לתופעת האבחנה בין בליל הקולות האנושיים המתערבבים זה בזה. מדובר באפקט ידוע מתחום הפסיכולוגיה הקוגניטיבית.

בעיית מסיבת הקוקטייל (Cocktail Party Problem) שואלת שאלה פשוטה לכאורה: כיצד המוח האנושי מצליח להתמקד בקול אחד בתוך ים של רעשים?

דמיינו שאתם עומדים במסיבה רועשת, עשרות שיחות מתנהלות סביבכם בו זמנית, מוסיקה מתנגנת ברקע, כוסות מתנפצות. ובכל זאת, אתם מסוגלים להקשיב בדיוק לאדם שעומד מולכם. יותר מזה: אם מישהו בצד השני של החדר מזכיר את שמכם, אתם מיד שומעים אותו. המוח שלנו עושה משהו שמחשבי-העל המתוחכמים ביותר עדיין מתקשים לשחזר.

הבעיה הוגדרה לראשונה ב-1953 על ידי המדען הבריטי קולין צ'רי (Colin Cherry), שחקר כיצד בני אדם מפרידים בין קולות מעורבבים. בניסוי מפורסם שלו, הוא ביקש מנבדקים להאזין לשתי הקלטות שונות בו זמנית, אחת לכל אוזן, ולעקוב אחרי רק אחת מהן. הנבדקים הצליחו לבצע זאת בקלות, אבל כמעט ולא זכרו דבר ממה שנאמר באוזן השנייה. האנקדוטה המשעשעת: כשצ'רי החליף את הדיבור באוזן השנייה לדיבור הפוך, כמעט אף אחד לא שם לב.

הוא גילה שבני אדם משתמשים ברמזים כמו מיקום מרחבי של הדובר, גובה הצליל, קצב הדיבור, אפילו היכרות עם הקול. המוח שלנו, כך מתברר, הוא מנגנון סינון מדהים שפועל ברובד לא מודע לחלוטין.

מחקרים מאוחרים יותר, כמו אלה של דונלד ברודבנט (Donald Broadbent) ב-1958, הציעו שהמוח פועל כמו "מסנן בקבוק" שמאפשר רק לערוץ מידע אחד לעבור בכל רגע. אחר כך הגיעה אן טריסמן (Anne Treisman) וסיבכה את התמונה: היא הראתה שהמוח לא פשוט חוסם מידע, אלא מחליש אותו, ולכן עדיין מסוגל "ללכוד" מילים משמעותיות כמו שמך גם מהשיחות שסוננו.

נמצא שליכולת הזו האחראית היא המערכת הרטיקולרית במוח, מערכת שאחראית למנגנון הקשב הסלקטיבי שיש לנו. תפקידה של המערכת הוא לעורר ולהסב את תשומת ליבנו לכל גירוי סביבתי שאנו תופסים כרלוונטי ובו בזמן לסנן אותו מבעד לגירויים אחרים.

בדיוק כמו כשאנו רוצים לשמוע שיחה של אדם או זוג ספציפי מבין אנשים רבים שמדברים, היום הבעיה רלוונטית מאוד בעולם הטכנולוגיה. מערכות זיהוי דיבור, מכשירי שמיעה, מערכות ועידת וידאו, כולן מתמודדות בדיוק עם אותו אתגר.

אחד האתגרים הגדולים ביותר בפיתוח עוזרות קוליות כמו סירי (Siri) ואלקסה (Alexa) היה ללמד אותן להתעלם מרעשי הרקע ולזהות רק את קולו של המשתמש, בדיוק כפי שמוחנו עושה זאת ללא מאמץ וכתוצר של אינספור שנות אבולוציה.

לפריצת הדרך אחראים שני חוקרים ישראלים שהצליחו להפריד בהצלחה קולות של מספר דוברים זה מזה ובהמשך גם לגרום למערכת להבין עצמאית וללא התערבות אנושית כמה דוברים היא "שומעת". כל זאת באמצעות דיפ לרנינג, בעברית "למידה עמוקה", הכלי החזק בלמידת מכונה (Machine Learning).

בעקבות פרסום מחקרם פורץ הדרך של ד"ר יוסי עדי ואליה נחמני מאותו מרכז מו"פ של פייסבוק בישראל, פיתחו חוקרים מהאוניברסיטה הטכנולוגית של הלסינקי מערכת שבאמצעות בינה מלאכותית פתרה למעשה את "בעיית מסיבת הקוקטייל".

הנה בעיית מסיבת הקוקטייל (עברית):

https://youtu.be/nmxeVf9KimE

את העניין הזה לומדים בלימודי הפסיכולוגיה:

https://youtu.be/9yRm7iWwFws

והסבר התופעה:

https://youtu.be/iO3jTl0WuS4

אלקסה

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!