Gemini

» «

יצירה של ספר ילדים (Storybook) באמצעות AI היא דבר מדהים ומרגש. היכולת של ה-AI לקבל פרומפט קצר או מפורט של הסיפור, לראות כמה תמונות שאם נרצה נעלה אליו ולעשות את השאר בשבילנו - היכולת הזו היא מדהימה ומרגשת.

אלה השלבים ליצירת סיפור כזה:

1. החליטו מה ברצונכם שהספר יספר.

2. כתבו את הפרומפט, כלומר את ההנחייה שלכם. נדב, למשל, כתב את הפרומפט הבא:

Zoe, a mixed Labrador and Canaan dog, and how she came with her owner Nadav to the dog beach in Tel Aviv and met lots of dogs of different breeds. Each one has a different character and traits, and there are several dozen dogs here. At one point, one of the dogs complains that Zoe brought a person to the dog beach and worries that it is not a place for people, because they do not know how to behave. Many of the dogs join her and her concerns. So Zoe calmly answers them that Nadav is a good guy and does not make a mess or make noise and he behaves well. And because she is completely calm, they accept what she says and since then to this day, good people also come to the dog beach and everyone is happy that they do not discriminate against people, just because they are people.

אגב, אפשר גם בעברית, אם כי ייתכנו מעט הזיות אז עדיף לטרנסלט לאנגלית.

3. להשלמת הדמויות (אלא אם רוצים שהבינה תמציא את המראה שלהן) הוסיפו תמונות - באמצעות כפתור + שבצד שדה הפרומפט ובחירת images.

4. לוחצים על כפתור ה-Generate וממתינים 2-3 דקות לספר החדש שכתבתם.

5. למעלה יש כפתורי הדפסה ושיתוף עם אחרים.

בהצלחה!

הנה סיפור AI מודרך:

https://youtu.be/py2yXfgzQiQ

כך יוצרים סיפור AI:

https://youtu.be/rxGjFpDPsf8

מדריך מפורט ליצירת ספרים באמצעות AI:

https://youtu.be/3_oY8XQy2Qc? long=yes

ויצירת ספרים בבינה מלאכותית, כלומר ב-AI:

https://youtu.be/DH3FDF3sR8k?long=yes

מהי מולטי מודאליות בעולם ה-AI?

זה אחד הפיתוחים המרגשים של עידן הבינה החדש ומה שמרגיש לא פעם כמו סרטי מד"ב מהיותר מתוחכמים. קוראים לזה מולטי-מודאליות (Multimodality) והוא בעצם היכולת של כלי AI לעבוד עם סוגי נתונים שונים, כמו טקסט, אודיו, קוד, וידאו ותמונות - גם כקלט וגם כפלט.

במקום להתמקד בסוג אחד בלבד של נתונים, מערכת רב-מודאלית מקבלת ומנתחת מידע ממקורות מגוונים, בכדי לקבל הבנה מעמיקה יותר של העולם הסובב אותה. מדובר בכלי ממוחשב שבדיוק כמו שבני אדם חווים את העולם דרך כל החושים והחוויות, לא רק מבין טקסט, אלא גם רואה תמונות וסרטים, מעבד ומנתח וידאו, מגלה הבנה מרחבית, שומע קולות וצלילים, מפענח קוד של תוכנה ומסוגל גם ליצור תכנים ותוצרים בכל המדיות הללו.

בדומה למוח האנושי, המשלב בטבעיות מידע מכל החושים, העולם של המערכות המולטי מודאליות ב-generative AI מציג יכולת שהיא עוד רכיב במהפכה הגדולה של מערכות בינה מלאכותית, מהפכונת שמאפשרת לעבד ולשלב כמה סוגי מדיה במקביל.

המערכות החדשות הללו מצוידות בשכבות מורכבות של פענוח ומפענחות את העולם פחות או יותר כמו מחשב-על. דוגמאות לא חסר. למשל עם צ'טבוט שבזכות ההבנה המרחבית המשופרת שלו מסוגל לזהות ולהוסיף כיתוב מדויק לעצמים שונים בתמונות עמוסות פריטים. או צ'טבוט שמנתח תמונות ומאפשר למשתמש לנהל עליהן דיון, או סוקר אינפוגרפיקה ונותן לה פרשנות קולית רלוונטית, בהתאם לרמת ההבנה של המשתמש או קהל היעד המבוקש. לכלי כזה יש גם כלי וידאו שמקבלים תמונה והנחייה כתובה (פרומפט) ומנפישים את התמונה לקליפ וידאו שכמו צולם בידי צוות צילום הוליוודי.

דוגמה נוספת היא כלי אינטראקציה רב-מודאלי כמו NotebookLM. הוא מאפשר למשתמשים לשתף איתו את המסך או המצלמה שלהם בזמן אמת. כך ניתן לקיים שיחות קוליות דמויות אדם, תוך כדי שמאפשרים ל-AI לצפות במסך ולעזור, תוך כדי מודעות להקשר ולתוכן.

אפילו תכונת זיהוי הפנים בסמארטפון שלכם היא תכונה שמשלבת היטב ראייה ממוחשבת, מיפוי תלת-ממדי ועיבוד נתונים מתקדם. ומאלה היא יוצרת פיצ'ר מדהים, בצד חווית משתמש פשטותה כמו מבט של שומר אנושי.

שילוב של צורות נתונים מרובות, כמו טקסט, תמונות ואודיו לתוך מערכת מאוחדת ורב-מודאלית היא שמאפשרת למודלים כמו Claude או GPT-4 לכתוב קוד כשמזינים לתוכו דיאגרמה ולמודלים שונים ליצור תמונות או סרטוני וידאו עם תיאורים.

את המהפכה המולטימודאלית אפשר לזהות בקלות בפלטפורמות כמו טיקטוק (TikTok) ואינסטגרם (Instagram), בהן משלבים סוגי מדיה מגוונים ומעבדים במגוון כלים, המשנים את הדרך בה אנו מספרים את הסיפור שלנו לעולם.

הנה הסבר היכולת המולטי-מודאלית:

https://youtu.be/97n1u66Shgg

כך עובדים מערכות מולטי מודאליות:

https://youtu.be/WkoytlA3MoQ

וההיפר מודאליות החדשה של גוגל מארינר:

https://youtu.be/KeUMm1xF3o0?long=yes

Gemini

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!