מנועים ליצירת תמונות

» «

מהם מנועי תמונות ובינה ויזואלית ב-AI?

הבינה המלאכותית היצירתית (GenAI) כמו DALL-E היא מערכת המסוגלת לייצר תמונות ודימויים ויזואליים דמיוניים, המבוססים על פרומפטים - תיאורי מלל, אינפוטים טקסטואליים שכתב והזין לה המשתמש.

הכל הוא חלק מטכנולוגיה שנקראת "ג'נרטיב AI". זו בינה מלאכותית שבמקום לחשב ולנצח במשחקי טריוויה הפכה ליוצרת AI, לציירת, צלמת ועוד כל מיני סוגי אמנים - אבל במקרה שלה - תמיד באינטליגנציה מלאכותית.

באמצעות פרומפטים, תיאורים מילוליים דוגמת "אביר ימי-בייניימי עשוי מחצילים" או "מגדל מודרני בנוי על שריון של צב בסגנון פיקאסו" מייצרת המערכת תמונות וציורים מרהיבים ואפילו מדהימים.

ליצירת התמונות מהטקסט אחראית הבינה המלאכותית המבוססת על למידה עמוקה, מערכת הלומדת בעצמה רשתות נוירונים מלאכותיות, על סמך דפוסים שהיא מאתרת עצמאית, במיליוני תמונות וציורים המוזנים אליה על ידי המפעילים שלה.

להישג המקורי של DALL-E קמו די מהר מתחרים איכותיים לא פחות ואף יותר. הם מציעים עולם חדש וחסר תקדים של ציירים בינתיים, שרק ממתינים לבקשות מהמשתמשים ומזדרזים לצייר מבחר טיוטות, מהן יכול המשתמש לבחור את התוצר הסופי שמועדף, שיבוצע באיכות גבוהה.

איש לא יודע בדיוק כיצד המנועים השונים פועלים, אבל זו עבודה מדהימה של למידה עמוקה שמעבדת בעצמה את הדאטה ממיליוני תמונות ומלמדת את עצמה לצייר ולפרש את הפרומפטים לפיקסלים ותמונות.

התוצאות של DALL-E 2 היכו די מהר גלים בעולם הבינה המלאכותית ותחרות של חברות ומפתחי קוד פתוח יצרו גם הרבה שיפורים, הן באיכות הטכנית של התמונות והן ביכולות האמנותיות. כך למשל הולכות התמונות ונעשות מפורטות, הרזולוציה גדלה, יכולות הריאליזם, עבודת הצל והתאורה, השימוש במרקמים וציור הנראה כמעט טבעי לחלוטין. השטח מלא במודלים שבראשם מידג'רני, אידיאוגרם ו-Flux, המודל בקוד פותח שמייצר תוצרים שומטי לסתות.

מחפשים ליצור סגנונות של ציורים? - ראו בתגית "כלי איי, תמונות, סגנונות".

הנה כלי Gen AI מצטיין בשם ideogram ליצירה ויזואלית:

https://youtu.be/XZjaHJP0PQE

באיזה כלי לבחור לכל צורך? (עברית)

https://youtu.be/a5wUS6SQ0us?t=1m47s

"דאל-E" שכבר יכולה לצייר דיוקנאות מתיאור מילולי בשפה טבעית של מה שיכיל הציור:

https://youtu.be/qTgPSKKjfVg

על היכולת המופלאה של דאלי ליצור אמנות:

https://youtu.be/hiSgpZUAy2c

הסבר אמנות ה-AI:

https://youtu.be/alJdw4JDJ4o

מנועי יצירת תמונות מתחרים:

https://youtu.be/rGbNJrywLhk

גם היהדות ואפילו החרדית מקבלת אפשרויות שהולכות ומתפתחות (עברית):

https://youtu.be/KR29znIp2LU

ה"אאוט פיינטינג" של דאלי, בו הוא מרחיב תמונה:

https://youtu.be/G-Wsh1vUeVQ

קבלו משפר פרומפטים ליצירת תמונות (עברית):

https://youtu.be/HLhRFaXQ0vQ

מדריך להרחבת תמונות:

https://youtu.be/V1KLG159A2s

קליפ שכולו תמונות שנוצרו ממילות שיר של קינג קרימזון:

https://youtu.be/VR3AWdyVVdU

למה יש לבינה כל הזמן בעיה עם אצבעות?

https://youtu.be/24yjRbBah3w

גם למחוללי תמונות מעולים כמו מידג'רני יש בעיות (עברית):

https://youtu.be/xUpUhHsAWlg?long=yes

הסבר מעמיק וארוך על יצירת תמונות גנרטיבית (עברית):

https://youtu.be/aHPFq-Q6JQ0?long=yes

ויוצר רשת שחודש שלם העלה לרשת החברתית תמונות אושר ואווירה שיצר AI - ואז גילה לעוקביו את האמת:

https://youtu.be/FRClNMC_z-s?long=yes

מהו הפרומפט בעולם הבינה הגנרטיבית?

מהו המקביל של מברשת הציור של ציירים, כלי הנגינה של המלחין או העט והמקלדת של הסופר או המשורר?

בעולם הבינה המלאכותית הגנרטיבית זהו הפרומפט (Prompt), ההוראה הכתובה, הנחייה טקסטואלית שאנחנו כותבים למכונה, כלומר לכלי הבינה הגנרטיבי (Generative AI). את ההנחייה הזו אנו כותבים לו כדי שייצר לנו את התוצר שאנו רוצים.

בפשטות, פרומפט הוא התיאור המילולי בשפה טבעית של התוצאה שנרצה לקבל מהבינה. עליו מתבסס כבר הגל החדש של פיתוח תוכנה, זה שזכה לכינוי "קידוד אווירה", בלועזית וייב קודינג (Vibe Coding), אבל ביצירת תמונות, שירים או סרטוני וידאו הוא כבר מזמן כלי עבודה לכל דבר.

הפרומפט של ימינו הוא כבר מזמן המלך של עולם הבינה המלאכותית מבוססת הדיאלוג וסוגי מודלים של שפה.

זה אמנם נשמע דומה לביטוי חיפוש, אבל הפרומפט הוא לא המקבילה הפשוטה של ביטוי החיפוש במנועי חיפוש, אלא בניסוח מאוד מוקפד של התוצר הרצוי, שיכול ללכת ולהשתבח במהלך הצ'אט עם הבוט, ככל שנרצה להשביח את התוצאה שקיבלנו.

#לג'נרט אהבה
הפעולה הזו ,של ניסוח הפרומפט כדי ליצור משהו, זכתה בעברית החדשה לשם הפעולה "לג'נרט" (To generate) - היא זו שבמידה רבה תקבע את האיכות של התוצרים.

יש אפילו מקצוע חדש שמזנק בעולם ה-AI. הוא נקרא "מהנדס פרומפטים" (Prompt Engineer). מדובר באדם שמיומנותו בניסוח של פרומפטים מוצלחים.

#איך להצליח בפרומפט?
כמה מרכיבים יוכלו לסייע בכתיבת הנחיות טובות לבינה הגנרטיבית:

פירוט ודיוק - אמנם הפרומפט יכול להיות משפט פשוט כמו "כתוב סיפור לילדים על החתול שנעלם", או "מתכון לסלט חצילים". אבל במיטבו פרומפט מדויק ומפורט יותר, ישיג דיוק ואיכות טובים יותר. תיאור של התוצר המצופה, עם פרטי פרטים, יביא כמעט תמיד לתוצאות טובות יותר. הקפידו פרומפטים לכתוב:

ספציפיות - במקום לכתוב לצ'ט "צייר לי פרח" מומלץ לפרט ולבקש למשל "פרח אדום עם עלי כותרת גדולים שהקצה שלהם צהוב". אל תדאגו אם מה שאתם כותבים נשמע לכם לא הגיוני. אחד הדברים שהבינה מצויינת בהם זה יצירה של דברים שרק גאון או משוגע יכולים לחשוב עליהם וזו בדיוק היצירתיות שלכם שדרושה לג'ינרוט מוצלח.

אל תבקשו מהצ'ט "מתכון לסלט" אלא בקשו "מתכון לסלט חצילים עם טחינה, מעט חריף ועם שמן זית". באופן דומה, אם יש דברים שלא תרצו הרי שתוכלו להציב גם מגבלות - מה לא ייכלל בתוצר. במקום לבקש "תכנית לטיול בלונדון" בקשו "תכנית לטיול של 3 ימים בלונדון, למשפחה עם בני נוער, שיהיה חינוכי ויכלול הליכה רגלית בלבד וללא שופינג".

שיפור בשלבים - את הפרומפט, בניגוד לחיפוש במנועי חיפוש, אפשר לשפר בשלבים. הצ'ט בוט של ChatGPT, למשל, זוכר את השיחה וההקשר של מה שאתם כותבים, כל עוד התכתבות היא באותו חלון שיחה.

זה אומר שלמתחילים שווה לנסות ולהתחיל בפרומפט כללי ולא מפורט ובהדרגה, ככל שהשיחה והדיוק של התוצר מתקדם לכם וגם התיאבון לתוצר יותר מוצלח גדל, להמשיך ולשפר את הפרומפט ולהפוך אותו למפורט וספציפי יותר.

בקול או טון מתאימים - ניסוח של פרומפטים לטקסטים כדאי שיקל בחשבון את הטון והקול הנכונים. כמו שבפרומפט ויזואלי נוכל לבקש שהציור יהיה בסגנון של ון גוך, פיקסו או דאלי, בתיאור של טקסט החליטו אם אתם רוצים שיהיה מנוסח כרציני, מדעי, עיתונאי, רשמי, או בסגנון של מתבגרים או של החבר'ה. אגב, אפילו פיסוק יקבע את התוצאה - מסתבר

ששימוש בסימני פיסוק יגרום לבינה המלאכותית להישמע מלוטשת, מובנית ופורמלית יותר והיא אף מתרחקת בתשובה כדי לתת תמונה רחבה יותר של הנושא, בעוד שללא פיסוק, הטון של התוצר יהיה שיחתי יותר, משוחרר יותר ולעתים קרובות יותר מעשי ורגשי. בקיצור - יותר צעיר.

אפשר גם לבקש שהטקסט יהיה קצר או ארוך (כתוב לי שתי פסקאות על.. או "כתוב מאמר מלא על..." וכו').

הסבר כמו למתחיל - בקשו בפרומפט כך:

"Explain [subject] in simple terms. Explain to me as if I'm a beginner."

כך מודגם הפרומפט בפתיחת הסקירה על טכנולוגיית AI של חברת ראנוויי (עברית):

https://youtu.be/joJVqKTPVsY

השיעור הראשון בניסוח הפרומפט:

https://youtu.be/Qos2rG3zVAM

איך משתמשים ב- chatGPT כדי שהוא ינסח פרומפטים טובים למנוע תמונות, במקרה הזה Midjourney? (עברית):

https://youtu.be/zFS7WtovYmo

יש תוכנה לעזרה בניסוח פרומפטים (עברית):

https://youtu.be/HLhRFaXQ0vQ

על הפרומפט שמייצר חדשות קוליות לגיק (עברית):

https://youtu.be/5TlsXXTamBs

מודלים לציור גנרטיבי מתיאור מילולי בשפה טבעית:

https://youtu.be/pZsJbYIFCCw

הנה מקצוע מהנדס הפרומפט:

https://youtu.be/Bq-ncjOGeVU

היום אפשר לאמן סוכן שינסח טוב מאיתנו:

https://youtu.be/cGTBzed4S4w?long=yes

עצות וטיפים לפרומפטים ושיחות עם צ'טבוטים (עברית):

https://youtu.be/R4E_lc_2wtY?long=yes

והסבר מקיף על עבודתם של מהנדסי הפרומפט (Prompt Engineer) בעולם ה-AI:

https://youtu.be/hd7l9F3n4ZM?long=yes

איך יוצרים ספרים ב-AI?

יצירה של ספר ילדים (Storybook) באמצעות AI היא דבר מדהים ומרגש. היכולת של ה-AI לקבל פרומפט קצר או מפורט של הסיפור, לראות כמה תמונות שאם נרצה נעלה אליו ולעשות את השאר בשבילנו - היכולת הזו היא מדהימה ומרגשת.

אלה השלבים ליצירת סיפור כזה:

1. החליטו מה ברצונכם שהספר יספר.

2. כתבו את הפרומפט, כלומר את ההנחייה שלכם. נדב, למשל, כתב את הפרומפט הבא:

Zoe, a mixed Labrador and Canaan dog, and how she came with her owner Nadav to the dog beach in Tel Aviv and met lots of dogs of different breeds. Each one has a different character and traits, and there are several dozen dogs here. At one point, one of the dogs complains that Zoe brought a person to the dog beach and worries that it is not a place for people, because they do not know how to behave. Many of the dogs join her and her concerns. So Zoe calmly answers them that Nadav is a good guy and does not make a mess or make noise and he behaves well. And because she is completely calm, they accept what she says and since then to this day, good people also come to the dog beach and everyone is happy that they do not discriminate against people, just because they are people.

אגב, אפשר גם בעברית, אם כי ייתכנו מעט הזיות אז עדיף לטרנסלט לאנגלית.

3. להשלמת הדמויות (אלא אם רוצים שהבינה תמציא את המראה שלהן) הוסיפו תמונות - באמצעות כפתור + שבצד שדה הפרומפט ובחירת images.

4. לוחצים על כפתור ה-Generate וממתינים 2-3 דקות לספר החדש שכתבתם.

5. למעלה יש כפתורי הדפסה ושיתוף עם אחרים.

בהצלחה!

הנה סיפור AI מודרך:

https://youtu.be/py2yXfgzQiQ

כך יוצרים סיפור AI:

https://youtu.be/rxGjFpDPsf8

מדריך מפורט ליצירת ספרים באמצעות AI:

https://youtu.be/3_oY8XQy2Qc? long=yes

ויצירת ספרים בבינה מלאכותית, כלומר ב-AI:

https://youtu.be/DH3FDF3sR8k?long=yes

איזה כלי מחליף את פוטושופ?

נראה שהבננה מעולם לא הייתה כל כך בפסגה וכאן היא ממש תופעה. מודל הציור "ג'מיני נייטיב אימייג'", המוכר בכינוי המקורי שהוצמד לו בתחילה, "נאנו בננה" (Nano Banana), הוא ככל הנראה המבשר של השתלטות הבינה המלאכותית על תחום העיצוב הדיגיטלי ועריכת התמונות, תחום שנשלט במשך שנים רבות על ידי תוכנת פוטושופ (Photoshop) הוותיקה.

"נאנו בננה" הוא מודל AI של גוגל, המשלב עריכת תמונות מתקדמת ומהפכנית באמצעות יכולות מתקדמות, פשטות הפעלה ופרומפטים פשוטים, כלומר הנחיות בשפה טבעית (NLP). בפראפראזה על וייב קודינג, אפשר לקרוא למה שהוא מציע עכשיו Vibe Designing.

כי "נאנו בננה" עושה דברים מטורפים בקלות, כולל לחבר שני אנשים משתי תמונות לכל סיטואציה משותפת שנתאר לו בפרומפט טקסט. הוא יכול להסיר אנשים או חפצים מתמונה שצילמתם, להחליף עצמים בתמונה, להחליף בקלות את הלוקיישן שבו צולמו תמונות, את זווית הצילום, את הזום או הקרבה של המצולם ועוד ועוד - הכל באיכות מטורפת ולגמרי ריאליסטית.

הוא גם מאפשר למשל הדמיה עקבית - להעלות תמונה רגילה של אדם ועם פרומפט פשוט לייצר אותו בדיוק מדהים, בכל מצב שאפשר להעלות על הדעת. עוד מצוין בו שילוב בין תמונות - מעלים כמה תמונות, מתארים בפרומפט מילולי מה התוצר הרצוי וה-AI משלב בתמונות שייצאו כל דבר שרק נרצה.

עוד ניתן לבצע עריכות מורכבות - במהירות ובדיוק גבוה, תוך שמירה על עקביות של הדמויות וזהות מוחלטת שלהן מתמונה לתמונה ואפילו בלי לייצר מודלים.

הכלי גם מאפשר שליטה אינטראקטיבית בעריכות חוזרות, חידודים ואיטרציות, ברמת פירוט גבוהה ובלי צורך בניסיון מקצועי בעריכת תמונות, מה שהכרחי בעבודה עם פוטושופ.

עם הכנסת סימן מים דיגיטלי לכלי, המאפשר לזהות שכל התוכן נוצר בו באמצעות AI, גוגל סימנה גם סטנדרט גבוה של אחריות חברתית וטוב שכך.

נראה שננו בננה, המשולב באפליקציית Gemini של גוגל, יהפוך בתקופה הקרובה למודל המוביל בתחום עריכת התמונות באמצעות AI.

#ביצועים
מהסרת רקעים, שינוי תאורה, הוספת פרטים לתמונה ושיפור בפרטים שמוצגים בה - הכלי "נאנו בננה" מבצע עריכות תוך שניות בודדות. אל כל אלה הוא מאפשר באמצעות הוראות טקסט פשוטות. הוא מפגין יכולות מרשימות לשמור על עקביות הפנים בתמונות שונות ומאפיינים ייחודיים של דמויות גם כשהוא יוצר שינויים מרחיקי לכת בסצנות.

#יכולות מתקדמות
בין יכולותיו המתקדמות של נאנו בולטים העריכה באמצעות שפה טבעית, ללא צורך בשליטה בכלים מסובכים כמו אלו של פוטושופ, או עבודה עם שכבות (Layers).

עןד בולטים השמירה על זהות הדמות ופרטים דיגיטליים כשמבצעים שינויים, מיזוג של תמונות ליצירת סצנות חדשות, עריכת תמונות אינטראקטיבית ומרובת שלבים ומהירות ביצוע גבוהה, בזמן אמת, המאפשרת יצירתיות וחידודים שלא יאומנו.

אז נראה ש"נאנו בננה", ככלי חדשני ופורץ דרך ליצירת ועריכת תמונות באמצעות AI, מגיע עם יכולות מתקדמות ושימושיות גבוהה. הוא מסוגל לעורר ואולי בהמשך גם להוביל את המהפכה בתחום העיצוב הדיגיטלי ולהעביר את התחום לעידן החדש, עידן ה-GenAI.

הנה ה"נאנו בננה":

https://youtu.be/bnihuvFe5bM

הטוב והרע שבו:

https://youtu.be/8_GgeASwHwQ

כמו פוטושופ רק בקלות - דברים שהוא יודע לעשות:

https://youtu.be/vDQD1grjmJQ

כך מוסיפים עברית לנאנו בננה (עברית):

https://youtu.be/w2nFFCEthgU

50 מהיכולות חמקרי השימוש של המודל החכם הזה:

https://youtu.be/exWEkRHmhKU?long=yes

תמונות שהוא יודע לייצר:

https://youtu.be/tSDSSJlHFL4?long=yes

יצירת תמונות בנאנו (עברית):

https://youtu.be/6ivwtrKjlu4?long=yes

ודברים שהוא עושה באופן מושלם:

https://youtu.be/1UJKlS9NyAs?long=yes

מנועים ליצירת תמונות

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!