דאטה אנליסטים

» «

מבין שפות התכנות הרבות נחשבת שפת התכנות פייתון (Python) לאחת משפות הפיתוח הפופולריות ביותר בעולם. זוהי שפה אינטואיטיבית, מובנת ובעלת תחביר קליט ופשוט למדי.

המקור לשם השפה איננו מנחש החנק הענקי, הפיתון. ההשראה היא דווקא סדרת המערכונים הבריטית “מונטי-פייתון”, שהמתכנת ההולנדי שפיתח את שפת התכנות כל כך העריץ.

כשפת תכנות פייתון פופולרית ומועדפת על ידי מתכנתים, מסטארט-אפים וחברות קטנות ועד מי שמפתחים בחברות ענק, כולל גוגל ואינסטגרם.

בשפת פייתון משתמשים כיום מרבית החוקרים והמפתחים בתחומי הבינה המלאכותית, לצד מדעני נתונים ומנתחי מידע, במיוחד עם צמיחת טכנולוגיות כמו למידת מכונה (Machine learning) ולמידה עמוקה (Deep learning) בעשור האחרון.

סוגי פרויקטים שנוטים לפתח בפייתון הם בתחומי תוכנה וקוד מגוונים. ביניהם בולטים יישומי WEB, כלי בינה מלאכותית, פרויקטים של אוטומציה, עיבוד נתונים, מדע נתונים (Data science), אנליזה או ניתוח נתונים (Data analysis), רשתות, אינטרנט, כלים לעיבוד תמונה ועוד.

למעשה, בשנת 2024 פייתון היא כל כך פופולרית, שלראשונה עברה את ג'אווה סקריפט (JavaScript) בתור שפת התכנות הפופולרית ביותר בעולם. בדו"ח שפרסם אתר הקוד העיקרי "גיטהאב" הוא הודיע לראשונה שפייתון עקפה את JavaScript והפכה לשפת התכנות הפופולרית ביותר בעולם.

הסיבה לצמיחה ולשינוי הזה לטובת פייתון היא הזינוק המטורף בשימוש ב-GenAI, בינה יצירתית או גנרטיבית (Generative AI). הפיתוח הגובר של כלי GenAI, על פי גיטהאב, והזינוק בפיתוחים מבוססי דאטה סיינס ודאטה אנליטיקס, הביאו לנסיקה בשימוש בפייתון, הידועה כשפה העיקרית בה משתמשים לפיתוחים אלו.

#יתרונות פייתון
כבר שנים רבות שמהנדסי תוכנה ומתכנתים ותיקים ממליצים על פייתון או ג'אווה סקריפט, בתור שפות התכנות שהכי כדאי להם להתחיל בהן. מי שמשקיעים שעתיים ביום יכולים כבר אחרי 3 חודשים לכתוב תוכנה של ממש.

לאחר מכן כדאי להתמחות באחד התחומים שהיא מאפשרת וטובה בהם, כמו פיתוח יישום ווב (web application), תוכנה רגילה למחשב (Desktop program), למידת מכונה (Machine learning) או בינה מלאכותית (Artificial intelligence).

הנה סקירה קצרה על שפת פייתון (עברית):

https://youtu.be/cKZ0miaDtkw

עוד קצת היכרות עם שפת פייתון (עברית):

https://youtu.be/A7XXmxU3o4o

תמצית בדקה של מה שלומדים בפייתון בשנה:

https://youtu.be/AfR-lJghs4w

היכרות באנגלית:

https://youtu.be/poJfwre2PIs

קורס באורך מלא של תכנות בשפת פייתון:

https://youtu.be/_uQrJ0TkZlc?long=yes

מהם למידת מכונה, למידה חישובית ומדעני דאטה?

למידת מכונה (Machine Learning), או למידה חישובית, היא היכולת של מערכת מחשב ללמוד ולהשתפר על ידי התבוננות ופעילות עצמאית שלה עם מידע.

זוהי לא בדיוק טכנולוגיה או כלי ספציפי, אלא תחום מחקרי מדעי, המשלב מרכיבים מעולמות הסטטיסטיקה ומדעי המחשב. באמצעותם מאפשרת למידת המכונה זיהוי אוטומטי של דפוסים מרתקים בכמויות נתונים גדולות.

#אבל איך מכונה לומדת?

ובכן, בואו נדמיין לרגע מצב דמיוני. דמיינו מיליוני תלמידים מטומטמים, שלומדים אצל מורה לא מוכשר במיוחד. כל פעם המורה הזה מראה להם משהו שהוא רוצה שיידעו (מראה להם למשל שתי תמונות ואומר מה מופיע בכל אחת) ואז בוחן אותם. חוץ מלתת ציון לתשובות שלהם, הוא תמיד מעיף מהכיתה שלו את אלו שלא זיהו ומשכפל את אלה שכן. אז מראה המורה עוד משהו ובוחן ושוב מעיף... הוא עושה את זה מיליוני פעמים... כן, דמיינו שהוא חוזר על התהליך הזה עם מיליוני תלמידים, שוב ושוב... קוראים לזה, אגב, "אִיטֵרַצְיות", פעולות שחוזרות על עצמן שוב ושוב במהלך פתרון של בעיה.

כך, בהדרגה ובאופן שלא תמיד מובן לנו, המכונות, סליחה - התלמידים המטומטמים, הולכים ומשתפרים. הם לומדים!

אז לאור הסיפור הזה, איך עושה זאת המחשב?

בצורה דומה אבל טכנולוגית, ככל שמחשב לומד מצויד ביותר נתונים והתנסויות, הוא נעשה חכם יותר. המידע שהוא מעבד מסייע לו לשפר כל הזמן ולגמרי בעצמו, את המודל החישובי שלו.

אנשי הלמידה החישובית מפתחים אלגוריתמים ודרכים שמאפשרים למחשב ללמוד בעצמו ולשפר את יכולותיו.

אם נסכם לרגע, אנשי למידת המכונה יוצרים מכונה המלמדת את עצמה התנהגויות ותובנות, על סמך מפגשים עם מצבים שונים וסיטואציות שמהם ניתן ללמוד ולהסיק מסקנות. המכונה הזו מתנהגת כמו בן-אנוש, שלומד ללא הפסקה, מהתנסויות וטעויות, אבל בהיקפים מטורפים ועם המון דאטה.

על ביג דאטה שמעתם? התחום הזה של מכונה לומדת הוא בדיוק הסיבה שענקי האינטרנט אוספים עלינו מידע בכמויות ענק. בעזרתן הם משפרים את האלגוריתמים והמכונות הלומדות שלהם ויוצרים להן ידע המשתבח והולך.

בלמידת מכונה מצויד המחשב באינטליגנציה מלאכותית ולומד מתוך דוגמאות והתנסויות קודמות שלו ולא בזכות מתכנת אנושי שמזין את הידע למחשב. כלומר, בלמידה כזו מתרחשת הלמידה על ידי המחשב מתוך דוגמאות ומקרים שקרו לו.

האלגוריתם של המחשב ממש מחקה את הדרך שבה פועלת הרשת העצבית שבמוח האנושי. באופן מסוים, מחשבים חכמים כבר הגיעו מזמן לביצועים שמזכירים את הלמידה של תינוקות על ידי חיקוי הוריהם. באופן אחר, הם כל כך משתפרים שיש כבר רבים שמתחילים לחשוש מזה...

המדענים מזהים למידת מכונה, כאשר הביצועים של משימה במחשב הולכים ומשתפרים עם הניסיון. כלומר, בכל פעם שתוכנת המחשב מבצעת משימה, באופן יעיל מאשר ביצעה אותה בעבר. ככל שתוכנה משיגה תוצאות טובות יותר, מבלי שמתכנת אנושי השפיע על הקוד שלה, אז התרחשה למידה חישובית, או למידת מכונה.

#מה עושים בלמידת מכונה?
לא חסרות מערכות שאנחנו פוגשים בהן ביום יום שלנו ומשתמשות בלמידת מכונה. למשל המלצות תוכן כמו שמקבלים מספוטיפיי שמציע לנו שירים שאנחנו עשויים לאהוב או סרטים מומלצים בנטפליקס. זיהוי דואר זבל ואזהרה, לעומת מיילים רגילים בג'ימייל. מערכת זיהוי פנים או טביעת אצבע בכניסה לטלפון, מערכות למניעת הונאה בכרטיסי אשראי ועוד.

מהי למידת מכונה (מתורגם):

https://youtu.be/f_uwKZIAeM0

איך מכונות לומדות? -הנה (מתורגם):

https://youtu.be/R9OHn5ZF4Uo

מאיפה מגיע המידע הנחוץ לאימון המכונה ומה חשוב באיסופו (מתורגם):

https://youtu.be/x2mRoFNm22g

המקור ההיסטורי של משין לרנינג ודרך פעולתה:

https://youtu.be/HBDp183HEic

עוד הסבר על למידת המכונה:

https://youtu.be/mJeNghZXtMo

אחד האתגרים בלמידת מכינה הוא ליצור למידה שאינה מוטית לכיוונים חברתיים ספציפיים:

https://youtu.be/59bMh59JQDo

הסבר קצר על הלמידה החישובית:

https://youtu.be/ty-kTUzMnjk

מחשב לומד שמתבונן בשחקנים המשחקים במשחקי מחשב ולומד לשחק ברמה מקצועית שיכולה להביס את הטובים שבהם:

https://youtu.be/EfGD2qveGdQ

תוכנה לומדת שמשחקת ומשתפרת כל הזמן במשחק מחשב:

https://youtu.be/qv6UVOQ0F44

רוצים לאמן מכונה ואפילו בלי תכנות? - הנה פעילות נחמדה וחכמה:

https://youtu.be/i9tjzr1KME0

מהי למידה עמוקה?

הלמידה העמוקה (Deep Learning) היא תחום מחקר בעולם המחשבים וספציפית בתחום "למידת המכונה" שמניח שהמחשב יכול ללמוד וללמד את עצמו, ממש כמו המוח האנושי. מטרתו הברורה של התחום הזה היא ליצור חיקוי ממוחשב של פעולת המוח האנושי.

בין שנות ה-70 לאמצע שנות ה-2000, רווחה אכזבה מאד גדולה מהביצועים של תחום הבינה המלאכותית. התחום, שהבטיח מהפכה של ממש בעולם המחשוב ו"לא סיפק את הסחורה", אכזב במידה רבה והמחקר שלו נכנס לתקופה שכונתה אז "החורף של הבינה המלאכותית".

אבל בשלב מסוים, בשנות האלפיים ואחרי שנים רבות של האכזבה, הפציעה האינטליגנציה המלאכותית מחדש, כשהפעם היא החלה לממש סוף כל סוף את ההבטחה מימי התום שלה. מחשבים מהירים פי מיליון, כמויות מידע עצומות שהחל להציע האינטרנט ושנאגרו על כונני ענק זולים ונגישים - כל אלה הבשילו ביחד עם הבשלה של טכנולוגיה חזקה ומעשית מאי-פעם - "הלמידה העמוקה". הרעיון בה, בפשטות, הוא לפתח "מוח ממוחשב", על בסיס המוח האנושי, תחת הרעיון שהמוח הוא סדרת רכיבים , שלכל אחד מהם תפקיד עצמאי והם מחוברים ביניהם.

ה"הלמידה העמוקה" היא תת-תחום בתוך תחום "למידת המכונה", שגם הוא עצמו, כמו שאומרים מקצועני תחום "למידת המכונה" (ML), מהווה תת-תחום מרכזי בעולם האינטליגנציה המלאכותית.

המיוחד במערכות "למידה עמוקה" הוא היכולת שלהן ללמוד ולהשתפר כל הזמן ולעשות את הלמידה והשיפור המתמיד לגמרי בעצמן. מפתחי מערכות כאלה בונים בשבילה מעין "רשת סמנטית". זו מערכת שמחקה את המערכת הנוירונים שבמוח האנושי וכאמור פועלת ולומדת כמוהו - ככל שהיא פועלת וככל שמשתמשים בה - היא משתפרת ו"יודעת" יותר.

מדובר בתחום חדש יחסית בעולם של חקר המערכות הלומדות, או "למידת המכונה". הוא נקרא גם "הלמידה החישובית" (Machine Learning) והרעיון החדשני בו היה שב"למידה עמוקה" המכונה לומדת בעצמה, מבלי שיאמנו אותה כמו שעושים בלמידה מכונה רגילה.

לטווח רחוק מטרת התחום היא פיתוח של מחשב שיוכל להחליף את החשיבה האנושית. מערכת כזו תהיה מסוגלת לזהות תבניות ודפוסים בדיבור, תמונות, צלילים ועוד סוגי מידע, שהמערכות הממוחשבות התקשו, עד לא מזמן, לעבד ולטפל בהם.

חשיבה עמוקה היא רק בתחילתה, אבל חוקרים נעזרו בה כבר לזיהוי מולקולות שייקשרו למטרות בגוף טוב יותר ומסתייעים בממצאים לפיתוח תרופות חדשות. מחשב או תוכנה שמצוידים ב"חשיבה עמוקה" מבינים כבר היום שפה אנושית במנועי חיפוש, בחיפוש קולי ובעוזרים דיגיטליים כמו "סירי" של חברת אפל ו"קורטנה" של מיקרוסופט. בעתיד יסיקו מערכות כאלה גם מסקנות ויקבלו החלטות בכוחות עצמן.

העתיד מבטיח מפיתוחים אלה מערכות רפואיות שמטפלות בחולים, אנליסטים ומומחים ממוחשבים לניהול כספים ומסחר במניות ועד למערכות ראיה ממוחשבת, שיוכלו לזהות עצמים במרחב ולסווג אותם, ללא צורך בהתערבות אנושית.

באמצעות חיקוי היכולת האנושית ללמוד, מצליחות מערכות למידה עמוקה גם ליצור ציורים, מוסיקה, סרטונים וטקסטים,להמליץ ללקוחות על רכישות, לייצר קריינות מלאכותית, לזהות עצמים ופנים מדויקות בתמונות וסרטונים, לאבחן מחלות, להפיק רווחים ממניות, להלביש פנים של מפורסמים על סרטי וידאו ועוד שלל יישומים.

המלצה:
======
קראו באאוריקה בתגית "Google Brain", על אחד מפרויקטי הבינה המלאכותית הגדולים ביותר אי פעם.

הנה טכנולוגיית הלמידה העמוקה והעתיד שהיא מסמנת, כולל הסכנות האפשריות:

http://youtu.be/IoP9akd44wk

כך עובדים על פיתוח המוח העמוק:

http://youtu.be/zLp-edwiGUU

הדגמה ויזואלית של עץ ההחלטות הגדל ומתפתח של מערכת חכמה:

http://youtu.be/nSg4HKHdDs4

מהי כריית מידע ומיהם כורי המידע?

כריית מידע היא סריקה של נתונים, כדי לזהות את מאפייניהם, למצוא קשרים ביניהם ולהסיק מהם מסקנות שיכולות לשפר תהליכים שונים. שימוש בטכנולוגיית המידע המודרנית, דוגמת האינטרנט ומאגרי מידע גדולים, יכול לאפשר לכורי המידע להפוך את המידע הרב שיש בהם לידע.

חברות מסחריות למשל, משתמשות באלגוריתמים או תוכנות מחשב לכרייה של מידע. הכלים הללו מאפשרים לזהות קבוצות של לקוחות לפי סוגי הפעילות שהם עושים. על ידי זיהוי קבוצות כאלה, יכולה חברה להציע לכל קבוצה מוצרים שיותר סביר שהאנשים שבה ירצו לקנות. יש לקבוצות כאלה גם תרומה לשיפור השירות ללקוחות ועוד.

ישנן שיטות לכריית נתונים, כמו כרייה ברשת (Web Mining), סוג של כריית נתונים שמתבצע באתרי אינטרנט שונים וברשתות חברתיות גדולות כמו פייסבוק וטוויטר, במטרה לזהות בהם מאפייני התנהגות של גולשים. מידע שנאסף כך משמש, לעתים קרובות ללא ידיעת הגולש, להגדלת המכירות ואף נמכר לחברות אחרות.

הנה הסבר של מומחה על כריית המידע:

http://youtu.be/R-sGvh6tI04

המידע הזה ישמש בידיהם של מנתחי נתונים, דאטה אנליסטים (עברית):

https://youtu.be/M2lx5C6j2R4

מנתחי מידע כאלה חשובים גם בצה"ל (עברית):

https://youtu.be/a8eP40HlWN4

והרצאה על כריית ואיסוף נתונים (עברית):

https://youtu.be/phSjbS4tbSs?long=yes

דאטה אנליסטים

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!