מה זו היסטוגרמה ומה יתרונותיה?
היסטוגרמה (Histogram) דומה במראה לגרף עמודות, אך היא משרתת מטרה שונה: היא מראה התפלגות של נתונים רציפים. ציר אחד (בדרך כלל אופקי) מחולק ל"טווחים" או "אשכולות" של ערכים (בין X ל-Y, Y ל-Z, וכו') והציר האחר מראה כמה נתונים נופלים בכל טווח כזה.
כל עמודה בהיסטוגרמה מייצגת את מספר המקרים או התצפיות שהתגלו בטווח ערכים מסוים. כך למעשה ההיסטוגרמה נותנת מושג על צורת ההתפלגות – האם רוב הנתונים מרוכזים בטווח צר, פזורים באופן אחיד, או אולי יש שני "שיאים" וכו'.
אם נאסוף, לדוגמה, את ציוני המבחן של 100 תלמידים, נוכל ליצור היסטוגרמה שבה כל עמודה מראה כמה תלמידים קיבלו ציון בטווח מסוים (נגיד 50-60, 60-70, 70-80, וכו'). כך אפשר לראות האם רוב הכיתה קיבלה ציונים גבוהים, נמוכים, או שהתפלגו באופן שווה.
בעזרת היסטוגרמה אפשר לזהות במהירות מאפיינים של הנתונים כמו שכיחות (כמה פעמים ערכים מופיעים בטווח מסוים), האם יש הטיה לכיוון גבוה או נמוך והאם הנתונים מרוכזים סביב ערך מרכזי או מפוזרים.
כך, למשל, אפשר לראות אם יש "זנב ארוך" – כלומר מעט ערכים רחוקים מהמרכז (מה שיראה כעמודה בודדת רחוקה מהשאר).
כל מצב שבו יש מדידה כמותית להרבה פרטים - ציוני תלמידים, גבהים של אנשים, משך זמן שלוקח לאנשים לבצע משימה, טמפרטורות יומיות בחודש – יתאים להיסטוגרמה.
מה שכן, חשוב שלנתונים יהיה טווח ערכים רחב מספיק כדי לחלק לטווחים (Bins) ולהפיק תובנות מצורת ההצטברות שלהם.
דוגמה נוספת: היסטוגרמה של גילאי תושבי עיר – ציר אופקי טווחי גיל (0-9, 10-19, 20-29 וכו') והציר האנכי מספר התושבים בכל טווח. כך העירייה יכולה לראות אם יש הרבה צעירים, הרבה מבוגרים וכו', דברים שיכולים להשפיע על תכנון וסוג השירותים לתושבים.
היסטוגרמה (Histogram) דומה במראה לגרף עמודות, אך היא משרתת מטרה שונה: היא מראה התפלגות של נתונים רציפים. ציר אחד (בדרך כלל אופקי) מחולק ל"טווחים" או "אשכולות" של ערכים (בין X ל-Y, Y ל-Z, וכו') והציר האחר מראה כמה נתונים נופלים בכל טווח כזה.
כל עמודה בהיסטוגרמה מייצגת את מספר המקרים או התצפיות שהתגלו בטווח ערכים מסוים. כך למעשה ההיסטוגרמה נותנת מושג על צורת ההתפלגות – האם רוב הנתונים מרוכזים בטווח צר, פזורים באופן אחיד, או אולי יש שני "שיאים" וכו'.
אם נאסוף, לדוגמה, את ציוני המבחן של 100 תלמידים, נוכל ליצור היסטוגרמה שבה כל עמודה מראה כמה תלמידים קיבלו ציון בטווח מסוים (נגיד 50-60, 60-70, 70-80, וכו'). כך אפשר לראות האם רוב הכיתה קיבלה ציונים גבוהים, נמוכים, או שהתפלגו באופן שווה.
יתרונות
היסטוגרמה מצטיינת בהצגת התפלגות ערכים – משהו שגרף עמודות רגיל אינו עושה, כי גרף עמודות מציג כל קטגוריה בנפרד ולא טווח רציף.
בעזרת היסטוגרמה אפשר לזהות במהירות מאפיינים של הנתונים כמו שכיחות (כמה פעמים ערכים מופיעים בטווח מסוים), האם יש הטיה לכיוון גבוה או נמוך והאם הנתונים מרוכזים סביב ערך מרכזי או מפוזרים.
כך, למשל, אפשר לראות אם יש "זנב ארוך" – כלומר מעט ערכים רחוקים מהמרכז (מה שיראה כעמודה בודדת רחוקה מהשאר).
התאמה
היסטוגרמה מתאימה במיוחד עבור נתונים מספריים רציפים בכמות גדולה, כאשר רוצים להבין את הצורה הכללית שלהם.
כל מצב שבו יש מדידה כמותית להרבה פרטים - ציוני תלמידים, גבהים של אנשים, משך זמן שלוקח לאנשים לבצע משימה, טמפרטורות יומיות בחודש – יתאים להיסטוגרמה.
מה שכן, חשוב שלנתונים יהיה טווח ערכים רחב מספיק כדי לחלק לטווחים (Bins) ולהפיק תובנות מצורת ההצטברות שלהם.
דוגמאות
דוגמה מהחיים היא של מורה שיכול להכין היסטוגרמה של ציוני הבחינה בכיתה כדי לראות את פיזור הציונים. הציר האופקי הוא טווחי ציונים, בעוד הציר האנכי הוא מספר התלמידים בכל טווח. כך ניתן לבחון האם יש שתי פסגות (האם למשל קבוצה גדולה קיבלה ציונים נמוכים וקבוצה גדולה אחרת ציונים גבוהים) או שהציונים מרוכזים סביב ציון ביניים.
דוגמה נוספת: היסטוגרמה של גילאי תושבי עיר – ציר אופקי טווחי גיל (0-9, 10-19, 20-29 וכו') והציר האנכי מספר התושבים בכל טווח. כך העירייה יכולה לראות אם יש הרבה צעירים, הרבה מבוגרים וכו', דברים שיכולים להשפיע על תכנון וסוג השירותים לתושבים.