שלום,
נראה שכבר הכרתם את אאוריקה. בטח כבר גיליתם כאן דברים מדהימים, אולי כבר שאלתם שאלות וקיבלתם תשובות טובות.
נשמח לראות משהו מכם בספר האורחים שלנו: איזו מילה טובה, חוות דעת, עצה חכמה לשיפור או כל מה שיש לכם לספר לנו על אאוריקה, כפי שאתם חווים אותה.
»
«
OCR
מה זה OCR וטכנולוגיית זיהוי התווים האופטי?
כשאנו צריכים להזין כמות גדולה של נתונים אל המחשב, אנו נאלצים לא פעם להקליד את הכל בצורה ידנית. זו אחת העבודות השחורות ביותר ובעידן המחשבים המשוכללים, במאה ה-21, סביר שיהיה משהו שחוסך את הטרחה הזו. האם יש? - בוודאי!
OCR היא טכנולוגיה של זיהוי אופטי של אותיות ומספרים, שנסרקו על ידי סורק, מתמונה, מדף טקסט מודפס או מכתב יד, לקובץ או מסמך דיגיטלי, ממוחשב, שניתן להמשיך ולערוך אותו במחשב. באמצעות תוכנת OCR אנו יכולים לסרוק, או לצלם, כל מסמך שיש בו טקסטים והתוכנה ממירה אותם לטקסט שניתן לחפש בו במחשב, לערוך ולתקן אותו וכדומה.
המושג הוא בעצם ראשי תיבות של "Optical Character Recognition" או בעברית: זיהוי תווים אופטי.
הניסיונות המוקדמים ביותר ללמד את המחשב לקרוא, נעשו כבר בשנות ה-50 של המאה הקודמת. היה אז צורך לסייע למחשב "לקרוא" נכון את האותיות השונות. לשם כך השתמשו בשיטה של השוואת דוגמאות. הרעיון בשיטה זו, היה ללמד את המחשב את הצורות השונות של האותיות ומרגע שהיו בו צורות שונות של כל אות, המחשב עשה השוואה של האות שסרק מהתמונה, לכל הדוגמאות שנשמרו בו, של האותיות השונות. כשנמצאה האות הדומה ביותר - היא זוהתה. המחשב עבר לאות הבאה וחוזר חלילה. אבל השיטה הזו אינה טובה מספיק לגדלים שונים של כל אות ואינה מבחינה בין האות לבין לכלוך או כתם על הנייר הסרוק. לכן פיתחו גם שיטה לניתוח טופולוגי, שבה המחשב "למד" כיצד בנויה האות והמחשב מצא כל אות שסרק במאגר המידע של טופולוגיית האותיות. אבל גם שיטה זו התקשתה לעמוד בכמויות הפונטים שבהם מודפסים הטקסטים. לכן, השיטות המתקדמות של ימינו משלבות גם אינטליגנציה מלאכותית, תוכנה לומדת, רשתות נוירונים, הגיון מטושטש ושיטות שונות שנוספו במהלך השנים ומשפרות את תפקוד התוכנות הללו מאד. למעשה מלמדים את התוכנה לאגור בעצמה צורות חדשות של האותיות כל הזמן והיא מתנהגת כמו הזיכרון האנושי, שלנו. פלא שהיא מצליחה לקרוא ולזהות את הטקסט?
הנה OCR:
https://youtu.be/jO-1rztr4O0
קטע מתכנית מחשבים בעברית, שבה מסבירים לקיציס מה זה OCR:
https://youtu.be/j87b_fOo8EE?t=5m28s&end=11m13s
כיום יש OCR מובנה במכונות צילום משוכללות שונות:
https://youtu.be/Gq8usubMZgE?t=22s
ואפילו באפליקציה של גוגל תרגום, שמתרגמת שלטים משפה לשפה מיד:
https://youtu.be/Ro-HfETpzhc
כשאנו צריכים להזין כמות גדולה של נתונים אל המחשב, אנו נאלצים לא פעם להקליד את הכל בצורה ידנית. זו אחת העבודות השחורות ביותר ובעידן המחשבים המשוכללים, במאה ה-21, סביר שיהיה משהו שחוסך את הטרחה הזו. האם יש? - בוודאי!
OCR היא טכנולוגיה של זיהוי אופטי של אותיות ומספרים, שנסרקו על ידי סורק, מתמונה, מדף טקסט מודפס או מכתב יד, לקובץ או מסמך דיגיטלי, ממוחשב, שניתן להמשיך ולערוך אותו במחשב. באמצעות תוכנת OCR אנו יכולים לסרוק, או לצלם, כל מסמך שיש בו טקסטים והתוכנה ממירה אותם לטקסט שניתן לחפש בו במחשב, לערוך ולתקן אותו וכדומה.
המושג הוא בעצם ראשי תיבות של "Optical Character Recognition" או בעברית: זיהוי תווים אופטי.
הניסיונות המוקדמים ביותר ללמד את המחשב לקרוא, נעשו כבר בשנות ה-50 של המאה הקודמת. היה אז צורך לסייע למחשב "לקרוא" נכון את האותיות השונות. לשם כך השתמשו בשיטה של השוואת דוגמאות. הרעיון בשיטה זו, היה ללמד את המחשב את הצורות השונות של האותיות ומרגע שהיו בו צורות שונות של כל אות, המחשב עשה השוואה של האות שסרק מהתמונה, לכל הדוגמאות שנשמרו בו, של האותיות השונות. כשנמצאה האות הדומה ביותר - היא זוהתה. המחשב עבר לאות הבאה וחוזר חלילה. אבל השיטה הזו אינה טובה מספיק לגדלים שונים של כל אות ואינה מבחינה בין האות לבין לכלוך או כתם על הנייר הסרוק. לכן פיתחו גם שיטה לניתוח טופולוגי, שבה המחשב "למד" כיצד בנויה האות והמחשב מצא כל אות שסרק במאגר המידע של טופולוגיית האותיות. אבל גם שיטה זו התקשתה לעמוד בכמויות הפונטים שבהם מודפסים הטקסטים. לכן, השיטות המתקדמות של ימינו משלבות גם אינטליגנציה מלאכותית, תוכנה לומדת, רשתות נוירונים, הגיון מטושטש ושיטות שונות שנוספו במהלך השנים ומשפרות את תפקוד התוכנות הללו מאד. למעשה מלמדים את התוכנה לאגור בעצמה צורות חדשות של האותיות כל הזמן והיא מתנהגת כמו הזיכרון האנושי, שלנו. פלא שהיא מצליחה לקרוא ולזהות את הטקסט?
הנה OCR:
https://youtu.be/jO-1rztr4O0
קטע מתכנית מחשבים בעברית, שבה מסבירים לקיציס מה זה OCR:
https://youtu.be/j87b_fOo8EE?t=5m28s&end=11m13s
כיום יש OCR מובנה במכונות צילום משוכללות שונות:
https://youtu.be/Gq8usubMZgE?t=22s
ואפילו באפליקציה של גוגל תרגום, שמתרגמת שלטים משפה לשפה מיד:
https://youtu.be/Ro-HfETpzhc
מהו הסורק?
סורק (Scanner) הוא מכשיר המאפשר לסרוק או לצלם, כל תמונה או מסמך עם טקסטים ולשמר אותם כקבצים דיגיטליים, או להדפיסם. סורקים מאפשרים גיבוי תמונות, שליחה של מסמכים בפקס והמרת מסמכי מלל לקטעי טקסט במחשב.
על אף שהיו קיימים גם קודם, הסורקים יצאו אל השוק הפרטי החל באמצע שנות ה-90 של המאה הקודמת והפכו פופולריים מאוד. בעידן הסמארטפונים עם המצלמות המתקדמות החליף אותם השוק הפרטי באפליקציות סריקה משוכללות ויעילות מאוד, שעלותן אפסית.
הסורקים הנפוצים ביותר הם סורקי התמונות והמסמכים, המאפשרים סריקה ואחסון של תמונות ומסמכי טקסט אל המחשב והצגתם על מסך המחשב. הסורקים הללו משמשים לשימור מסמכים ולשכפול תמונות, שימורן במחשב או בענן ולצורך השליחה שלהן בדואר האלקטרוני.
סורקים מיוחדים פותחו לסריקה מהירה של ספרים שלמים ובאמצעותן עוברות כיום ספריות שלמות דיגיטציה מהירה, כלומר העלאה של תכנים למדיה ממוחשבת, על ידי סריקת אלפי ספרים בתוך חודשים אחדים.
הסורק עושה תהליך של דיגיטציה ויזואלית לכל מה שנסרק בו. כלומר סריקת הטקסט בסורק תיצור ממנו קובץ תמונה. תמונה כזו במחשב היא קובץ דיגיטלי שניתן לעשות בו דברים רבים - מאחסון במחשב והדפסה ועד המרת הטקסט למחשב, באמצעות תוכנת OCR, שתאפשר לערוך אותו בתוכנת מעבד תמלילים ותאפשר לשלב אותו בכתיבה של מסמכים, עבודות וספרים.
סורקים אחרים הם קוראי הברקוד שמודפס על אריזות מוצרים, או קוראי ה-QR קוד שנפוץ בעולם הפיזי ומאפשר קישור בינו לבין העולם המקוון. סורקים אלו יודעים להמיר את הקוד הוויזואלי למידע ממוחשב, על מחירים, קישורי אינטרנט (לינקים) ועוד.
הנה סורקי המסמכים של היצרנית בראדר:
https://youtu.be/lEoh2f75rxU
מרכזי סריקה משמשים כיום לסריקת מסמכים בכמויות גדולות:
https://youtu.be/oF9UaG8CJm0
כיום קיימות מערכות לניהול מסמכים אלקטרוניים המשמשות לניהול מסמכים במשרדים וארגונים:
https://youtu.be/Uh9AWbg3Vw0
כך סורקים מסמכים בסמארטפון:
https://youtu.be/L2_-jwiIbL0
תמונות נסרקות לא רק בטלפון, אלא גם בסורקים או במרכזי סריקה בתשלום:
https://youtu.be/WhDNMdU1zhQ
כך סורקים תמונות באפקליקציות חינמיות לטלפון החכם:
https://youtu.be/6J77V-zqB4w
ובחיוך - על שירות לסריקת תמונות נוסטלגיות (עברית):
https://youtu.be/22NqQFks6hc
סורק (Scanner) הוא מכשיר המאפשר לסרוק או לצלם, כל תמונה או מסמך עם טקסטים ולשמר אותם כקבצים דיגיטליים, או להדפיסם. סורקים מאפשרים גיבוי תמונות, שליחה של מסמכים בפקס והמרת מסמכי מלל לקטעי טקסט במחשב.
על אף שהיו קיימים גם קודם, הסורקים יצאו אל השוק הפרטי החל באמצע שנות ה-90 של המאה הקודמת והפכו פופולריים מאוד. בעידן הסמארטפונים עם המצלמות המתקדמות החליף אותם השוק הפרטי באפליקציות סריקה משוכללות ויעילות מאוד, שעלותן אפסית.
הסורקים הנפוצים ביותר הם סורקי התמונות והמסמכים, המאפשרים סריקה ואחסון של תמונות ומסמכי טקסט אל המחשב והצגתם על מסך המחשב. הסורקים הללו משמשים לשימור מסמכים ולשכפול תמונות, שימורן במחשב או בענן ולצורך השליחה שלהן בדואר האלקטרוני.
סורקים מיוחדים פותחו לסריקה מהירה של ספרים שלמים ובאמצעותן עוברות כיום ספריות שלמות דיגיטציה מהירה, כלומר העלאה של תכנים למדיה ממוחשבת, על ידי סריקת אלפי ספרים בתוך חודשים אחדים.
הסורק עושה תהליך של דיגיטציה ויזואלית לכל מה שנסרק בו. כלומר סריקת הטקסט בסורק תיצור ממנו קובץ תמונה. תמונה כזו במחשב היא קובץ דיגיטלי שניתן לעשות בו דברים רבים - מאחסון במחשב והדפסה ועד המרת הטקסט למחשב, באמצעות תוכנת OCR, שתאפשר לערוך אותו בתוכנת מעבד תמלילים ותאפשר לשלב אותו בכתיבה של מסמכים, עבודות וספרים.
סורקים אחרים הם קוראי הברקוד שמודפס על אריזות מוצרים, או קוראי ה-QR קוד שנפוץ בעולם הפיזי ומאפשר קישור בינו לבין העולם המקוון. סורקים אלו יודעים להמיר את הקוד הוויזואלי למידע ממוחשב, על מחירים, קישורי אינטרנט (לינקים) ועוד.
הנה סורקי המסמכים של היצרנית בראדר:
https://youtu.be/lEoh2f75rxU
מרכזי סריקה משמשים כיום לסריקת מסמכים בכמויות גדולות:
https://youtu.be/oF9UaG8CJm0
כיום קיימות מערכות לניהול מסמכים אלקטרוניים המשמשות לניהול מסמכים במשרדים וארגונים:
https://youtu.be/Uh9AWbg3Vw0
כך סורקים מסמכים בסמארטפון:
https://youtu.be/L2_-jwiIbL0
תמונות נסרקות לא רק בטלפון, אלא גם בסורקים או במרכזי סריקה בתשלום:
https://youtu.be/WhDNMdU1zhQ
כך סורקים תמונות באפקליקציות חינמיות לטלפון החכם:
https://youtu.be/6J77V-zqB4w
ובחיוך - על שירות לסריקת תמונות נוסטלגיות (עברית):
https://youtu.be/22NqQFks6hc