יום חמישי, 7 באפריל 2011

כשגוגל קוראת לעזרה (או: מי הפך את הגולשים למורים ללשון?)

הקדמה קצרה
חישבו לרגע על המערכות או התוכנות שבהן אתם משתמשים באופן קבוע כל יום. הנה רשימה חלקית, בתור התחלה: Internet Explorer, Google Chrome, Word, Excel, PowerPoint, Outlook.

לרשימה הזו ניתן להוסיף אתרי אינטרנט רבים שכולנו גולשים בהם מדי יום, כמו ג'ימייל, פייסבוק, ynet, כלכליסט ועוד.

כעת, הוסיפו לרשימה את המערכות הייעודיות שמשמשות אתכם בעבודה - מערכות בתחום הבריאות, הכספים, שירות הלקוחות, הרכש, המזון, מערכות ERP לסוגיהן והרשימה הזו יכולה להימשך עד אין סוף, כמעט.

לכל המערכות / האתרים הללו יש ממשק משתמש המורכב ממסכים ומסכי משנה, שדות טקסט, לחצנים מסוגים שונים ועוד, וכולן מקיימות אינטראקציה ברמה כזו או אחרת עם המשתמש שמזין, מעדכן או מוחק נתונים שנשמרים במערכת.

אבל,
כמה מהמערכות האלה מרשות לנו להשפיע על התוכן הפנימי של המערכת?
כמה מהן מאפשרות לנו - המשתמשים - לשנות את אופן העבודה הבסיסי ביותר שלהן, את הצורות הבסיסיות ביותר שבה הן מנתחות ומעבדות את הנתונים ששמורים אצלן?

כמעט אף אחת מהן, למעשה.

על המנדט (המוגבל) של הגולשים
כל אחד מאתרי האינטרנט הגדולים ביותר בעולם - גוגל, פייסבוק ויוטיוב, מעסיק בשורותיו מאות מהנדסי תוכנה, מתמטיקאים ואלגוריתמיקאים, בכדי לשכלל באופן מתמיד את האופן שבו מנועי הסריקה, הניתוח והקטלוג שלהם מתמודדים עם כמות המידע האדירה שניצבת בפניהם.

אלא שבחיים, כמו בחיים, גם האלגוריתם המשוכלל ביותר וכח העיבוד הגדול ביותר, לעולם לא יכסה 100% מהמקרים וכל אחד מהאתרים שהזכרנו (וכמובן גם אחרים שמתבססים על תוכן גולשים) נאלצים, לפיכך, להתמודד עם כמויות בלתי ידועות ובלתי ניתנות לחיזוי של תוכן לא רצוי, פוגעני, אסור על פי חוק או מפר זכויות יוצרים.

כדי להתמודד עם תוכן כזה, פנו כל אתרי הענק שהזכרנו לגורם היחיד שלא היה שותף בתכנון וכתיבת האלגוריתמים שלהם - אלינו. הגולשים.

כל אחד מהאתרים מאפשר לגולשים לדווח על תוכן שנחשב בעיניהם (של הגולשים) פוגעני, לא הולם או תוכן-זבל (ספאם), בכדי שיוכלו להסיר אותו מהאתר במקרה הצורך.

כך ביוטיוב - ראו את הלחצן שמתחת לסרטון - "סמן כלא הולם" (ובמקור - Flag as inappropriate):
youtube - Flag as inappropriate

וכך גם בפייסבוק - "Mark as spam":
Facebook - Mark as spam

אלא שגם כשאנחנו "עוזרים" בצורה כזו לאתרים השונים לזהות תוכן פוגעני, עדיין מידת ההשפעה שלנו על "תבונת" האלגוריתמים ועל התנהגותם בעתיד - מוגבלת מאוד.

במילים אחרות, סביר להניח (וכך הניסיון מלמד - למשל במקרה של עמוד הפייסבוק שקרא לאינתיפאדה שלישית) שכאשר כמות מסויימת של גולשים מדווחת על תוכן כלשהו כפוגעני, מנגנוני הבקרה של האתרים נכנסים לפעולה, והתוכן יוסר מהאתר בזריזות.

עם זאת, האם תהיה לכך איזשהי השפעה על התנהגות האלגוריתמים בעתיד?
האם הדיווחים של הגולשים, הופכים אוטומטית לחלק מובנה ואינטגרלי מתהליך הניתוח שהאתרים הללו יבצעו החל מאותו רגע והלאה?

לפי איך שזה נראה כרגע, עדיין לא.

כמה מילים על מורכבות השפה
אחד התחומים המורכבים והקשים ביותר לניתוח ו"פיצוח" ע"י מערכות מחשב הוא הבנת שפות בכלל, והלשון המדוברת בפרט. 

כל שפה מורכבת מאוסף עצום של מילים, ביטויים וניבים, שלכל אחד מהם יש כמה וכמה הטיות וסמיכויות שיכולות לשנות את משמעות המילה לחלוטין ממשמעותה המקורית.
מעבר לכך, כל שפה כוללת גם תבניות או ביטויים שונים שגם אם אינם "תקניים" - מבוצע בהם שימוש רב בשפה המדוברת.

כל זה גורם לכך שקל מאוד לקחת מילה בודדת ולתרגם אותה. גם תרגום של ביטויים קצרים, או משפטים של שתיים שלוש מילים הם משימה סבירה.

עם זאת, תרגום נכון ותקין של משפט שלם, שמשולבים בו ביטויים או ניבים, או שפשוט השתמשו בו בשפה המדוברת על התבניות המקובלות בה באותו הזמן, הופך למשימה מורכבת (עד בלתי אפשרית) גם עבור המחשבים החזקים ביותר בעולם.

לשם הדגמה, באופן היתולי כמובן (לא באמת ציפיתי שזה יעבוד), ראו את התרגום הבא:
Google Translate - שרה שרה שיר שמח

מעניין לראות שדווקא ההתחלה (שרה שרה) מתורגמת נכון - Sarah sings, וגם זה יפה בפני עצמו, אבל בהמשך זה כבר עובד פחות טוב ומתורגם ל-sara sara....


ואיפה כל הגולשים הם גם מורים ללשון?
לפני כמה ימים, נכנסתי ל-Google Translate כדי לפענח סטאטוס פייסבוקאי באנגלית שחלק ממנו לא היה לי ברור.

מתחת לשורת התרגום, שמתי לב פתאום לאפשרות חדשה שמאפשרת לגולש לחפש תרגום חלופי, טוב יותר, למשפט שאותו הוא מנסה לתרגם:
Google Translate - תרגומים חלופיים

כשפותחים את חלונית הצעות התרגום החלופיות, מוצגות כמה אפשרויות שגוגל כבר מכירים, ובתחתית הרשימה יש גם מקום שבו הגולש יכול להציע לגוגל תרגום נוסף, נכון יותר, למשפט המבוקש:
Google Translate - הצעת תרגום ע"י הגולש

ברגע שהגולש מזין את התרגום הנכון, לדעתו, התרגום של המשפט כולו כמובן מתעדכן בהתאם.

מעניין.
גוגל בעצם נותנים כאן אפשרות לגולשים לעזור להם "להבין" את השפה בצורה מדוייקת יותר, ובכך הם למעשה נותנים אפשרות לעצמם לשפר את מנגנון ההבנה, הניתוח והתרגום שלהם באופן מתמשך - על פי ההצעות של הגולשים.

במילים אחרות, הגולש עוזר כאן, במידה רבה, לתהליך הלמידה של המערכת, ומאפשר למערכת עצמה להמשיך וללמוד איך לנתח תבניות שפה וביטויים שהפירוש, או ההקשר שלהם בתוך משפט שלם, הובנו באופן שגוי או שלא היו מוכרים בכלל למערכת עד אותו רגע. 

זה צעד גדול מאוד לקראת הגולשים - שהופכים כאן לשותפים, וצעד משמעותי אפילו יותר יותר לשירות Google Translate עצמו שזוכה כאן לראשונה ביכולת למידה מאינסוף שותפים פוטנציאליים דוברי כל השפות.

על הצעד הבא בניתוח תכנים ברשת
עדכון האלגוריתם האחרון של גוגל, שזכה לשם "פנדה" נועד להילחם ב"ספאם" שהציף את תוצאות החיפוש בגוגל בחודשים האחרונים (דבר שבישראל הורגש הרבה פחות, לדעתי). פרטים על העדכון עצמו אפשר למצוא באתרים שונים ברשת - למשל כאן, וכאן.

למרות זאת, וכצעד משלים - נראה שגם בגוגל כבר הבינו שכל עוד תוצאות החיפוש יתבססו על אלגוריתם ממוחשב בלבד, תמיד יימצאו בוני האתרים ואנשי קידום האתרים (SEO - Search Engine Optimization) שיצליחו ללמוד ולפצח מספיק מהפרמטרים שעל פיהם עובד החיפוש, כדי לקדם את האתר שלהם (או של הלקוח שלהם) גם אם למעשה האתר שלהם מספק לגולשים תוכן בינוני מאוד.

כדי להתגבר על הבעיה הזו, פיתחו בגוגל את "גוגל 1+", שירות חדש המאפשר לגולשים "להצביע" בעד או נגד אתרים שמופיעים בתוצאות החיפוש של גוגל, בדומה לשיטת ה"לייקים" של פייסבוק. למעשה, בצורה כזו, תוצאות החיפוש של גוגל יהיו מושפעות (בין השאר, כמובן) ממספר ההמלצות שכל אתר קיבל מהגולשים, שהופכים למעשה לחלק נוסף באלגוריתם החיפוש והדירוג המורכב מאוד של גוגל. (פרטים נוספים על "גוגל 1+" אפשר למצוא בעמוד הרשמי של גוגל, וגם בכתבה הזו)

כך, גוגל הולכים (שוב) צעד גדול קדימה בכך שלראשונה הם הופכים את הגולשים לחלק אינטגרלי ומובנה בשיקולים הפנימיים של מערכת החיפוש שלהם, דבר שעד היום לא עלה בכלל על הדעת.

האם זה באמת יעבוד, ועד כמה הגולשים (אנחנו) בכלל נהיה מוכנים לאמץ את הפיצ'ר החדש?  ימים יגידו.
בכל מקרה, יהיה מעניין לראות איך זה ישפיע על תוצאות החיפוש בתקופה הקרובה, ועוד יותר מכך - האם (ובאיזה אופן) תנצל גוגל את שירות "גוגל 1+" כדי ללמוד את העדפות והמלצות הגולשים, ולשפר באמצעותן באופן מתמשך את מנגנוני החיפוש שלה.

אשמח לקבל שאלות, תגובות והערות גם במייל - myzarkor@gmail.com.
 
בהצלחה!
 
אהבתם? 
פרגנו לי ב-"Like", או שתפו את הפוסט בעזרת כפתורי השיתוף שלמטה.
 
יניב טילינגר     Yaniv Tillinger