פרופ' יואב גולדברג זכה במענק ה-ERC על מחקרו בנושא עיבוד שפות טבעיות

תארו לכם מחשב המסוגל לחטט בכתבי היד שלכם, להוציא את המידע הרלוונטי ולקיים דיאלוג בין פיסות מידע רלוונטיות, לבין חוקרים שונים. כעת תפסיקו לתאר, כי הבינה המלאכותית קופצת מדרגה וזה מתרחש במחקר פורץ דרך של פרופ' יואב גולדברג מהמחלקה למדעי המחשב באוני' בר אילן.

פרופ' גולדברג זכה השבוע במענק נדיב מטעם ERC, תוכנית הדגל של האיחוד האירופי, הבוחרת בכל שנה בפינצטה את המחקרים הזוכים במענקים הגדולים והיוקרתיים בעולם.

תחום מחקרו של פרופ' גולדברג הוא עיבוד שפות טבעיות: תת תחום של בינה מלאכותית העוסק באלגוריתמים המאפשרים למחשבים לקרוא ו״להבין״ טקסטים בשפה אנושית. פרוייקט המחקר שזכה במענק של כמיליון וחצי יורו לתקופה של חמש שנים, מתמקד בפיתוח שיטות לקריאה אוטומטית של כמויות גדולות של טקסטים בשפה אנושית, וחילוץ מידע מתוכם.

כמויות המידע הזמין בעולם גדלות בקצב עצום, ורוב המידע נמצא בטקסטים כתובים. מידע כזה כמעט ולא נגיש לשיטות מחקר מבוססות ביג-דאטא: אנו יודעים לתשאל ולהסיק מסקנות מתוך מידע המסודר ומאורגן בטבלאות ובמאגרי נתונים גדולים, אך לא מתוך מידע הכתוב בשפה אנושית.

שוו בנפשכם מחקר בתחום הרפואה (כדוגמה אחת מתוך רבות), המבקש להתחקות אחר תרופות למחלת הסכרת, המינון שניתן, גיל נטילת התרופה, תרופות שניתנו במקביל, ותופעות לוואי. המידע הזה לא נמצא כיום במסד נתונים מסודר, אלא ״קבור״ בתוך אוסף גדול של מסמכים בשפה אנושית: מכתבי שחרור, מכתבי אשפוז, מאמרים מדעיים ועוד. טכניקות חיפוש (כגון אלו של גוגל) יוכלו להפנות אותנו למסמכים הרלוונטיים, אולם צוות המחקר יצטרך עדיין לקרוא אלפים רבים של מסמכים, לחלץ מתוכם את המידע ולארגנו בטבלה מסודרת. רק לאחר מכן יוכלו להמשיך במחקרם.

המחקר בהובלת פרופ' גולדברג ישלב טכניקות מתחום הבינה המלאכותית, הלמידה הסטטיסטית, הלמידה-העמוקה והבלשנות על מנת לאפשר לחוקרים, אנליסטים ומדעני מידע בתחומי דעת שונים להגדיר למחשב את פיסות המידע המעניינות עבורם, כך שהמחשב יוכל לקרוא את הטקסטים, להבינם ברמה מספקת, לאתר את פיסות המידע המבוקשות, לחלץ את המידע מהטקסט ולארגנו בצורה השימושית להמשך המחקר.

בשונה מגישות קודמות, מחקרו של פרופ גולדברג ישלב תהליך של ״דיאלוג״ בין החוקרים למערכת הממוחשבת, כך שהמחשב יוכל להציב לחוקרים שאלות הבהרה, ואלו מצדם יוכלו לשפר את הבנתו של המחשב בתחום הדעת הספציפי שהוא קורא כעת, ובכך לשפר את איכות החילוץ.
יכולות כאלו צפויות להביא לפריצות דרך משמעותיות רבות, לא רק בתחום מדעי המחשב והבינה המלאכותית אלא בתחומי המדע בכלל.