עיבוד שפה טבעית

 

 קבוצת המחקר בעיבוד שפה טבעית (Natural Language Processing)

 

עיבוד שפה טבעית הוא תחום מחקר וטכנולוגיה העוסק בניתוח ממוחשב של טקסטים בשפת בני אדם, באמצעות שיטות המשלבות אלגוריתמים מתקדמים מעולם מדעי המחשב יחד עם ידע בלשני. קבוצת המחקר בעיבוד שפה טבעית באוניברסיטת בר אילן מובלת על ידי פרופ' עידו דגן, והחל מפברואר 2013 גם על ידי ד"ר יואב גולדברג.

 

המחקר בראשותו של פרופ' דגן מתמקד בתחום הסמנטיקה היישומית, תוך שימוש בשיטות למידת מכונה ואלגוריתמים מתקדמים וניצול ייצוגים לשוניים עשירים של טקסטים. בשנים האחרונות מתמקד המחקר בקבוצה ביכולת לבצע היסקים מעל מידע טקסטואלי, המהווה תשתית גנרית ליישומים סמנטיים רבים. המחקר מתמקד בשלושה מישורים עיקריים: פיתוח "מנועי היסק" כלליים עבור טקסטים, בניית מאגרי ידע לגבי היסקים בשפה טבעית, ופיתוח יישומים חדשניים המתבססים על יכולות היסק מתקדמות, כגון האחדת מידע וניווט בו, מיצוי אוטומטי של מידע מובנה ודיאלוגים בשפה טבעית עם סוכנים ממוחשבים. יחד עם קבוצות עמיתות ברחבי העולם הקבוצה בבר-אילן מובילה את תחום ההיסק הטקסטואלי, ושותפה עמן בארגון תחרויות מדעיות ופרויקטים בינלאומיים.

 

המחקר של ד"ר גולדברג מתמקד באלגוריתמי התשתית בעיבוד שפה, ובפרט ניתוח תחבירי -- המעבר מייצוג של טקסט כרצף מילים לייצוג לוגי שלו המציין את היחסים והקשרים בין המילים השונות. שיטות המחקר הן מתחום למידת המכונה וחיזוי המבנה. מיקוד המחקר הוא בשיפור איכות הניתוח תוך שמירה על יעילות חישובית, בהתאמת אלגוריתמים שפותחו לשפה האנגלית לעבודה על שפות בעלות מורפולוגיה עשירה דוגמת עברית, ובשימוש במבנה התחבירי כסיגנל למערכות עיבוד שפה אחרות, דוגמת תרגום אוטומטי.

 

ניתוח תחבירי מדויק משמש אבן יסוד חשובה במערכות עיבוד שפה סמנטיות. עם התרחבות הקבוצה ותחומי המחקר שלה, בכוונתה להעמיק בחקר הממשקים ויחסי הגומלין בין הרמות הסמנטית והתחבירית בשפה טבעית, ולפתח מודלים המקשרים ביניהן ומעצימים את יכולות העיבוד הכוללות של השפה.

 

 

אתר הקבוצה: http://u.cs.biu.ac.il/~nlp/