CoDiAJe

EN | ES | HE

תפריט ראשי


Powered by <TEI:TOK>
Maarten Janssen, 2014-

קוֹדִיאָגֵ׳י - הקורפוס הדיאכרוני המתויג של הלאדינו


.(ברוכים הבאים לקודיאג'י - הקורפוס הדיאכרוני המתויג של הספרדית-יהודית (לאדינו

קודיאג'י הוא קורפוס מובנה דיאכרוני רב-סוגתי, שכולל דגימות טקסטים המסווגים לפי סוג, תקופה ומקור גיאוגרפי, החל מהמאה ה-16ועד המאה ה-21. טקסטים אלו מועשרים באופן אוטומטי או חצי אוטומטי בסוגים שונים של תגים לשוניים. 

קודיאג'י כולל גם מטא-דאטה המספקים מידע על מחברי הטקסטים (מקום לידה, מקום מגורים, מצב חברתי וכו") וכן על הטקסטים (סוג טקסט, תאריך ומקום יצירתו, סוג האלפבית, מודפס/כתב יד, מקורי/תרגום). 

זרימת העבודה של המהדורה הדיגיטלית בקודיאג'י מורכבת משתי משימות עיקריות:

א) העיבוד הלשוני ותיוג המילים באמצעות כלים שונים לעיבוד שפה טבעית (NLP) 

/Freeling: http://nlp.lsi.upc.edu/freeling

Neotag: http://www.lrec-conf.org/proceedings/lrec2012/summaries/1098.html

ב) קידוד המטא-דאטה והתגים הלשוניים המאוגדים לטקסטים באמצעות XML, לצורך הצגת הנתונים וחיפוש בקורפוס דרך TEITOK.

 

איך לצטט את הקורפוס 

קודיאג'י - הקורפוס הדיאכרוני המתויג של הספרדית-יהודית (לאדינו). ניהול: אלדינה קינטנה. כתובת האתר 

 http://corptedig-glif.upf.edu/teitok/codiaje/ [תאריך גישה] 

----

קודיאג'י הוא חלק משני מחקרים (מס' 473/11 ו-486/19) הנתמכים ע"י הקרן הלאומית למדע (ISF).

07/27/2020