نوع مقاله : مقاله پژوهشی
نویسندگان
1 پژوهشگاه علوم انسانی و مطالعات فرهنگی
2 دانشگاه علامه طباطباِِئی
چکیده
گویششناسی از دیرباز مورد توجه پژوهشگران بودهاست و هدف اصلی آن این بودهاست که بتوان با ردهبندی گویشها و تهیه اطلس گویشها، رابطه زبانشناختی و پراکندگی جغرافیایی گویشها را مشخص نمود. همچنین در این حوزۀ پژوهشی میتوان با ذخیره و سازماندهی دادههای گویشی، از این نوع دادهها در فعالیتهایی چون یافتن تشابه بین گویشها، ترسیم مرزهای همگویی در نقشۀ جغرافیایی و مانند آن استفاده نمود . نکتۀ قابل توجه دادههای این نوع مطالعات این است که عمدتاً از متن پیوسته استفاده نشده و اغلب به پرسشنامههای محدود متشکل از چند واژه یا جمله کلیدی بسنده شدهاست .
یکی دیگر از جنبههای کاربردی دیگر، تهیۀ مدل زبانی آماری و استفاده از آن در پردازشهای الگوریتمی گویشی و نشانهگذاری خودکار این دادهها است. در این پژوهش میکوشیم ضمن تهیۀ یک پیکرۀ گویشی از متن پیوسته، به تهیۀ مدل برچسبگذاری خودکار در دو سطح بنواژه و مقولۀ دستوری واژه گویش گیلکی دست یابیم. ازآنجاکه دادۀ آموزش برچسبخورده برای ساخت مدل زبانی گویش گیلکی موجود نیست، پیکرۀ بهدستآمده را بهصورت دستی برچسبگذاری کرده و سپس به تهیۀ مدل زبانی اقدام میکنیم. برای نشاندادن کیفیت مدل زبانی تهیهشده، دادههای موجود را به دو دسته آموزش و آزمون تقسیم کرده و با استفاده از روش ارزیابی متقاطع 5تایی، به ارزیابی مدل میپردازیم. براساس نتایج عملی حاصل از مدل پردازشی، کاراییهای میانگین مدلهای تهیهشده برای گویش گیلکی در بنواژهسازی و برچسبدهی مقولات دستوری، بهترتیب، 91/20 و 90/79 درصد است.
کلیدواژهها
موضوعات
عنوان مقاله [English]
Studying the Gilaki Dialect from the Computational Dialectology Perspective: Developing a Lemmatized and Part-of-Speech Tagged Corpus
نویسندگان [English]
- Masood Ghayoomi 1
- Shayan Mohseni Khorrami 1
- Atena BakhshiZadeh Gashti 2
1 Institute for Humanities and Cultural Studies
2 Allameh Tabataba'i University
چکیده [English]
Dialectology is a major research topic for a long time to find the dialects’ geographical distribution and to classify dialects to develope the atlas of dialects. In this field, one can use computer’s capabilities to store and to organize information, to find similarities between dialects, to visualize the isoglosses on a geographic map, and the like. The common property of these studies is that a full text is not used and the studies are mostly limited to questionnaires containing a few key words or phrases.
Another useful aspect of using computers in dialectology is processing the dialectic data and automatically annotating this data. In the current research, in addition to preparing a dialectic corpus containing full texts for the Gilaki dialect, we put an effort to prepare a language model to annotate the data at two levels, namely part-of-speech and lemmatization. Since there is no annotated training data for making the Gilaki language model, we manually annotate the developed corpus and then create a statitical language model. To show the quality of the developed language model, the available data is divided into two sets, namely as training and test data, and we will evaluate the model using the 5-point cross-evaluation method. According to the experimental results, the performances of the models for lemmatization and part-of-speech tagging of the Gilaki dialect are 91.20% and 90.79%, respectively.
کلیدواژهها [English]
- computational dialectology
- natural language processing
- the Gilaki dialect
- corpus
- automatic annotation