نوع مقاله : مقاله پژوهشی

نویسندگان

1 پژوهشگاه علوم انسانی و مطالعات فرهنگی

2 دانشگاه علامه طباطباِِئی

10.22054/ls.2024.79598.1655

چکیده

گویش‌شناسی از دیرباز مورد توجه پژوهشگران بوده‌است و هدف اصلی آن این بوده‌است که بتوان با رده‌بندی گویش‌ها و تهیه اطلس گویش‌ها، رابطه زبان‌شناختی و پراکندگی جغرافیایی گویش‌ها را مشخص نمود. همچنین در این حوزۀ پژوهشی می‌توان با ذخیره و سازماندهی داده‌های گویشی، از این نوع داده‌ها در فعالیت‌هایی چون یافتن تشابه بین گویش‌ها، ترسیم مرزهای هم‌گویی در نقشۀ جغرافیایی و مانند آن استفاده نمود . نکتۀ قابل توجه داده‌های این نوع مطالعات این است که عمدتاً از متن پیوسته استفاده نشده و اغلب به پرسشنامه‌های محدود متشکل از چند واژه یا جمله کلیدی بسنده شده‌است .
یکی دیگر از جنبه‌های کاربردی دیگر، تهیۀ مدل زبانی آماری و استفاده از آن در پردازش‌های الگوریتمی گویشی و نشانه‌گذاری خودکار این داده‌ها است. در این پژوهش می‌کوشیم ضمن تهیۀ یک پیکرۀ گویشی از متن پیوسته، به تهیۀ مدل برچسب‌گذاری خودکار در دو سطح بن‌واژه و مقولۀ دستوری واژه گویش گیلکی دست یابیم. ازآنجاکه دادۀ آموزش برچسب‌خورده برای ساخت مدل زبانی گویش گیلکی موجود نیست، پیکرۀ به‌دست‌آمده را به‌صورت دستی برچسب‌گذاری کرده و سپس به تهیۀ مدل زبانی اقدام می‌کنیم. برای نشان‌دادن کیفیت مدل زبانی تهیه‌شده، داده‌های موجود را به دو دسته آموزش و آزمون تقسیم کرده و با استفاده از روش ارزیابی متقاطع 5تایی، به ارزیابی مدل می‌پردازیم. براساس نتایج عملی حاصل از مدل پردازشی، کارایی‌های میانگین مدل‌های تهیه‌شده برای گویش گیلکی در بن‌واژه‌سازی و برچسب‌دهی مقولات دستوری، به‌ترتیب، 91/20 و 90/79 درصد است.

کلیدواژه‌ها

موضوعات

عنوان مقاله [English]

Studying the Gilaki Dialect from the Computational Dialectology Perspective: Developing a Lemmatized and Part-of-Speech Tagged Corpus

نویسندگان [English]

  • Masood Ghayoomi 1
  • Shayan Mohseni Khorrami 1
  • Atena BakhshiZadeh Gashti 2

1 Institute for Humanities and Cultural Studies

2 Allameh Tabataba'i University

چکیده [English]

Dialectology is a major research topic for a long time to find the dialects’ geographical distribution and to classify dialects to develope the atlas of dialects. In this field, one can use computer’s capabilities to store and to organize information, to find similarities between dialects, to visualize the isoglosses on a geographic map, and the like. The common property of these studies is that a full text is not used and the studies are mostly limited to questionnaires containing a few key words or phrases.
Another useful aspect of using computers in dialectology is processing the dialectic data and automatically annotating this data. In the current research, in addition to preparing a dialectic corpus containing full texts for the Gilaki dialect, we put an effort to prepare a language model to annotate the data at two levels, namely part-of-speech and lemmatization. Since there is no annotated training data for making the Gilaki language model, we manually annotate the developed corpus and then create a statitical language model. To show the quality of the developed language model, the available data is divided into two sets, namely as training and test data, and we will evaluate the model using the 5-point cross-evaluation method. According to the experimental results, the performances of the models for lemmatization and part-of-speech tagging of the Gilaki dialect are 91.20% and 90.79%, respectively.

کلیدواژه‌ها [English]

  • computational dialectology
  • natural language processing
  • the Gilaki dialect
  • corpus
  • automatic annotation