نوع مقاله : مقاله پژوهشی
نویسندگان
1 پژوهشگاه علوم انسانی و مطالعات فرهنگی
2 گروه زبان و رایانه، فرهنگستان زبان و ادب فارسی، تهران، ایران
چکیده
توسعۀ فناوری اطلاعات و عجینشدن آن با زبان طبیعی سبب شدهاست درک و تولید محتوای زبانی بهصورت الگوریتمی میسر گردد. وجود گروههای پژوهشی مختلف و بهرهگیری آنان از دادهها و الگوریتمهای پردازشی مختلف سبب عدم مقایسهپذیری نتایج حاصل از عملکرد ابزارها شدهاست. برای رفع این کاستی در مقاله حاضر تلاش میشود یک پیکرۀ سنجه که منطبق با دستور مصوب خط و زبان فارسی است تهیه شود و از این پیکره برای ارزیابی توانایی ابزارهای ویراستاری فارسی استفاده گردد.
در انجام پژوهش حاضر، پساز بررسی دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی، اقواعد تعریفشده در دستور خط به هشت مقولۀ اصلی تقسیم میشود . سپس در دو ژانر علمی و خبری ، مجموعه دادهای درحدود ۹۸هزار واژه گردآوری شده و با دستور مصوب خط انطباق داده میشود. تعدادی از واژههای این داده براساس مقولات هشتگانه نشاندار شده و ارزیابی مدلها فقط به واژههای نشاندارشده محدود میشود. در پژوهش حاضر عملکرد شش ابزار ویراویراست، فارسییار، ویراستمن، پاکنویس، ویراستیار، ویراستیار و گاگول مقایسه میگردد. از مقایسه عملکرد ابزارها با داده معیار طلایی این نتیجه بهدست آمدهاست که ابزار پاکنویس با میانگین 74/07 درصد در دو ژانر علمی و خبری بالاترین کارایی و گاگول با میانگین 24/72 درصد پایینترین میزان عملکرد خود در ویراستاری فارسی منطبق با دستور مصوب خط فارسی بهدست آوردهاست. در انتها، عملکرد ابزارها در مقولات هشتگانه با یکدیگر مقایسه میگردد تا نقاط قوت و ضعف ابزارها مشخص شود.
کلیدواژهها
موضوعات
عنوان مقاله [English]
Comparative analysis of editorial tools using a developed benchmark corpus based on the approved Persian Orthography Rule
نویسندگان [English]
- Masood Ghayoomi 1
- Lili Nezami 2
1 Institute for Humanities and Cultural Studies
2 Language and Computer Group, Academy of Persian Language and Literature, Tehran, Iran
چکیده [English]
The development of information technology and its integration with natural language have made it possible to understand and generate linguistic content in an algorithmic manner. The existence of different research groups and their usage of different data and processing algorithms have made the results obtained from the tools not comparable. To address this shortcoming, in this article an attempt has been made to develop a benchmark corpus that is based on the approved Persian Orthography Rule to be used for evaluating the performance of Persian editing tools.
In the current research, after examining the approved Persian Orthography Rule, the proposed rules are divided into eight main categories. Then, a dataset of about 98000 words is collected and compared with the rules in two genres, namely scientific and news. A fraction of the words of this data is marked based on the eight categories; and the evaluation of the models is limited to these marked words only. In the current study, the performance of five editing tools, namely ViraVirast, FarsiYar, Virastman, Paknevis, and Gagool, is compared. Comparing the performance of the tools with the gold standard data, it is concluded that Paknevis has the highest performance with an average of %74.07 in the two scientific and news genres, and Gagool has the lowest performance with an average of %21.83 based on the approved Persian Orthography Rule. Finally, the performance of the tools is compared with each other in the eight categories to determine the strengths and weaknesses of the tools.
کلیدواژهها [English]
- Benchmark corpus
- Persian language
- approved Persian Orthography Rule
- editing tool
- linguistic corpus