نوع مقاله : مقاله پژوهشی

نویسندگان

1 پژوهشگاه علوم انسانی و مطالعات فرهنگی

2 گروه زبان و رایانه، فرهنگستان زبان و ادب فارسی، تهران، ایران

10.22054/ls.2025.88342.1747

چکیده

توسعۀ فناوری اطلاعات و عجین‌شدن آن با زبان طبیعی سبب شده‌است درک و تولید محتوای زبانی به‌صورت الگوریتمی میسر گردد. وجود گروه‌های پژوهشی مختلف و بهره‌گیری آنان از داده‌ها و الگوریتم‌های پردازشی مختلف سبب عدم مقایسه‌پذیری نتایج حاصل از عملکرد ابزارها شده‌است. برای رفع این کاستی در مقاله حاضر تلاش می‌شود یک پیکرۀ سنجه که منطبق با دستور مصوب خط و زبان فارسی است تهیه شود و از این پیکره برای ارزیابی توانایی ابزارهای ویراستاری فارسی استفاده گردد.
در انجام پژوهش حاضر، پس‌از بررسی دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی، اقواعد تعریف‌شده در دستور خط به هشت مقولۀ اصلی تقسیم می‌شود . سپس در دو ژانر علمی و خبری ، مجموعه داده‌ای درحدود ۹۸هزار واژه گردآوری شده و با دستور مصوب خط انطباق داده می‌شود. تعدادی از واژه‌های این داده براساس مقولات هشت‌گانه نشان‌دار شده و ارزیابی مدل‌ها فقط به واژه‌های نشان‌دارشده محدود می‌شود. در پژوهش حاضر عملکرد شش ابزار ویراویراست، فارسی‌یار، ویراست‌من، پاکنویس، ویراستیار، ویراستیار و گاگول مقایسه می‌گردد. از مقایسه عملکرد ابزارها با داده معیار طلایی این نتیجه به‌دست آمده‌است که ابزار پاکنویس با میانگین 74/07 درصد در دو ژانر علمی و خبری بالاترین کارایی و گاگول با میانگین 24/72 درصد پایین‌ترین میزان عملکرد خود در ویراستاری فارسی منطبق با دستور مصوب خط فارسی به‌دست آورده‌است. در انتها، عملکرد ابزارها در مقولات هشت‌گانه با یکدیگر مقایسه می‌گردد تا نقاط قوت و ضعف ابزارها مشخص شود.

کلیدواژه‌ها

موضوعات

عنوان مقاله [English]

Comparative analysis of editorial tools using a developed benchmark corpus based on the approved Persian Orthography Rule

نویسندگان [English]

  • Masood Ghayoomi 1
  • Lili Nezami 2

1 Institute for Humanities and Cultural Studies

2 Language and Computer Group, Academy of Persian Language and Literature, Tehran, Iran

چکیده [English]

The development of information technology and its integration with natural language have made it possible to understand and generate linguistic content in an algorithmic manner. The existence of different research groups and their usage of different data and processing algorithms have made the results obtained from the tools not comparable. To address this shortcoming, in this article an attempt has been made to develop a benchmark corpus that is based on the approved Persian Orthography Rule to be used for evaluating the performance of Persian editing tools.
In the current research, after examining the approved Persian Orthography Rule, the proposed rules are divided into eight main categories. Then, a dataset of about 98000 words is collected and compared with the rules in two genres, namely scientific and news. A fraction of the words of this data is marked based on the eight categories; and the evaluation of the models is limited to these marked words only. In the current study, the performance of five editing tools, namely ViraVirast, FarsiYar, Virastman, Paknevis, and Gagool, is compared. Comparing the performance of the tools with the gold standard data, it is concluded that Paknevis has the highest performance with an average of %74.07 in the two scientific and news genres, and Gagool has the lowest performance with an average of %21.83 based on the approved Persian Orthography Rule. Finally, the performance of the tools is compared with each other in the eight categories to determine the strengths and weaknesses of the tools.

کلیدواژه‌ها [English]

  • Benchmark corpus
  • Persian language
  • approved Persian Orthography Rule
  • editing tool
  • linguistic corpus