نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه زبان‌شناسی رایانشی، مرکز زبان‌ها و زبان‌شناسی، دانشگاه صنعتی شریف، تهران، ایران

2 گروه رایانه، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبائی، تهران، ایران

چکیده

هدف این پژوهش آن است که عملکرد چند روش‌ یادگیری ماشین را در دسته‌بندی اشعار فارسی به دو گروه تلمیح‌دار و بدون تلمیح، بررسی کند. برای این کار از روش‌های نظارت‌شده بیز ساده، ماشین بردار پشتیبان، درخت تصمیم، جنگل تصادفی، k نزدیک‌ترین همسایه، رگرسیون لجستیک و الگوریتم پرسپترون چندلایه استفاده می‌شود. پس از جمع‌آوری داده‌های برچسب‌خورده در قالب دو فایل متنی، هر کدام از ابیات به بردار عددی تبدیل می‌شوند و پس از ادغام داده‌ها و تقسیم آنها به دو دسته آموزش و آزمون، الگوریتم مدنظر بر روی داده‌های آموزشی پیاد‌ه‌سازی و بر روی داده‌های آزمون، آزمایش می‌گردد تا دقت عملکرد الگوریتم سنجیده شود. خروجی هر الگوریتم، برچسب پیش‌بینی شده توسط ماشین برای ابیات موردنظر است. شیوه ارزیابی الگوریتم‌‌ها نیز روش LOOCV می‌باشد. نتایج ارزیابی نشان می‌دهد که الگوریتم‌های بیز ساده با 76.09%، رگرسیون لجستیک با 76.09%، پرسپترون چند لایه با 75.22% و ماشین بردار پشتیبان با 74.35% نسبت به الگوریتم‌های دیگر عملکرد بهتری دارند. در مجموع و با توجه به سایر معیارها از جمله معیار اف-1 و زمان اجرا، می‌توان گفت که بهترین عملکرد مربوط به الگوریتم بیز ساده است.

کلیدواژه‌ها

عنوان مقاله [English]

The performance comparison of the basic machine learning algorithms in Persian poem classification into two categories: with allusion and without allusion

نویسندگان [English]

  • Parisa Mohammadian Kalkhuran 1
  • Mohammad Bahrani 2

1 Department of Computational Linguistics, Languages and Linguistics Center, Sharif University of Technology, Tehran, Iran

2 Department of Computer, Faculty of Statistics, Mathematics and Computer, Allameh Tabataba'i University, Tehran, Iran

چکیده [English]

The aim of this research is to survey the performance of several Machine Learning (ML) methods in Persian poem classification into two categories: with allusion and without allusion. To this end, several supervised learning methods are exploited, namely Naive Bayes, Support Vector Machines (SVM), Decision Tree, Random Forest, K-Nearest Neighbor (KNN), Logistic Regression and Multilayer Perceptron algorithms. After collecting the labeled data in format of two text files, each of the verses converted to numerical vector and after merging data and dividing it into two parts of training and testing, each algorithm is implemented on the train set, and is tested on the test set. Output of each algorithm is the predicted label for each verse by the machine. The evaluation method of the algorithms is LOOCV. The results show that Naive Bayes method with 76.09%, Logistic Regression with 76.09%, Multilayer Perceptron with 75.22% and the Support Vector Machines with 74.35% have better performance than the other algorithms. Overall, according to the other criteria such as f1-score and execution time, it can be said that the best performance is related to the Naive Bayes algorithm.

کلیدواژه‌ها [English]

  • Allusion
  • Persian poem
  • Text Classification
  • Machine Learning
  • Natural Language Processing