نوع مقاله : مقاله پژوهشی
نویسندگان
1 گروه زبانشناسی رایانشی، مرکز زبانها و زبانشناسی، دانشگاه صنعتی شریف، تهران، ایران
2 گروه رایانه، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبائی، تهران، ایران
چکیده
هدف این پژوهش آن است که عملکرد چند روش یادگیری ماشین را در دستهبندی اشعار فارسی به دو گروه تلمیحدار و بدون تلمیح، بررسی کند. برای این کار از روشهای نظارتشده بیز ساده، ماشین بردار پشتیبان، درخت تصمیم، جنگل تصادفی، k نزدیکترین همسایه، رگرسیون لجستیک و الگوریتم پرسپترون چندلایه استفاده میشود. پس از جمعآوری دادههای برچسبخورده در قالب دو فایل متنی، هر کدام از ابیات به بردار عددی تبدیل میشوند و پس از ادغام دادهها و تقسیم آنها به دو دسته آموزش و آزمون، الگوریتم مدنظر بر روی دادههای آموزشی پیادهسازی و بر روی دادههای آزمون، آزمایش میگردد تا دقت عملکرد الگوریتم سنجیده شود. خروجی هر الگوریتم، برچسب پیشبینی شده توسط ماشین برای ابیات موردنظر است. شیوه ارزیابی الگوریتمها نیز روش LOOCV میباشد. نتایج ارزیابی نشان میدهد که الگوریتمهای بیز ساده با 76.09%، رگرسیون لجستیک با 76.09%، پرسپترون چند لایه با 75.22% و ماشین بردار پشتیبان با 74.35% نسبت به الگوریتمهای دیگر عملکرد بهتری دارند. در مجموع و با توجه به سایر معیارها از جمله معیار اف-1 و زمان اجرا، میتوان گفت که بهترین عملکرد مربوط به الگوریتم بیز ساده است.
کلیدواژهها
عنوان مقاله [English]
The performance comparison of the basic machine learning algorithms in Persian poem classification into two categories: with allusion and without allusion
نویسندگان [English]
- Parisa Mohammadian Kalkhuran 1
- Mohammad Bahrani 2
1 Department of Computational Linguistics, Languages and Linguistics Center, Sharif University of Technology, Tehran, Iran
2 Department of Computer, Faculty of Statistics, Mathematics and Computer, Allameh Tabataba'i University, Tehran, Iran
چکیده [English]
The aim of this research is to survey the performance of several Machine Learning (ML) methods in Persian poem classification into two categories: with allusion and without allusion. To this end, several supervised learning methods are exploited, namely Naive Bayes, Support Vector Machines (SVM), Decision Tree, Random Forest, K-Nearest Neighbor (KNN), Logistic Regression and Multilayer Perceptron algorithms. After collecting the labeled data in format of two text files, each of the verses converted to numerical vector and after merging data and dividing it into two parts of training and testing, each algorithm is implemented on the train set, and is tested on the test set. Output of each algorithm is the predicted label for each verse by the machine. The evaluation method of the algorithms is LOOCV. The results show that Naive Bayes method with 76.09%, Logistic Regression with 76.09%, Multilayer Perceptron with 75.22% and the Support Vector Machines with 74.35% have better performance than the other algorithms. Overall, according to the other criteria such as f1-score and execution time, it can be said that the best performance is related to the Naive Bayes algorithm.
کلیدواژهها [English]
- Allusion
- Persian poem
- Text Classification
- Machine Learning
- Natural Language Processing