Content Analysis of Topics and Hashtags about the Coronavirus in Social Media

Ghayoomi, Masood

doi:10.22054/ls.2020.53557.1356

Content Analysis of Topics and Hashtags about the Coronavirus in Social Media

Document Type : Research Paper

Author

Masood Ghayoomi

Assistant Professor, Institute of Linguistics, Institute of Humanities and Cultural Studies, Tehran, Iran

10.22054/ls.2020.53557.1356

Abstract

Coronavirus pandemic caused changes in the daily lifestyle, such as reducing social interactions and creating social distancing. In this research, we pursue two goals. One is algorithmic content analysis of comments/posts in Persian related to the Coronavirus on two social media, namely Tweeter and Instagram. To this end, topic modeling is used as a method for content analysis to cluster the data into abstract topics. The other goal is finding the correlation between topics and hashtags in the comments/posts. To this end, we developed a corpus from these two social media. We found 24 abstract topics by algorithmic content analysis of this corpus and they were manually labeled to be comprehensive. According to the corpus and the statistical information of the extracted topics, it can be speculated that about 25% of the comments/posts in this corpus focused on political and social issues of the virus. 10 fine-grained topics which contained 35% of the comments were related to the Coronavirus itself and its pandemic property. This indicates the importance of the attention that has been paid to social media for informing and disseminating information. Furthermore, the hypothesis of existing correlation between topics and hashtags was studied from statistical point of view by using the Pearson correlation coefficient. For 20 topics, a high correlation score between topics and hashtags was found; but this correlation was not found for 4 topics. The outcome of this research can be used to increase the internal coherence of a text and to make the hashtags predictable.

Keywords

Full Text

مقدمه

با شروع دهۀ دوم قرن ۲۱ میلادی، یک بیماری ویروسی به نام کرونا[1] (کووید ۱۹[2]) از شرق آسیا شروع شد و به‌دلیل سرعت انتشار، در مدت‌زمان کوتاهی، خاورمیانه، ازجمله ایران را فراگرفت و سپس، به اروپا و آمریکا رسید. در تاریخ ۱۱ مارس ۲۰۲۰ (۲۱ اسفند ۱۳۹۸)، سازمان بهداشت جهانی همه‌گیری بیماری کرونا را اعلام کرد. یکی از ابتدایی‌ترین راهکارهایی که توسط دولت‌ها، در کشورهای مختلف، مورد تأکید قرار گرفت، پیشگیری از ابتلا به این بیماری، با ایجاد فاصله‌گذاری بین افراد جامعه به‌واسطۀ قرنطینۀ فردی و اجتماعی بود. ازآنجاکه ویژگی اجتماعی‌بودن در سرشت آدمی نهاده شده است، اعمال قرنطینه موجب شد‍ این سرشت انسانی با محدودیت روبه‌رو شود. برای رفع این خلأ، نوع دیگری از زندگی اجتماعی ظهور پیدا کرد و آن پررنگ‌شدن استفاده از ابزارهای نوین ارتباطی از طریق اینترنت بود. وجود رسانه‌های اجتماعی، مانند توییتر و اینستاگرام، موجب شد خلأهای ناشی از قرنطینه پر شود و کاربران نوع دیگری از زندگی را، در فضایی نزدیک به واقعیت، تجربه کنند. گذشت زمان و تولید حجم فراوانی از نظرات و پیام‎ها توسط افراد جامعه در این بستر موجب جلب توجه پژوهشگران به رسانه‌های اجتماعی شد. به‌طورکلی، به دو دلیل، تحلیل اطلاعات موجود در رسانه‌های اجتماعی از اهمیت بسزایی برخوردار است. دلیل اول این است که ماهیت این رسانه‌ها اطلاع‌رسانی است و از طریق آنها می‌توان به آخرین اخبار و تحولات دسترسی داشت؛ دلیل دوم این است که به‌دلیل آزادی بیان در این رسانه‌ها، امکان درج نظرات افراد مختلف جامعه، که به سطوح اجتماعی و فرهنگی متفاوت با گرایش‌های سیاسی مختلف تعلق دارند، وجود دارد. ازاین‌رو، بررسی حجمیِ نظرات اهمیت بسزایی دارد. در شرایط همه‌گیری بیماری کرونا، این اهمیت دوچندان می‌شود؛ زیرا می‌توان از این طریق، از نظرات افراد جامعه آگاه شد و در تصمیم‌گیری‌های کلان، از این نظرات استفاده کرد.

در این مقاله، می‌کوشیم مجموعۀ نظرات را به‌مثابۀ یک پیکرۀ زبانی در نظر بگیریم و با رویکرد پیکره‌محور[3] (Tognini-Bonelli, 2001: 84-85)، بدون هرگونه پیش‌داوری و فرضیه‌ای، به‌صورت الگوریتمی و خودکار، به تحلیل محتوایی نظرات بپردازیم. در راستای اهداف این پژوهش، تلاش می‎کنیم موضوعات انتزاعی را، که در نظرات کاربران فارسی‌زبان دربارۀ کرونا در دو رسانۀ اجتماعی توییتر و اینستاگرام نهفته است، بیابیم و با برچسب‌گذاری موضوعی نظرات، بتوانیم به اهم موضوعات موردتوجه کاربران این دو رسانۀ اجتماعی دست یابیم. سپس، با فرضیۀ وجود رابطۀ همبستگی بین موضوع و هشتگ‌های استفاده‌شده در این نظرات، وجود این رابطه را به‌صورت آماری مورد بررسی قرار دهیم.

در بخش دوم این مقاله، مبانی نظری و مروری بر پیشینۀ مطالعاتی متمرکز بر جنبۀ نظری تحلیل داده‌های رسانه‌های اجتماعی ارائه می‌شود. در بخش ۳، دربارۀ داده‌ها و ابزارهای موردنظر در پژوهش توضیح داده می‌شود. در بخش ۴، پیکرۀ گردآوری‌شده از رسانه‌های اجتماعی توییتر و اینستاگرام و ابزاری که برای تحلیل نظرات فارسی به کار رفته است معرفی می‌شود. بخش ۵، به تحلیل محتوایی موضوعات انتزاعی به‌دست‌آمده از این پیکره و هشتگ‌ها می‌پردازد. در آخر، در بخش ۶، جمع‌بندی و نتیجه‌گیری از نظرات تحلیل‌شده ارائه می‌‌شود.

۲. مدل‌سازی موضوعی

2 ـ1. مبانی نظری

سوسور[4] (۱۹۱۶) دو سطح «صورت» و «معنا» را برای زبان تعریف کرده است. این دو سطح واقعیتی روان‌شناختی است که پیوندشان در یک نظام مشخص موجب دربرگرفتن تمام جملات زبانی بیان‌شده توسط گویشور یک زبان می‌شود. «صورت» و «معنا» در این نظام، واحدهای زبانی، یعنی همان واژه‌ها، را ایجاد می‌کنند. این واحدهای زبانی، براساس روابط همنشینی، در چارچوب قواعد آن نظام مشخص، قابلیت ترکیب با یکدیگر را دارند تا واحدی بزرگ‌تر، یعنی جمله، را بسازند. «صورت» می‌تواند از ذهن، به دو شکل امواج صوتی و نوشتار، تجلی عینی پیدا کند، به این صورت که امواج صوتی از طریق شنیدار و نوشتار از طریق دیدار در نظام ارتباطی منتقل می‌شوند. ازآنجاکه داده در رایانه به یکی از چهار شکل صوتی، متنی، تصویری و عددی تظاهر می‎یابد، خط، در حوزۀ رایانه، به‌عنوان دادۀ متنی تلقی می‌شود و بیانگر نوعی تجلی بصری از زبان است؛ بنابراین، با پردازش ماشینی داده، می‌توان به «معنی»، که جنبۀ انتزاعی دارد، دست یافت.

هر متن، که از ترکیب جملات در نظام مشخص زبانی شکل می‌گیرد، از مجموعه‌موضوعات محدودی ساخته شده است که به‌صورت الگوریتمی، می‌توان به این موضوعات دست یافت. یکی از الگوریتم‌های مورداستفاده، برای تحلیل محتوایی متن، «مدل‌سازی موضوع»^[5] است که توسط پاپادیمیتریو و همکاران[6] (2000) معرفی شده است. این الگوریتم معمولاً در متن‌کاوی‌هایی[7] به کار می‌رود که، همانند پژوهش حاضر، به دنبال کشف ساختار معنایی پنهان متن هستند. این الگوریتم بر این اساس شکل گرفته که هر متن از چند موضوع انتزاعی تشکیل شده است و هر مجموعه از واژه‌های خاص منجر به شکل‌گیری یک موضوع می‌شود؛ بنابراین، با یافتن واژه‌هایی که از نظر معنایی به یکدیگر شباهت دارند، می‌توان متن را به موضوع‌های انتزاعی خوشه‌بندی[8] کرد؛ برای مثال، یک موضوع اقتصادی از واژه‌هایی مانند «چک»، «واریز»، «بانک»، «پول» و «تورم» شکل می‌گیرد و واژه‌هایی مانند «جناح»، «حزب»، «اصول‌گرا»، «میانه‌رو» و «اصلاح‌طلب» یک موضوع سیاسی را تشکیل می‌دهند.

پاپادیمیتریو و همکارانش «مدل‌سازی موضوع» را براساس جبر خطی پیشنهاد دادند، ولی هوفمن[9] (۱۹۹۹) یک مدل احتمالاتی برای این هدف تهیه کرد. بلای و همکاران[10] (۲۰۰۳) مدل احتمالاتی مطرح‌شده را تعمیم دادند و مدلی از الگوریتم «مدل‌سازی موضوع» ارائه کردند که به «تخصیص دریشله پنهان»^[11] معروف است. این الگوریتم یک مدل آماری زایشی است که در اصل، «توزیع اولیۀ دریشله»^[12] بوده است و برای توزیع احتمالاتی متن‌ـ‌موضوع و موضوع‌ـ‌واژه به کار می‌رود. هر واژه در یک متن، براساس توزیع اولیۀ دریشله، با یک موضوع مرتبط است و هر موضوع نیز، براساس توزیع چندگانۀ واژه‌هایی که با یک موضوع در ارتباطند، بازنمایی می‌شود.

در شکل (۱) مدل «تخصیص دریشله پنهان» نشان داده شده است که متشکل از دو ماتریس φ و θ است. در این مدل، φ ماتریسی است که توزیع موضوع T بر روی واژه‌های W را، براساس توزیع اولیۀ دریشله با پارامتر β بیان می‌دارد. θ ماتریسی است که توزیع متن d بر روی موضوع‌های T را براساس توزیع اولیۀ دریشله با پارامتر α بیان می‌کند. برای زایش هر واحد واژگانی w در متن d، یک موضوع z از توزیع موضوعی مربوط به متن θ_d به دست می‌آید؛ درحالی‌که خود آن واژۀ w از توزیع واژه‌های موضوع انتخاب‌شدۀ φ_z به دست می‌آید.

شکل ۱. نمایش تصویری مدل «تخصیص دریشله پنهان»

برای استخراج موضوعات با مدل «تخصیص دریشله پنهان»، نیاز است دو توزیع φ و θ تخمین زده شود تا اطلاعات دربارۀ توزیع متن نسبت به موضوعات و موضوعات نسبت به متن به دست آید. برای تخمین این دو، الگوریتم‌های مختلفی پیشنهاد شده است، مانند انتشار انتظار (Minka & Lafferty, 2002)، استنباط تغییرات (Blei et al., 2003) و نمونه‌گیری گیبس[13] (Griffiths & Steyvers, 2004). از میان این الگوریتم‌ها، نمونه‌گیری گیبس، به‌عنوان یک رویکرد ساده و مؤثر، برای این هدف مورد استفاده قرار می‌گیرد.

در نمونه‌گیری گیبس، احتمال انتخاب یک موضوع برای یک واژه در یک متن به واژۀ قبلی و دو واژۀ قبلی در بافت و موضوعاتی که به آن موضوعات تخصیص داده می‌شود مشروط شده است که با استفاده از تساوی (۱) محاسبه می‌شود:

در این تساوی، w_i = w نشان می‌دهد که i‌امین واژه در متن، واژۀ w است و z_i = t نشان می‌دهد که واژۀ w به موضوع t تخصیص داده شده است. w_−i و z_−i بیانگر تمام واژه‌ها و تمام موضوعات تخصیص‌داده‌شده به‌جز واژۀ iامین است. تعداد دفعاتی که واژۀ w به موضوع t تخصیص داده شده است، به‌جز درنظرگرفتن آمار واژۀ کنونی. تعداد دفعاتی است که موضوع t به متن d تخصیص داده شده است به‌جز موضوع کنونی. با استفاده از نمونه‌گیری گیبس، برای هر یک از نمونه‌های این مدل، φ و θ در تساوی (۲) و (۳) محاسبه می‌شود:

2)
3)

که در این تساوی، φ_wt احتمال کاربرد واژۀ w در موضوع t است و θ_td احتمال کاربرد موضوع t در متن d است.

در این پژوهش، تلاش می‌شود ساختار معنایی نهفته در متن، با استفاده از الگوریتم «مدل‌سازی موضوع»، به دست آید و پس از این تحلیل اولیۀ خودکار، به فراتحلیل آن توسط انسان خبره پرداخته شود.

2ـ2. مروری بر مطالعات گذشته

در پژوهش‌های متنوعی، از مدل‌سازی موضوع برای کاربردهای مختلفی استفاده شده است که بررسی همگی آنها در این مقاله ممکن نیست. آنچه به‌اختصار توضیح داده می‌شود متمرکز بر استفاده از مدل‌سازی موضوع در حوزۀ بیماری کروناست. دونگ و همکاران[14] (۲۰۲۰) به تحلیل بیش از ۳۵ هزار مقالۀ علمی در حوزۀ کرونا پرداخته‌اند تا بتوانند موضوعات داغ مرتبط با کرونا را بیابند. آنها در این پژوهش،با استفاده از مدل‌سازی موضوع، ۸ موضوع را به‌عنوان هدف تعریف کرده‌اند. سپس، به تحلیل رابطۀ معنایی بین موضوعات پرداخته‌اند و توزیع موضوعات بین کووید 19 و سایر بیماری‌های خانوادۀ کرونا، مانند سارس، را بررسی کرده‌اند.

سونبهادرا و همکاران[15] (2020) در پژوهش خود تلاش کرده‌اند با استفاده از الگوریتم‌های خوشه‌بندی پارامتری مانند k-means و غیرپارامتری مانند DBSCAN و HAC، موضوعات داغ را از مقالات علمی مربوط به بیماری‌های سارس، مرس و کرونا استخراج کنند. در این پژوهش، پس از خوشه‌بندی داده‌ها، از دسته‌بند[16] برای برچسب‌گذاری سایر مقالات علمی به یک برچسب استفاده کرده‌اند. داده‌ای که در این پژوهش مورد استفاده قرار گرفته است دادگان کورد-19[17] است. این دادگان حاوی ۴۵ هزار مقاله دربارۀ این سه بیماری است که برای ۳۳ هزار مورد، مقالۀ کامل موجود است[18]. برای آموزش خوشه‌بند، به بازنمایی برداری داده نیاز است که برای این هدف، بردار متن مقالات موردنظر، به‌وسیلۀ الگوریتم داک 2وک[19] تهیه شده و برای تشابه‌یابی، از فاصلۀ کسینوسی استفاده شده است.

عبدالرزاق و همکاران[20] (۲۰۲۰) به تحلیل موضوعات مهم رسانۀ اجتماعی توییتر دربارۀ بیماری کرونا پرداخته‌اند. داده‌ای که برای این پژوهش استفاده شده است نظرات افراد در رسانۀ اجتماعی توییتر، به زبان انگلیسی، در بازۀ زمانی ۲ فوریه تا ۱۵ مارس ۲۰۲۰ است. در این بازۀ زمانی، حدود 5/2 میلیون توییت جمع‌آوری شده است که حجم زیادی از آنها بازنشر بوده و فقط حاوی حدود ۱۶۷ هزار توییت یکتا[21] است. آنها علاوه بر استخراج موضوعات از توییت‌ها با کمک مدل‌سازی موضوع، به تحلیل احساسات نظرات و تحلیل‌های آماری مانند متوسط بازنشر نظرات، علاقه‌مندی[22] نظرات و دنباله‌رو[23] موضوعات نیز پرداخته‌اند. در این پژوهش تعداد ۱۲ موضوع برای خوشه‌بندی داده‌ها در نظر گرفته شده است. مهم‌ترین موضوع در بین کاربران که بیشترین علاقه‌مندی را به خود اختصاص داده است «ضررهای اقتصادی» بوده و کمترین علاقه‌مندی مربوط به موضوع «محدودیت سفر و هشدارها» بوده است.

اوردون و همکاران[24] (۲۰۲۰) از سه روش «همانندیابی الگو»^[25]، «تخمین و برآورد زیاد یکنواخت»^[26] و مدل‌سازی موضوع، برای استخراج موضوعات استفاده کرده‌اند. سپس، به تحلیل آماری اطلاعات موجود در نظرات، مانند علاقه‌مندی به موضوعات، ارتباط بین کاربرها و سرعت بازنشر نظرات در قالب یک نقشۀ تصویری در طی زمان، پرداخته‌اند. در این پژوهش، نظرات انگلیسی کاربران توییتر، در بازۀ زمانی ۲۴ مارس تا ۹ آوریل ۲۰۲۰، جمع‌آوری شده که مجموعاً حاوی بیش از ۲۳ میلیون توییت و بیش از ۵ میلیون توییت یکتاست. داده‌های این پژوهش به ۲۰ موضوع خوشه‌بندی شده است. یکی از یافته‌ها این بوده است که با افزایش زمان بازنشر توییت، چگالی ارتباط‌ها نیز افزایش یافته و کاربران مشخصی کانون توجه بازنشر توییت‌های مربوط به بیماری کرونا را تحت تأثیر قرار می‌دهند.

کایلا و پراساد[27] (۲۰۲۰)، از نگاه «جریان اطلاعات»[28]، به بررسی نظرات توییتر انگلیسی و راستی‌آزمایی نظرات با استفاده از مدل‌سازی و تحلیل احساسات موضوع پرداخته‌اند. برای این هدف، ۱۸ هزار توییت بدون هرگونه بازنشر، به‌صورت تصادفی، انتخاب شده است. سپس، ۱۰ موضوع از این داده استخراج شده و به‌صورت خودکار، ۸ نوع برچسب تحلیل احساسات برای این حجم داده تخصیص داده شده است. موضوعات استخراج‌شده منعکس‌کنندۀ واقعیات از جامعه در بازۀ زمانی توییت‌های جمع‌آوری‌شده بوده است. «ترس» و «اعتماد به مسئولان» بالاترین بسامد تحلیل احساسات را داشته است. نتیجه‌گیری این مقاله این بوده است که نظرات ارائه‌شده در توییتر اهمیت دارد و مسئولان می‌توانند از تحلیل نظرات برای تصمیم‌گیری استفاده کنند.

روش پژوهش

3ـ1. داده

این پژوهش بر تحلیل محتوایی نظرات کاربران در دو رسانۀ اجتماعی توییتر و اینستاگرام متمرکز است. ازآنجاکه تعداد نظراتی که روزانه از کاربران اینترنتی در این دو رسانه انتشار می‌یابد بسیار زیاد است، گردآوری این نوع داده به‌صورت دستی ممکن نیست. به همین دلیل، برای افزایش دقت و کاهش هزینه و تلاش نیروی انسانی در جمع‌آوری این نوع دادۀ خاص، از روش «خزش در وب»[29] استفاده می‌شود که به‌اختصار، خزش[30] نامیده می‌شود.

در فرایند خزش، ابتدا به‌صورت نظام‌مند، گسترۀ جهانی اینترنت پیمایش می‌شود و سپس، با یافتن اطلاعات موردنظر از وب، دادۀ خروجی در قالب ساختار مشخص موردنظر ذخیره می‌شود. بایلی و همکاران[31] (۲۰۰۳: ۴) دو شیوۀ کلی برای خزش معرفی کرده‌اند. یکی «خزش پیوندی»[32] است که با پیمایش گراف پیوند صفحات وب و شروع از مجموعه‌ای از نقاطِ آغاز، کار شناسایی و اتصال صفحات وب که معمولاً برای فهرست‌بندی استفاده می‌شود انجام می‌پذیرد. نوع دیگر «خزش محتوایی»[33] است که با کمک خزش پیوندی، براساس محتوای اسنادی که صفحات وب را تشکیل می‌دهند، انجام می‌گیرد. چایترا و همکاران[34] (۲۰۱۸) خزش را به سه دسته تقسیم کرده‌اند:
الف) خزشگر متمرکز[35] که به‌صورت انتخابی، صفحات وب مرتبط با موضوع موردنظر را می‌کاود؛ ب) خزشگر افزایشی[36] که با بازدید مکرر صفحات وب، اطلاعات به‌روزشده در آن صفحات را پیدا و به‌روزرسانی می‌کند؛ ج) خزشگر توزیعی[37] که در این شیوه، فرایند خزش توسط یک سرور مرکزی به سایر خزشگرها محول می‌شود.

3ـ2. مدل‌سازی موضوع در داده‌های رسانه‌های اجتماعی

برای پردازش داده و استخراج موضوعات از داده‌ها به ابزار پردازشی نیاز است. برای این هدف، از ابزار مالت[38] (McCallum, 2002) استفاده می‌کنیم. مالت یک بستۀ نرم‌افزاری است که به زبان برنامه‌نویسی جاوا[39] نوشته شده و برای پردازش‌های آماری زبان طبیعی، مانند دسته‌بندی[40]، خوشه‌بندی، مدل‌سازی موضوع و «استخراج اطلاعات»[41]، به کار می‌رود. در این ابزار، روش نمونه‌گیری گیبس در الگوریتم تخصیص دریشله پنهان، که در مدل‌سازی موضوع استفاده می‌شود، پیاده‌سازی شده است. در این پژوهش، از ابزار مالت برای استخراج موضوع‌ها از داده‌های فارسی حاصل از رسانه‌های اجتماعی استفاده می‌کنیم.

خروجی الگوریتم مدل‌سازی موضوع دو ماتریس φ و θ است. در ماتریس φ، سطرها معرف موضوع‌ها و ستون‌ها نشان‌دهندۀ واژگان است. هر سطر حاوی ۲۰ واژه‌ای است که بالاترین توزیع احتمالاتی را نسبت به موضوع انتزاعی مرتبط با آن سطر دارد؛ در ماتریس θ، سطرها معرف نظرات شبکۀ اجتماعی و ستون‌ها معرف موضوع‌هاست و هر سطر حاوی توزیع احتمالاتی موضوعات انتزاعی نظرات مربوط است. ازآنجاکه الگوریتم مدل‌سازی موضوع جزء الگوریتم‌های پارامتری محسوب می‌شود، نیاز است تعداد موضوعات از ابتدای فرایند خوشه‌بندی مشخص شود. خروجی به‌دست‌آمده از این ابزار یک «خوشه‌بندی نرم»[42] است؛ به این مفهوم که توزیع احتمالاتی هر نظر به تعداد موضوعات انتزاعی مشخص‌شده محاسبه می‌شود.

3ـ3. کاربرد هشتگ در داده‌های رسانه‌های اجتماعی

می‌دانیم نظرات منتشرشده در رسانه‌های اجتماعی، علاوه بر خود نظر، حاوی یک برچسب محتوایی است که با علامت # شروع و به‌اصطلاح، «هشتگ[43]» نامیده می‌شود. معمولاً بین محتوای متن و هشتگ‌های استفاده‌شده ارتباط محتوایی وجود دارد. ازآنجاکه نظرات در رسانه‌های اجتماعی کوتاه است، بافت کامل برای جملات نوشته‌شده وجود ندارد تا یک متن منسجم شکل بگیرد. این هشتگ‌ها کار فراداده[44] را انجام می‌دهند و در تکمیل اطلاعات زبانی اثر دارند. از ترکیب نظرات و این هشتگ‌ها تا حدودی انسجام درونی متن و محتوا شکل می‌گیرد. تسور و راپوپورت[45] (۲۰۱۲) از بررسی محتوایی هشتگ‌ها برای پیش‌بینی توزیع نظرات در جامعه استفاده کرده‌اند. گوراجالا و متیوس[46] (۲۰۱۸) تحلیل هشتگ‌های توییتر را برای فهمیدن عکس‌العمل جامعه به کیفیت هوا به کار برده‌اند. در این پژوهش، از نظرات توییتر در یک بازۀ زمانی دوساله استفاده شده است تا همبستگی بسامد اعلام نظرات و کیفیت هوا، در سه شهر پاریس، لندن و دهلی‌نو، سنجیده شود.

با نگاهی به مجموعه‌نظرات رسانه‌های اجتماعی، می‌توان به این فرضیه رسید که بین نظرات و هشتگ‌ها نوعی همبستگی وجود دارد. یکی از روش‌های آماری برای محاسبۀ همبستگی، «ضریب همبستگی پیرسون»^[47] است. همبستگی یک شیوۀ آماری است که برای مقایسۀ دو متغیر کمّی پیوسته استفاده می‌شود. در همبستگی، شدت پیوستگی دو متغیر سنجیده می‌شود. این ضریب عددی بین ۱ تا 1- است. اگر ضریب همبستگی پیرسون عدد ۱ باشد، بیانگر رابطۀ مستقیم بین دو متغیر است؛ به این مفهوم که با هرگونه تغییر در یک متغیر، متغیر دیگر نیز تغییر می‌کند. چنانچه این ضریب عدد 1- باشد، رابطۀ معکوس بین دو متغیر وجود دارد که با افزایش یک متغیر، متغیر دیگر کاهش می‌یابد. اگر این ضریب صفر باشد بیانگر عدم وجود رابطۀ خطی بین این دو متغیر است (Boddy & Smith, 2009: 92-94). از تساوی (۴) برای محاسبۀ ضریب همبستگی پیرسون استفاده می‌شود:

که در این تساوی، N تعداد جفت‌های موردنظر برای مقایسه است، xy∑ مجموع تعداد توالی جفت‌های موردنظر است، x∑ مجموع تعداد متغیر x و y∑ مجموع تعداد متغیر y است، x²∑ مجموع مجذور تعداد متغیر x و y²∑ مجموع مجذور تعداد متغیر y است.

در این پژوهش، می‌کوشیم بر زبان فارسی متمرکز شویم و ضمن استخراج موضوع‌ها از میان نظرات و پیام‎های مرتبط با کرونا به زبان فارسی در رسانه‌های اجتماعی، به بررسی همبستگی رابطۀ موضوع‌ها و هشتگ‌ها نیز بپردازیم. برای تحلیل هشتگ‌ها، از ضریب همبستگی پیرسون میان موضوع‌ها و هشتگ‌ها استفاده می‌کنیم. در این راستا، هر موضوع با برداری به ابعاد تعداد نظرات نمایش داده می‌شود و همچنین، هر هشتگ نیز با برداری با همین ابعاد نشان داده می‌شود. برای این منظور، تعداد ۲۴ موضوع و ۲۰۱ هشتگ در نظر گرفته شده است. معیار انتخاب تعداد هشتگ‌ها بسامدشان است؛ به این صورت که هشتگ‌های دارای بسامد بالای ۱۰۰ برای این منظور انتخاب شده‌اند. با داشتن این بردار برای هریک از موضوعات و هشتگ‌ها، ضریب همبستگی پیرسون استخراج می‌شود و از این میان، زوج موضوع‌ـ‌و‌ـ‌هشتگ‌هایی که همبستگی بالا دارد گزارش و تحلیل می‌شود.

۴. گردآوری داده‌های پژوهش

برای انجام هر پژوهش زبان‌شناختی، به پیکرۀ زبانی نیاز است. قیومی (1393) فهرستی از پیکره‌های زبانی موجود برای زبان فارسی را معرفی کرده و به مشکل واژگان خارج و چالش سامانه‌های پردازش زبان پرداخته است. این مشکل، در شرایطی که واژه‌ها و اصطلاحات جدید مربوط به کرونا وارد زبان شده، حادتر است؛ چراکه معمولاً سامانه‌های پردازش زبان با پیکره‌های موجود آموزش دیده‌اند و به‌دلیل عدم به‌روزبودن پیکره‎ها، واژه‌ها و اصطلاحات جدید در این پیکره‌های موجود یافت نمی‌شود. ازآنجاکه مقالۀ حاضر بر بیماری کرونا متمرکز است، پیکره‌های عمومی معرفی‌شده کارکرد لازم را ندارد؛ بنابراین، نیاز است یک پیکرۀ تخصصی در این حوزه تهیه شود.

این پیکرۀ زبانی از طریق خزش در نظرات و پیام‎های کاربران رسانه‌های اجتماعی اینستاگرام و تلگرام تهیه شده است. شیوه‌ای که برای خزش این دو رسانۀ اجتماعی استفاده شده از نوع خزش افزایشی است. داده‌های به‌دست‌آمده از طریق خزش، بدون هرگونه ساختارمندی و به‌منظور داشتن قابلیت کاربرد در یک پژوهش، نیاز است ضمن ساختارمندسازی، نوفه داده کاهش یابد. ازاین‌رو، در مرحلۀ پیش‌پردازش، چندین اقدام انجام شده است که در ادامه، مراحل آن توضیح داده می‌شود. لازم به ذکر است از مجموعه‌نظراتی که در رسانه‌های اجتماعی منتشر می‌شود، از نظر زبانی و محتوایی، بسیار متنوع است. باتوجه‌به اهداف این پژوهش، نظرات و پیام‎های خزش‌شده مرتبط با موضوع کرونا که به زبان فارسی بوده‌اند، به‌عنوان پیکرۀ زبانی موردنیاز در این پژوهش، استفاده می‌شود. شایان‌ذکر است وجود واژه‌هایی که غلط املایی داشته باشند و یا به گونۀ زبانی محاوره‌ای یا گویشی نوشته شده باشند دور از انتظار نیست و از این نظر، تغییری در دادۀ اصلی ایجاد نکرده‌ایم تا داده طبیعی به نظر برسد.

4ـ1. مراحل پیش‌پردازش

4ـ1ـ1. ساختارمندسازی داده

به‌منظور ساختارمندسازی دادۀ زبانی، قیومی (1398) چندین ساختار را معرفی کرده و باتوجه‌به نیاز، کار ساختارمندسازی داده را انجام داده است (قیومی، ۱۳۹۸). دادۀ گردآوری‌شده از نظرات کاربران در شبکه‌های اجتماعی حاوی ۶ ستون است. ستون اول حاوی نمایۀ پیام است؛ ستون دوم و سوم حاوی منبع و تاریخ انتشار نظر است؛ ستون چهارم حاوی اطلاعات درمورد بازنشر نظر است و در ستون پنجم، نام حساب کاربری فرد در رسانۀ اجتماعی‌ که نظری را بازنشر کرده ذکر شده است؛ و در نهایت، ستون ششم حاوی محتوای نظر است.

4ـ1ـ2. بهنجارسازی

نظرات خزش‌شده از رسانه‌های اجتماعی چند مشکل اساسی دارد که کاربردی‌شدن آن را با چالش مواجه می‌کند. اول اینکه تنوع در تلفن‌های هوشمند سبب شده است کدگذاری‌های متون یکدست نباشد؛ بنابراین، نیاز است نظرات، از نظر کد، یکدست‌سازی شوند و همگی به کد استاندارد UTF8 تبدیل گردند. ناگفته نماند این نوع یکدست‌سازی موجب می‌شود تنوع در حروف، مانند «ک»، «ی» یا «ے» عربی، از بین برود. مشکل دیگر این نوع داده استفاده از شکلک[48] در متن نظرات و گاهی به‌عنوان خود نظر است. در این پژوهش، به‌صورت دستی، کد هریک از این شکلک‌ها شناسایی شد و از محتوای نظرات حذف شد.

۴ـ1ـ3. واحدسازی

رعایت فاصله‌گذاری بیرونی بین واژه‌ها و درج نیم‌فاصلۀ درونی در یک واژه یکی از چالش‌های بسیار مهم در تشخیص واژه است که بر کیفیت شیوه‌های پردازش زبان طبیعی مبتنی بر آمار تأثیر می‏گذارد. برای مثال، عدم رعایت فاصله‌گذاری صحیح سبب می‌شود رایانه زنجیرۀ «ویابهتراست» را به‌عنوان یک واژه تلقی کند، زیرا برای رایانه، فاصلۀ بین واژه‌ها به‌عنوان معیار تشخیص یک واژه تعریف شده است. عکس این موضوع نیز صادق است، مانند «دانش‌آموز» که به‌دلیل وجود فاصلۀ کامل به‌جای نیم‌فاصله، به‌عنوان دو واژه شمارش می‌شود. برای کاهش این مشکلات در انجام این پژوهش، از الگوریتم معرفی‌شده توسط قیومی (1397) برای واحدسازی[49] متن استفاده کرده‌ایم. این الگوریتم سه‌مرحله‌ای است. در مرحلۀ اول، کار تفکیک چندواحدی‎ها به واژه‏های مستقل یا ترکیب وندها با پایه‎ها در متن صورت می‎پذیرد. در مرحلۀ دوم، به واحدسازی فعل پرداخته می‏شود و صورت‎های صرفی فعل با یکدیگر ترکیب می‎شوند. در مرحلۀ سوم، امکان ساخت واحدهای واژگانی از زنجیره‎های چندواحدی میسر می‎شود؛ این واحدها در مرحلۀ اول از یکدیگر تفکیک شده‌اند و ترکیب آنها با یکدیگر می‏تواند به ساخت یک واحد واژگانی منجر شود. نتایج عملی گزارش‎شده که روی واحدسازی پیکرۀ آزمونی، با نمونه‎گیری تصادفی از پایگاه دادۀ زبان فارسی (عاصی، 1384)، تهیه شده حاکی از صحت^[50]80/97 درصد در واحدسازی و میزان 02/0 درصد تولید خطا توسط الگوریتم معرفی‎شده است.

4ـ2. پیکرۀ نظرات کرونا

برای تهیۀ «پیکرۀ نظرات کرونا» از نظرات کاربران فارسی‌زبان دو رسانۀ اجتماعی اینستاگرام و توییتر، پس از جمع‌آوری تمامی نظرات در بازۀ زمانی ۳۰ بهمن ۱۳۹۸ تا ۳۱ خرداد ۱۳۹۹، واژۀ «کرونا» به زبان فارسی در این مجموعه‌داده جستجو شد. نظراتی که حاوی این واژه بود استخراج شد و با ساختارمندسازی و ذخیره‎سازی آن، به‌عنوان پیکرۀ زبانی هدف در این پژوهش مورد استفاده قرار گرفت. در جدول (۱)، اطلاعات آماری استخراج‌شده از این مجموعه‌داده گزارش شده است.

جدول ۱. اطلاعات آماری استخراج‌شده از «پیکرۀ نظرات کرونا»

اطلاعات آماری	مقدار
نسبت نظرات بازنشرشده	58/0
نظرات بازنشرشده	۱۳۴٫۹۳۵
تنوع هشتگ‌ها	19/0
هشتگ‌های بدون تکرار	۵۴٫۳۸۳
هشتگ‌های با تکرار	۲۹۳٫۱۵۲
تنوع واژگانی	032/0
واژه‌های بدون تکرار	۲۱۶٫۱۸۲
واژه‌های با تکرار	۶٫۶۸۶٫۲۴۴
تعداد نظرات	۲۳۳٫۵۵۷

همان گونه که در جدول (۱) مشاهده می‌شود، حجم زیادی از نظرات درحقیقت بازنشر نظرات دیگران است. این ویژگی موجب کاهش تنوع واژگانی شده است؛ بنابراین، نیاز است نظرات بازنشرشده حذف شوند. در جدول (۲)، اطلاعات آماری «پیکرۀ نظرات کرونا»، بدون درنظرگرفتن نظرات بازنشرشده، گزارش شده است. با حذف نظرات بازنشرشده، حدود نیمی از نظرات کنار گذاشته شد و در این پژوهش مورد استفاده قرار نگرفت. همچنین، حذف این نظرات به افزایش تنوع واژگانی و تنوع هشتگ‌ها منجر شد. ‍

جدول ۲. اطلاعات آماری استخراج‌شده از «پیکرۀ نظرات کرونا» بدون نظرات بازنشرشده

تنوع هشتگ‌ها

هشتگ‌ها

ی بدون تکرار

هشتگ‌های

با تکرار

تنوع واژگانی

واژه‌های بدون تکرار

واژه‌های

با تکرار

تعداد

نظرات

16/0

۳۰٫۵۶۱

۱۹۰٫۵۱۱

053/0

۱۷۹٫۰۰۴

۳٫۳۸۴٫۹۳۸

۹۹٫۸۱۳

۵. نتایج به‌دست‌آمده

5ـ1. تنظیمات آزمایش‌ها

هدف این پژوهش، تحلیل محتوایی نظرات کاربران رسانه‌های اجتماعی و یافتن اهم موضوعاتی است که در نظرات آنها انعکاس داده شده است. علاوه بر یافتن موضوعات، وجود رابطۀ همبستگی بین موضوع نظرات و هشتگ‌های تخصیص‌داده‌شده نیز بررسی خواهد شد.

برای ارائۀ آمار نظرات از تحلیل موضوعات این پژوهش، که در بخش 5‌ـ2 توضیح داده می‎شود، نیاز است «خوشه‌بندی نرم» ارائه‎شده توسط الگوریتم مدل‌سازی موضوعی را به «خوشه‌بندی سخت»[51] تبدیل کنیم؛ به این مفهوم که برای هر متن، فقط یک موضوع انتزاعی تعیین شود. معیار انتخاب موضوع انتزاعی کاندید، موضوعی است که بالاترین احتمال را برای آن متن دارد. در مرحلۀ بعد، نیاز است موضوع‌های انتزاعی، که به‌واسطۀ مجموعۀ ۲۰ واژه‎ای در فایل φ الگوریتم مدل‎سازی موضوع مشخص و معرفی شده‌اند، توسط یک انسان خبره، به‎صورت دستی، فراتحلیل شود و هویت آن موضوع، با یک برچسب محتوایی، مشخص گردد. شایان‌ذکر است در بخش 5ـ3، جایی که همبستگی موضوعات و هشتگ‌ها ارائه می‌شود، خوشه‌بندی نرم در بررسی انجام‌شده مورد استفاده قرار می‌گیرد.

5ـ2. نتایج تحلیل موضوعی

در این پژوهش، دادۀ ورودی ابزار مالت، پیکرۀ نظرات کروناست. تعداد موضوعاتی که نیاز است برای ابزار مالت تنظیم شود، به‌صورت تجربی، تعداد ۲۴ موضوع براساس پیکرۀ موجود تعیین شد تا موضوع‌های انتزاعی استخراج شوند. سپس، براساس ۲۰ واژۀ هر موضوع، به‌صورت دستی، برچسب هر موضوع مشخص شد. در جدول (۳)، مجموعۀ برچسب موضوع‌ها، توزیع آماری هر موضوع و ۵ واژه‌ای که بیانگر آن موضوع است گزارش شده‌اند.

جدول 3. موضوعات استخراج‌شده از پیکرۀ کرونا

واژه‌های موضوع	برچسب موضوعی	درصد نسبی نظرات	بسامد نظرات	ردیف
حکومت، ملت، انتخابات، اتحاد، دشمن	سیاسی‌ـ‌داخلی	36/14	۱۴۳۳۴	۱
خودکشی، زندگی، عادی، مسافرت، رعایت	اجتماعی	20/10	۱۰۱۷۶	۲
خونه، کار، مامانم، بیدار، دوست، زنگ	خانواده	51/6	۶۵۰۱	۳
ستاد، وضعیت، مدیریت، بحران، شرایط	مدیریت بحران	99/5	۵۹۷۴	۴
دعا، حرم، نماز، دین، اسلام	مذهبی	96/5	۵۹۴۹	۵
مبتلایان، تعداد، ابتلا، افزایش، قربانیان	اخبار داخلی کرونا	11/5	۵۱۰۱	۶
سگ، خر، الاغ، نفهم، بی‌شعور	توهین‌آمیز	82/4	۴۸۱۳	۷
آمریکا، اروپا، تجهیزات، غرب، تحریم	اخبار بین‌الملل کرونا	84/3	۳۸۳۷	۸
قرنطینه، رعایت، جلوگیری، انتقال، قطع	فاصله‌گذاری اجتماعی	74/3	۳۷۳۰	۹
ماسک، ویروس، الکل، ضدعفونی، دستکش	بهداشتی	73/3	۳۷۲۵	۱۰
دلار، پول، قیمت، نفت، بازار	اقتصادی	70/3	۳۶۹۸	۱۱
ترامپ، جهان، جنگ، رژیم، حمله	سیاسی‌ـ‌خارجی	48/3	۳۴۷۲	۱۲
سال، عید، مبارک، تبریک، شادی	نوروز	42/3	۳۴۱۱	۱۳
آزمایش، مشکوک، مثبت، بستری، علائم	تشخیص کرونا	10/3	۳۰۹۱	۱۴
واکسن، داروی، کشف، تست، کیت	درمان	05/3	۳۰۴۵	۱۵
بیمارستان، کادر، مبارزه، پزشکان، سلامت	پزشکی	81/2	۲۸۰۰	۱۶
حرف، دروغ، توییت، جواب، گوش	داستانک	80/2	۲۷۹۶	۱۷
هرات، ولایت، صحت، کابل، #هرات_‌در_‌‌بحران	افغانستان	54/2	۲۵۳۸	۱۸
#کرونا_‌‌را_‌شکست‌_‌‌می‌دهیم، #ویروس، #کرونادرایران، #در_‌خانه_‌‌‌بمانیم، #قرنطینه	پویش و هشتگ‌های کرونایی	27/2	۲۲۶۶	۱۹
فیلم، برنامه، نمایش، تیم، #موسیقی	سرگرمی	05/2	۲۰۴۳	۲۰
زندان، زندانیان، فرار، آزاد، مرخصی	کرونا و زندان	90/1	۱۸۹۸	۲۱
سایت، پست، آنلاین، ارسال، پیج	رسانه	76/1	۱۷۵۸	۲۲
دی، شکست، هواپیما، بنزین، زلزله	رویدادهای غم‌انگیز سال ۹۸	65/1	۱۶۴۲	۲۳
#بوتیک، #لباس، #تحویل، #اسپرت، دایرکت	تبلیغات	22/1	۱۲۱۵	۲۴

در ادامه، نمونه‎هایی از پنج موضوع پربسامد ارائه می‎شود تا ضمن نمایش عملکرد الگوریتم مدل‎سازی موضوع، امکان فراتحلیل داده‎ها فراهم شود.

5 ـ2ـ1. موضوع سیاسی‌ـ‌داخلی

الف) اِعمال سیاست‌های جهانی کنترل جمعیت در ایران بارها مورد تذکر رهبری قرار گرفته است. یکی از دلایل تلفات بالای #کرونا در اتحادیه اروپا افزایش کهولت و کاهش نسبت جوانان در هرم سنی است. دولت‌ها باید به این چالش جهانی #کنترل_جمعیت توجه کنند.

ب) روش جدیدی که دشمن علیه ایران در جریان معضل ویروس کرونا پیش گرفته فشار بر روی مردم و انتساب آن به رهبری است. برخی اصلاح‌طلبان نیز دشمن را همراهی می‎کنند. خوب است آگاهی‌های لازم در این مورد داده شود و راه‌های مقابله با این حربه باید طراحی و اجرایی بشوند.

ج) افراد و شبکه‌هایی که معتقدند تحریم‌ها فقط حکومت ایران را در بر گرفته نه مردم را و هدف براندازی نظام این کشور نیست، نمونۀ تحریمی ایران را در مورد ایتالیا، که ششمین اقتصاد برتر دنیاست اعمال کنند! ایتالیا در بحران کرونا مجبور به دزدیدن ماسک شده، تحریم مالی، دارو و... هم بماند.

د) مبارزه با کرونا اتحاد مسئولین سیاسی و مردم را می‌خواهد. باید که #متحدانه در این راستا حرکت کنیم که خدای‌نخواسته از فاجعۀ انسانی #جلوگیری شود. همه می‌دانیم که #کرونا وضعیت سیاسی، اقتصادی و اجتماعی را در جهان تغییر می‌دهد.

5 ـ2ـ2. موضوع اجتماعی

الف) پیام جکی چان به مردم ایران: قوی باش چین! قوی باش ایران! جکی چان بازیگر مطرح و بین‌المللی اهل چین، همراه با جمعی از بازیگران چینی، با ارسال پیامی، از مردم ایران و چین خواست قوی بمانند. این پیام به پاس کمک‌های بشردوستانه و پیام‌های روحیه‌بخش ایران برای کشور چین در هنگام مبارزه با #کرونا ارسال شده، چون آنها معتقدند دوست واقعی هر کشوری در هنگام سختی‌ها مشخص خواهد شد.

ب) بعد از کرونا، چند روز همه جَوگیرن، به این صورت که از کافه رفتن و قدم زدن تو خیابون و... لذت می‌برن و قدر همدیگه‌رو می‌دونن ولی بعدش بازم همه چیز برمی‌گرده به روال عادی و روزمرگی همه‌مون رو دیوونه می‌کنه.

ج) اولین خودکشی به دلیل کرونا؛ وزیر دارایی ایالت آلمان خودکشی کرد، زیرا نگران بود نتواند با تأثیرات منفی کرونا مقابله و انتظارات مردم در این باره را برآورده کند. او خود را در ریل قطار انداخت و قبل از آن، با دل‌نوشته‌ای دلیل خودکشی را اعلام کرده بود.

د) من می‌تونم بگم بارها به این فکر می‎کردم که این روش خودکشی آسون‌ترینه و اگر روزی بخوام انجام بدم این کارو می‌کنم. بعد این ویدیو و اون صدای تهش کاملاً منصرف شدم ـ یه میلیاردر ایتالیایی چون کل خانواده‌ش بر اثر کرونا مردن، خودشو می‌کشه.

5ـ2ـ3. موضوع خانواده

الف) حتی اگه زنگ بزنن که لطفاً بیا قرارداد ببندیم برای ادامۀ همکاری‌مون نمی‌رم، تا آخر کرونا هم خونه می‌مونم. از جون مامان بابام مهم‌تر نیست.

ب) حس می‌کنم در دنیای پساکرونا! آدم‌ها و فامیل از هم دورتر می‌شن. دیگه مثل قبل مسافرت خونه هم نمی‌رن و شاید مهمانی‌ها یه دورهمی سادۀ یه‌ساعته تو رستوران و کافه بشه.

ج) همسایه روبه‌رویی‌مون خانوادگی کرونا گرفتن. مامانم دم‌به‌ساعت زنگ می‌زنه می‌گه پنجرۀ خونه‌تو ببند کرونا میاد تو.

د) نمی‌دونم روز چندم قرنطینه است. اگر تقویم چک نکنم، حتی نمی‌دونم چندشنبه است. فقط اینکه دیگه دل و دماغ ندارم. اگر هم از این‌ور اون‌ور روحیه می‌گیرم، سه‌چهار ساعت بیشتر دووم نداره. دوباره رفتم تو مود تنهایی. همۀ ناتیفیکیشن‌های معاشرتی تعطیله. فقط اینجا میام یه چیزی شر می‌کنم و بعد پیش خودم می‌گم چه کار مسخره‌ای بود. فکر کنم اگر بر اثر کرونا نمیریم، افسردگی، دپرشن‌های شدید خواهیم گرفت. مخصوصاً برای ماهایی که تنهاییم، تنها زندگی می‌کنیم، یه کشور دیگه‌ایم. انقدر حساس شدم که با کوچک‌ترین انگولکی، کنترل خودم رو از دست می‌دم. تنها دلخوشی این روزام شده آشپزی. که اونم نمی‌دونم تا کی ادامه داشته باشه. اصلاً تا کی قراره تو خونه بشینیم، من اصلاً آدم تنهایی و خونه‌نشینی نیستم و خودم می‌دونم دارم دپرشن می‌گیرم. این روند ادامه داشته باشه، نمی‌دونم تهش قراره با خودم چجوری رفتار کنم.

5ـ2ـ4. موضوع مدیریت بحران

الف) همسفران عزیز؛ با توجه به نگرانی‌های موجود از شیوع کرونا، تور این هفته رو کنسل کردیم. باتوجه‌به اخبار ضدونقیضی که بیرون اومده و آمار کشته‌شدگان که بیشتر شده، نسبت به کنسل کردن تورهای پیش رو حساسیت بیشتری به خرج می‌دیم و اگه لازم باشه، تا زمان بهبود شرایط، تمام تورها رو کنسل می‎کنیم. لطفاً مراقب خودتون باشید و توصیه‌های پزشکی رو جدی بگیرید.

ب) فردا سر کار رفتن ممنوع است. کیانوش جهانپور، سخنگوی وزارت بهداشت، امروز دربارۀ آغاز به کار برخی مشاغل از روز شنبه (16 فروردین) گفت تمامی مشاغل باید تابع مصوبات ستاد مقابله با کرونا باشن.

ج) اطلاع‌رسانی کرونا. وزیر بهداشت، در نامه‌ای، به رئیس‌جمهوری اعلام کرد که نامۀ وزارت صمت، مبنی بر بازگشایی کلیۀ مشاغل، با نقش، مسئولیت و جایگاه ستاد ملی مقابله با کرونا مغایرت دارد.

د) گویا نحسی ویروس کرونا بیشتر دامن مدعیان توسعه‌یافتگی و پیشرفت را گرفته است. شیوع بیماری کرونا، با این سرعت وحشتناک، نشان از وضعیت اسفناک بهداشت در کشورهای به‌ظاهر تمیز دارد.

5ـ2ـ5. موضوع مذهبی

الف) دعا کنیم برای دل‌های شکسته... برای کسانی که مشکل افتاده تو زندگی‌شون... برای صبر بازماندگانی که عزیزانشون رو از دست دادن... خدایا از تو برای همه آرامش می‌خوام، دنیای خالی از کروناویروس قسمت کن.

ب) در دورانی که حرم‌ها و مساجد و نمازجمعه تعطیل است و مؤمنین اجتماعات دینی را به‌خاطر پیشگیری از شیوع بیماری کرونا لغو کرده‌اند، پلیس 111 مرد و زن را در یک پارتی مختلط شبانه در شهریار دستگیر کرد!

ج) #کرونا ثابت کرد کسانی که می‌گفتن وقت نداریم نماز قضا و روزه و خوندن قرآن و نهج‌البلاغه و کتاب آقای مطهری و... بخونم... بهانه بود، چون تو این یک ماه فقط لم دادن تو مجازی از ترس دارن پیام ارسال می‎کنند.

د) از بیانات این عالم دین؛ ویروس کرونا برای کفار عذاب است، برای فاسق تنبیه است و برای مسلمان رحمت!

همان‌طور که در جدول (۳) مشخص است، دو موضوع «سیاسی‌ـ‌داخلی» و «اجتماعی» محور حدود ۲۵٪ از نظرات در پیکرۀ نظرات کرونای بوده است. موضوع «تبلیغات» کمترین حجم از نظرات (2/1٪ نظرات) را در پیکرۀ مذکور به خود اختصاص داده است. از میان ۲۴ موضوعی که درمورد بیماری کرونا مطرح شده است، تعداد ۱۰ موضوع مستقیماً با خود ویروس کرونا و ماهیت همه‎گیری آن مربوط است: «مدیریت بحران»، «اخبار داخلی کرونا»، «اخبار بین‌الملل کرونا»، «فاصله‌گذاری اجتماعی»، «بهداشتی»، «تشخیص کرونا»، «درمان»، «پزشکی»، «پویش و هشتگ‌های کرونایی» و «کرونا و زندان». این موضوعات بیش از ۳۵٪ از حجم نظرات مطرح‌شده در پیکرۀ نظرات را به خود اختصاص داده است.

می‌دانیم زبان فارسی بین کشورهای ایران، افغانستان و تاجیکستان مشترک است و ممکن است علاوه بر ایران، افرادی از دو کشور دیگر نیز نظرات خود را در رسانه‌های اجتماعی انعکاس دهند. با استخراج موضوعات، مشخص شد موضوع «افغانستان» 54/2٪ از نظرات را به خود اختصاص داده است که معرف نظرات به زبان فارسی در افغانستان در کنار نظرات به زبان فارسی در ایران است.

5ـ3. نتایج تحلیل هشتگ‌ها

در پیکرۀ نظرات کرونای بررسی‌شده، ۱۹۰٫۳۵۲ هشتگ در نظرات یافت شد که بدون درنظرگرفتن تکرار، تعداد ۳۰٫۹۸۵ هشتگ باقی‌ ‌ماند. از این تعداد، ۱۹٫۱۹۶ هشتگ در نظرات (به‌طور نسبی 98/10٪) فقط یک بار به کار رفته است و تعداد ۲۰۱ هشتگ بیش از ۱۰۰ بار تکرار شده بودند. در جدول (۴)، فهرست ۱۰ هشتگ پرکاربرد در نظرات گزارش شده است. ۸ هشتگ اول بر موضوع کرونا متمرکز است و خود هشتگ کرونا، یعنی #کرونا، بیشترین کاربرد را داشته است.

جدول 4. فهرست ۱۰ هشتگ پرکاربرد در نظرات

درصد نسبی	تعداد	هشتگ	درصد نسبی	تعداد	هشتگ
76/0	۱۴۳۷	#کرونا_‌ویروس	46/11	۲۱۸۰۵	#کرونا
69/0	۱۳۱۳	#کرونا_را_شکست‌_می‌دهیم	48/1	۲۸۱۹	#کروناویروس
64/0	۱۲۲۵	#در_خانه‌_بمانیم	44/1	۲۷۳۴	#ایران
61/0	۱۱۷۰	#سراب‌_غرب	33/1	۲۵۳۹	#ویروس‌_کرونا
61/0	۱۱۵۶	#تهران	83/0	۱۵۸۸	#قرنطینه

تحلیل دیگری که در این پژوهش ارائه می‌شود به بررسی وجود رابطه بین موضوع و هشتگ‌های مرتبط با آن موضوع می‌پردازد. برای این هدف، از ضریب همبستگی پیرسون استفاده می‌شود. همان‌طور که در بخش 3ـ3 توضیح داده شد، امتیاز ضریب همبستگی پیرسون عددی بین ۱ تا 1- است. در این پژوهش، اگر امتیاز ضریب همبستگی پیرسون صفر باشد، هیچ‌گونه ارتباطی بین موضوع و هشتگ وجود ندارد؛ هرچقدر امتیاز به‌دست‌آمده به سمت ۱ میل کند، این ارتباط بیشتر است و اگر به سمت 1- میل کند، رابطۀ معکوس میان آن هشتگ و آن موضوع برقرار است که بیانگر عدم نمایش آن هشتگ در آن موضوع است. در جدول (۵)، هشتگ‌هایی که بالاترین ضریب همبستگی پیرسون را با موضوع داشته‌اند گزارش شده‌اند.

براساس نتایج گزارش‌شده در جدول (۵)، همبستگی‌های کشف‎شده بین اکثر موضوعات استخراج‌شده از پیکرۀ کرونا و هشتگ‌های انتخاب‌شده توسط کاربران منطقی و معنادار است. به‌عنوان‌مثال، بین موضوع «پزشکی» و هشتگ «#جهادگران‌_سلامت» همبستگی بالایی وجود دارد؛ به این معنا که این هشتگ، در اکثر مواقع، در نظرات، مرتبط با موضوع «پزشکی» به کار رفته و در سایر موضوعات، مانند «سیاسی» و «اجتماعی»، به کار نرفته است.

شایان‌ذکر است این ضریب همبستگی برای تمام موضوعات استخراج نشده است؛ به این معنا که بین برخی موضوعات، مانند «تشخیص کرونا»، «رسانه»، «داستانک» و «توهین‌آمیز»، و هشتگ‌های به‌کاررفته برای آنها همبستگی وجود ندارد و ضریب همبستگی بین این موضوعات و هشتگ‌ها در حدود صفر است.

جدول 5. همبستگی میان هشتگ و موضوع نظرات

هشتگ	موضوع	هشتگ	موضوع
#ایران‌_قوی، #وزارت_بهداشت	درمان	#قرنطینه، #قرنطینه‌_‌خانگی، #مرگ	اجتماعی
#رأی، #عید_نوروز، #انتخابات	رویدادهای پیرامون	#سراب_غرب، #ایران_قوی، #پزشکان_بدون_مرز، #آمریکا، #ایتالیا، تحریم	اخبار بین‌الملل کرونا
#فوتبال، #استقلال، #فیلم، #موسیقی	سرگرمی	وزارت_بهداشت، #کوویید، #ویروس‌_‌کرونا	اخبار داخلی کرونا
#آزادی، #رأی، #تحریم، #امید، #جمهوری_اسلامی، #سپاه، #ایران، #اعتراضات_سراسری	سیاسی‌ـ‌داخلی	#افغانستان، #Afghanistan	افغانستان
#عراق، #سراب_غرب، #آمریکا، #ترامپ، #چین، #امریکا	سیاسی‌ـ‌خارجی	#جهش_تولید، #تحریم، #دولت	اقتصادی
#در_خانه_بمانیم، #قرنطینه	فاصله‌گذاری اجتماعی	#الکل، #ویروس، #پیشگیری، #ماسک، #کرونادرایران	بهداشتی
#تبریز	کرونا و زندان	#جهادگران‌_‌سلامت، #پرستاران، #مدافعان‌_سلامت، #پرستار، #باهم_‌علیه_‌کرونا	پزشکی
#روحانی، #مجلس، #وزارت_‌بهداشت، #کرونا، #ویروس‌_‌کرونا، #شماره_‌ 4030، #رهبری، #دولت، #حسن‌_روحانی، #همه‌_با_هم_‌علیه‌_‌کرونا	مدیریت بحران	#کرونادرایران، #کروناویروس	پویش کرونایی
#امام‌_‌زمان، #ظهور، #کربلا، #خدا	مذهبی	#تیشرت، #شلوار، #بوتیک_محب، #کاپشن، #boutiquemoheb	تبلیغات
#نوروز، #عید، #سال‌_‌نو، #در_خانه‌_‌بمانیم، #در_خانه‌_میمانیم	نوروز	#قرنطینه، #قرنطینه‌_‌خانگی	خانوادگی

۶. نتیجه‌گیری و جمع‌بندی

در این پژوهش، تلاش شد با جمع‏آوری نظرات و پیام‎ها از رسانه‌های اجتماعی توییتر و اینستاگرام و انتخاب موارد مربوط به کرونا، یک پیکرۀ زبانی تخصصی به نام «پیکرۀ نظرات کرونا» از نظرات و پیام‎های کاربران این دو رسانۀ اجتماعی تهیه شود. پس از پیش‎پردازش این پیکره، با بهره‎گیری از یک شیوۀ الگوریتمی در تحلیل گفتمان، به تحلیل محتوایی این پیکره و خوشه‏بندی نظرات، براساس موضوع‎های نهان در آنها، پرداخته شد. 24 موضوع انتزاعی از پیکرۀ کرونا استخراج شد و هر موضوع، براساس واژه‏های با احتمال بالا، توسط ناظر انسانی برچسب‏زنی شد. این پیکره و روش‎شناسی پردازشی معرفی‎شده بستری را برای تحلیل‎های متفاوت متخصصان حوزه‎های مختلف علوم‌انسانی فراهم آورده است که در این پژوهش، فقط به دو نمونه از تحلیل‎های ممکن در بررسی محتوای نظرات و هشتگ‎ها پرداخته شده است.

با بررسی داده‌های «پیکرۀ نظرات کرونا» و آمار به‌دست‌آمده از پردازش موضوعی آن می‌توان گمانه‌زنی کرد که اگرچه رسالت رسانه‌های اجتماعی اطلاع‌رسانی، آگاه‌سازی و نشر اطلاعات است، موضوعات «سیاسی» و «اجتماعی» و تبادل نظر دربارۀ آنها حدود ۲۵٪ از نظرات در این پیکره را در بر گرفته است. این به آن مفهوم است که در جامعۀ ایران، دغدغه‌های سیاسی و اجتماعی بیش از هر موضوعی، مانند شیوع همه‎گیری بیماری کرونا که سلامتی آحاد جامعه را تحت‎الشعاع قرار می‎دهد، مورد توجه است و رسانه‌های اجتماعی زمینه‌ای را برای ابراز این دسته از نظرات فراهم آورده است. موضوعاتی که در این پیکره مستقیماً به خود ویروس کرونا و ویژگی‎های یک همه‎گیری مربوط بود طیف متنوعی داشت که در لابه‌لای نظرات به چشم خورد. از میان این موضوعات، «مدیریت بحران» از بیشترین اهمیت نزد کاربران برخوردار بود. امکاناتی مانند رسانه‌های اجتماعی می‌تواند، در شکل یک رسانه، به رسالت اولیۀ خود که همانا نشر اطلاعات و آگاهی است بپردازد. ازاین‌رو، می‌توان از ظرفیت رسانه‌های اجتماعی برای اطلاع‌رسانی استفاده و به افزایش سطح دانش عمومی افراد جامعه در شیوع یک همه‎گیری کمک کرد.

از رابطۀ همبستگی بین موضوعات و هشتگ‌ها چنین نتیجه گرفته شد که این هشتگ‌ها تصادفی نبوده‌اند و کاربر، آگاهانه، از محتوای معنایی فشردۀ آن برای توصیف یک متن کوتاه استفاده می‌کند. ازاین‌رو، استفادۀ صحیح هشتگ‌ها می‌تواند به ‌وضوح مطلب کمک شایانی کند.

دستاوردهای مهم این پژوهش یافتن راهکاری رایانشی برای بیان وجود رابطۀ معنایی بین محتوای یک متن کوتاه (موضوع متن) و هشتگ‌های تعریف‌شده برای آن است. این دستاورد می‌تواند زمینه‌ساز پژوهش‌های آتی باشد، به این صورت که امکان خوشه‌بندی هشتگ‌ها، پیش‌بینی خودکار هشتگ براساس مطلب نوشته‌شده و همچنین، پیشنهاد خودکار هشتگ مناسب براساس متن به کاربر فراهم شود. وجود چنین امکاناتی به افزایش انسجام درونی بیشتر در متن کوتاه می‌انجامد.

تعارض منافع

تعارض منافع ندارم.

ORCID

Masood Ghayoomi

http://orcid.org/0000-0001-6685-1332

[1]. Coronavirus

[2]. COVID-19

[3]. corpus-driven

[4]. de Saussure, F.

[5]. topic modeling

[6]. Papadimitriou et al.

[7]. text mining

[8]. cluster

[9]. Hofmann, T.

[10]. Blei et al.

[11]. Latent Diritlet Allocation

[12]. Diritlet prior distribution

[13]. Gibbs sampling

[14]. Dong et al.

[15]. Sonbhadra et al.

[16]. classifier

[17]. CORD-19 (COVID-19 Open Research Dataset)

[18]. https://pages.semanticscholar.org/corona-virusresearch

[19]. doc2vec

[20]. Abd-Alrazaq et al.

[21]. unique

[22]. like

[23]. follower

[24]. Ordun et al.

[25]. pattern matching

[26]. uniform manifold approximation and projection

[27]. Kaila, R. P., & Prasad, A. V. K.

[28]. information flow

[29]. Web crawling

[30]. crawl

[31]. Bailey et al.

[32]. link crawling

[33]. content crawling

[34]. Chaitra et al.

[35]. focused Web crawler

[36]. incremental Web crawler

[37]. distributional Web crawler

[38]. Mallet

[39]. Java

[40]. classification

[41]. information extraction

[42]. soft clustering

[43]. hashtag

[44]. meta-data

[45]. Tsur, O., & Rappoport, A.

[46]. Gurajala, S., & Matthews, J. N.

[47]. Pearson correlation coefficient

[48]. emoji

[49]. tokenization

[50]. accuracy

[51]. hard clustering

References

Abd-Alrazaq, A., Alhuwail, D., Househ, M., Hamdi, M., & Shah, Z. (2020). Top concerns of Tweeters during the COVID-19 pandemic: Infoveillance study. Journal of Medical Internet Research, 22(4), e19016. https://doi.org/10.2196/19016

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7175788/

Bailey, P., Craswell, N., & Hawking, D. (2003). Engineering a multi-purpose test collection for Web retrieval experiments. Information Processing and Management, 39(6), 853–871.

https://doi.org/10.1016/S0306-4573(02)00084-5

Blei, D. M., Ng, A. Y., Jordan, M. I., & Lafferty, J. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research. 3, 993–1022. https://doi.org/10.1162/jmlr.2003.3.4-5.993

Boddy, R., & Smith, G. (2009). Statistical Methods in Practice: For scientists and Technologists. Chichester, U.K.: Wiley.

https://doi.org/10.1002/9780470749296.ch10

Chaitra, P.G., Deepthi, V., Vidyashree, K. P., & Rajini, S. (2018). A study on different types of Web crawlers. In S. Choudhury et al. (eds.), Intelligent Communication, Control, and Devices, Advances in Intelligent System and Computing,Vol. 989, 781-789.

https://doi.org/10.1007/978-981-13-8618-3_80

Cothey, V. (2004). Web-crawling reliability. Journal of the American Society for Information Science and Technology. 55(14), 1228–1238.

https://doi.org/10.1002/asi.20078

de Saussure, F. (1916). Cours de linguistique générale, Lausanne, Paris: Payot.

Dong, M., Cao, X., Liang, M., Li, L., Liu, G., & Liang, H. (2020). Understand research hotspots surrounding COVID-19 and other Coronavirus infections using topic modeling,

https://www.medrxiv.org/content/10.1101/2020.03.26.20044164v2
https://doi.org/10.1101/2020.03.26.20044164

Griffiths, T. L., & Steyvers, M. (2004). Finding Scientific topics. Proceedings of the National Academy of Sciences, Vol. 101, 5228–5235.

https://doi.org/10.1073/pnas.0307752101

Gurajala, S., & Matthews, J. N. (2018). Twitter data analysis to understand societal response to air quality. Proceedings of the 9th International Conference on Social Media and Society, 82–90.

https://doi.org/10.1145/3217804.3217900

Hofmann, T. (1999). Probabilistic latent semantic indexing. Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval.

https://doi.org/10.1145/312624.312649

Kaila, R. P., & Prasad, A. V. K. (2020). Informational flow on Twitter – Coronavirus outbreak – Topic modeling approach. International Journal of Advanced Research in Engineering and Technology, 11(3), 128-134.

McCallum, A. K (2002). Mallet: A machine learning for language toolkit.
http://mallet.cs.umass.edu.

Minka, T., & Lafferty, J. (2002). Expectation-propagation for the generative aspect model. Proceedings of the 18th Conference on Uncertainty in Artificial Intelligence, 352–359, San Francisco, CA, USA.

Ordun, C., Purushotham, S., & Raff, E. (2020). Exploratory analysis of Covid-19 tweets using topic modeling, UMAP, and DiGraphs https://arxiv.org/pdf/2005.03082.pdf

Papadimitriou, C., Raghavan, P., Tamaki, H., & Vempala, S. (2000). Latent semantic indexing: A probabilistic analysis. Journal of Computer and System Sciences, 61(2), 217-235. https://doi.org/10.1006/jcss.2000.1711

Sonbhadra, S. S., Agarwal, S., & Nagabhushan, P. (2020). Target specific mining of COVID-19 scholarly articles using one-class approach. Chaos, Solitons & Fractals, 140, 110155. https://doi.org/10.1016/j.chaos.2020.110155

Tognini-Bonelli, E. (2001), Corpus Linguistics at Work, Studies in Corpus Linguistics, Amsterdam, The Netherlands: John Benjamins Publishing Company.

Tsur, O., & Rappoport, A. (2012). What’s in a Hashtag? Content based prediction of the spread of ideas in microblogging communities. Proceedings of the 5th ACM international conference on Web search and data mining, 643-652.

https://doi.org/10.1145/2124295.2124320

Assi, M. (2005). Persian linguistic database in Internet. Newsletter of the Institute for Humanities and Cultural Studies, 2, 13-16. [In Persian].

Ghayoomi, M. (2014). Natural language processing and the Persian language: Requirements and challenges. Expert Meeting on Natural Language Processing and Cognitive Science, Institute for Information science and Technology, Tehran. [In Persian].

Ghayoomi, M. (2018). A tentative method of tokenizing Persian corpus based on language modeling. Language and Linguistics, 14(27), 21-50. [In Persian].

Ghayoomi, M. (2020). Structuring multilayer linguistic analyses in linguistic corpora. Word by Word Life: Festschrift for Professor Vida Shaghaghi, pp:278-312, Tehran: Neveeseh Parsi Publications. [In Persian].

Ghayoomi, M. (2020). Challenge of Natural language processing systems by facing coined “Corona” words. The 6th Expert Meeting on Human-social Dimensions of the Coronavirus in Iran, Institute for Humanities and Cultural Studies, Tehran. [In Persian].[1]

استناد به این مقاله: قیومی، مسعود. (1400). تحلیل محتوایی موضوع‌ها و هشتگ‌های کرونا در رسانه‌های اجتماعی. علم زبان، ویژه‌نامه کرونا، سال 8، 87-115. Doi: 10.22054/ls.2020.53557.1356

Language Science is licensed under a Creative Commons Attribution-Noncommercial 4.0 International License.

Content Analysis of Topics and Hashtags about the Coronavirus in Social Media

Full Text

Masood Ghayoomi

http://orcid.org/0000-0001-6685-1332

References

Volume 8, Issue 0
Special Issue
March 2021
Pages 87-115

Files

History

Share

How to cite

Statistics

Content Analysis of Topics and Hashtags about the Coronavirus in Social Media

Masood Ghayoomi

Volume 8, Issue 0Special IssueMarch 2021Pages 87-115

Volume 8, Issue 0
Special Issue
March 2021
Pages 87-115