Document Type : Research Paper
Author
Assistant Professor, Institute of Linguistics, Institute of Humanities and Cultural Studies, Tehran, Iran
Abstract
Coronavirus pandemic caused changes in the daily lifestyle, such as reducing social interactions and creating social distancing. In this research, we pursue two goals. One is algorithmic content analysis of comments/posts in Persian related to the Coronavirus on two social media, namely Tweeter and Instagram. To this end, topic modeling is used as a method for content analysis to cluster the data into abstract topics. The other goal is finding the correlation between topics and hashtags in the comments/posts. To this end, we developed a corpus from these two social media. We found 24 abstract topics by algorithmic content analysis of this corpus and they were manually labeled to be comprehensive. According to the corpus and the statistical information of the extracted topics, it can be speculated that about 25% of the comments/posts in this corpus focused on political and social issues of the virus. 10 fine-grained topics which contained 35% of the comments were related to the Coronavirus itself and its pandemic property. This indicates the importance of the attention that has been paid to social media for informing and disseminating information. Furthermore, the hypothesis of existing correlation between topics and hashtags was studied from statistical point of view by using the Pearson correlation coefficient. For 20 topics, a high correlation score between topics and hashtags was found; but this correlation was not found for 4 topics. The outcome of this research can be used to increase the internal coherence of a text and to make the hashtags predictable.
Keywords
مقدمه
با شروع دهۀ دوم قرن ۲۱ میلادی، یک بیماری ویروسی به نام کرونا[1] (کووید ۱۹[2]) از شرق آسیا شروع شد و بهدلیل سرعت انتشار، در مدتزمان کوتاهی، خاورمیانه، ازجمله ایران را فراگرفت و سپس، به اروپا و آمریکا رسید. در تاریخ ۱۱ مارس ۲۰۲۰ (۲۱ اسفند ۱۳۹۸)، سازمان بهداشت جهانی همهگیری بیماری کرونا را اعلام کرد. یکی از ابتداییترین راهکارهایی که توسط دولتها، در کشورهای مختلف، مورد تأکید قرار گرفت، پیشگیری از ابتلا به این بیماری، با ایجاد فاصلهگذاری بین افراد جامعه بهواسطۀ قرنطینۀ فردی و اجتماعی بود. ازآنجاکه ویژگی اجتماعیبودن در سرشت آدمی نهاده شده است، اعمال قرنطینه موجب شد این سرشت انسانی با محدودیت روبهرو شود. برای رفع این خلأ، نوع دیگری از زندگی اجتماعی ظهور پیدا کرد و آن پررنگشدن استفاده از ابزارهای نوین ارتباطی از طریق اینترنت بود. وجود رسانههای اجتماعی، مانند توییتر و اینستاگرام، موجب شد خلأهای ناشی از قرنطینه پر شود و کاربران نوع دیگری از زندگی را، در فضایی نزدیک به واقعیت، تجربه کنند. گذشت زمان و تولید حجم فراوانی از نظرات و پیامها توسط افراد جامعه در این بستر موجب جلب توجه پژوهشگران به رسانههای اجتماعی شد. بهطورکلی، به دو دلیل، تحلیل اطلاعات موجود در رسانههای اجتماعی از اهمیت بسزایی برخوردار است. دلیل اول این است که ماهیت این رسانهها اطلاعرسانی است و از طریق آنها میتوان به آخرین اخبار و تحولات دسترسی داشت؛ دلیل دوم این است که بهدلیل آزادی بیان در این رسانهها، امکان درج نظرات افراد مختلف جامعه، که به سطوح اجتماعی و فرهنگی متفاوت با گرایشهای سیاسی مختلف تعلق دارند، وجود دارد. ازاینرو، بررسی حجمیِ نظرات اهمیت بسزایی دارد. در شرایط همهگیری بیماری کرونا، این اهمیت دوچندان میشود؛ زیرا میتوان از این طریق، از نظرات افراد جامعه آگاه شد و در تصمیمگیریهای کلان، از این نظرات استفاده کرد.
در این مقاله، میکوشیم مجموعۀ نظرات را بهمثابۀ یک پیکرۀ زبانی در نظر بگیریم و با رویکرد پیکرهمحور[3] (Tognini-Bonelli, 2001: 84-85)، بدون هرگونه پیشداوری و فرضیهای، بهصورت الگوریتمی و خودکار، به تحلیل محتوایی نظرات بپردازیم. در راستای اهداف این پژوهش، تلاش میکنیم موضوعات انتزاعی را، که در نظرات کاربران فارسیزبان دربارۀ کرونا در دو رسانۀ اجتماعی توییتر و اینستاگرام نهفته است، بیابیم و با برچسبگذاری موضوعی نظرات، بتوانیم به اهم موضوعات موردتوجه کاربران این دو رسانۀ اجتماعی دست یابیم. سپس، با فرضیۀ وجود رابطۀ همبستگی بین موضوع و هشتگهای استفادهشده در این نظرات، وجود این رابطه را بهصورت آماری مورد بررسی قرار دهیم.
در بخش دوم این مقاله، مبانی نظری و مروری بر پیشینۀ مطالعاتی متمرکز بر جنبۀ نظری تحلیل دادههای رسانههای اجتماعی ارائه میشود. در بخش ۳، دربارۀ دادهها و ابزارهای موردنظر در پژوهش توضیح داده میشود. در بخش ۴، پیکرۀ گردآوریشده از رسانههای اجتماعی توییتر و اینستاگرام و ابزاری که برای تحلیل نظرات فارسی به کار رفته است معرفی میشود. بخش ۵، به تحلیل محتوایی موضوعات انتزاعی بهدستآمده از این پیکره و هشتگها میپردازد. در آخر، در بخش ۶، جمعبندی و نتیجهگیری از نظرات تحلیلشده ارائه میشود.
۲. مدلسازی موضوعی
2 ـ1. مبانی نظری
سوسور[4] (۱۹۱۶) دو سطح «صورت» و «معنا» را برای زبان تعریف کرده است. این دو سطح واقعیتی روانشناختی است که پیوندشان در یک نظام مشخص موجب دربرگرفتن تمام جملات زبانی بیانشده توسط گویشور یک زبان میشود. «صورت» و «معنا» در این نظام، واحدهای زبانی، یعنی همان واژهها، را ایجاد میکنند. این واحدهای زبانی، براساس روابط همنشینی، در چارچوب قواعد آن نظام مشخص، قابلیت ترکیب با یکدیگر را دارند تا واحدی بزرگتر، یعنی جمله، را بسازند. «صورت» میتواند از ذهن، به دو شکل امواج صوتی و نوشتار، تجلی عینی پیدا کند، به این صورت که امواج صوتی از طریق شنیدار و نوشتار از طریق دیدار در نظام ارتباطی منتقل میشوند. ازآنجاکه داده در رایانه به یکی از چهار شکل صوتی، متنی، تصویری و عددی تظاهر مییابد، خط، در حوزۀ رایانه، بهعنوان دادۀ متنی تلقی میشود و بیانگر نوعی تجلی بصری از زبان است؛ بنابراین، با پردازش ماشینی داده، میتوان به «معنی»، که جنبۀ انتزاعی دارد، دست یافت.
هر متن، که از ترکیب جملات در نظام مشخص زبانی شکل میگیرد، از مجموعهموضوعات محدودی ساخته شده است که بهصورت الگوریتمی، میتوان به این موضوعات دست یافت. یکی از الگوریتمهای مورداستفاده، برای تحلیل محتوایی متن، «مدلسازی موضوع»[5] است که توسط پاپادیمیتریو و همکاران[6] (2000) معرفی شده است. این الگوریتم معمولاً در متنکاویهایی[7] به کار میرود که، همانند پژوهش حاضر، به دنبال کشف ساختار معنایی پنهان متن هستند. این الگوریتم بر این اساس شکل گرفته که هر متن از چند موضوع انتزاعی تشکیل شده است و هر مجموعه از واژههای خاص منجر به شکلگیری یک موضوع میشود؛ بنابراین، با یافتن واژههایی که از نظر معنایی به یکدیگر شباهت دارند، میتوان متن را به موضوعهای انتزاعی خوشهبندی[8] کرد؛ برای مثال، یک موضوع اقتصادی از واژههایی مانند «چک»، «واریز»، «بانک»، «پول» و «تورم» شکل میگیرد و واژههایی مانند «جناح»، «حزب»، «اصولگرا»، «میانهرو» و «اصلاحطلب» یک موضوع سیاسی را تشکیل میدهند.
پاپادیمیتریو و همکارانش «مدلسازی موضوع» را براساس جبر خطی پیشنهاد دادند، ولی هوفمن[9] (۱۹۹۹) یک مدل احتمالاتی برای این هدف تهیه کرد. بلای و همکاران[10] (۲۰۰۳) مدل احتمالاتی مطرحشده را تعمیم دادند و مدلی از الگوریتم «مدلسازی موضوع» ارائه کردند که به «تخصیص دریشله پنهان»[11] معروف است. این الگوریتم یک مدل آماری زایشی است که در اصل، «توزیع اولیۀ دریشله»[12] بوده است و برای توزیع احتمالاتی متنـموضوع و موضوعـواژه به کار میرود. هر واژه در یک متن، براساس توزیع اولیۀ دریشله، با یک موضوع مرتبط است و هر موضوع نیز، براساس توزیع چندگانۀ واژههایی که با یک موضوع در ارتباطند، بازنمایی میشود.
در شکل (۱) مدل «تخصیص دریشله پنهان» نشان داده شده است که متشکل از دو ماتریس φ و θ است. در این مدل، φ ماتریسی است که توزیع موضوع T بر روی واژههای W را، براساس توزیع اولیۀ دریشله با پارامتر β بیان میدارد. θ ماتریسی است که توزیع متن d بر روی موضوعهای T را براساس توزیع اولیۀ دریشله با پارامتر α بیان میکند. برای زایش هر واحد واژگانی w در متن d، یک موضوع z از توزیع موضوعی مربوط به متن θd به دست میآید؛ درحالیکه خود آن واژۀ w از توزیع واژههای موضوع انتخابشدۀ φz به دست میآید.
شکل ۱. نمایش تصویری مدل «تخصیص دریشله پنهان»
برای استخراج موضوعات با مدل «تخصیص دریشله پنهان»، نیاز است دو توزیع φ و θ تخمین زده شود تا اطلاعات دربارۀ توزیع متن نسبت به موضوعات و موضوعات نسبت به متن به دست آید. برای تخمین این دو، الگوریتمهای مختلفی پیشنهاد شده است، مانند انتشار انتظار (Minka & Lafferty, 2002)، استنباط تغییرات (Blei et al., 2003) و نمونهگیری گیبس[13] (Griffiths & Steyvers, 2004). از میان این الگوریتمها، نمونهگیری گیبس، بهعنوان یک رویکرد ساده و مؤثر، برای این هدف مورد استفاده قرار میگیرد.
در نمونهگیری گیبس، احتمال انتخاب یک موضوع برای یک واژه در یک متن به واژۀ قبلی و دو واژۀ قبلی در بافت و موضوعاتی که به آن موضوعات تخصیص داده میشود مشروط شده است که با استفاده از تساوی (۱) محاسبه میشود:
1) |
|
در این تساوی، wi = w نشان میدهد که iامین واژه در متن، واژۀ w است و zi = t نشان میدهد که واژۀ w به موضوع t تخصیص داده شده است. w−i و z−i بیانگر تمام واژهها و تمام موضوعات تخصیصدادهشده بهجز واژۀ iامین است. تعداد دفعاتی که واژۀ w به موضوع t تخصیص داده شده است، بهجز درنظرگرفتن آمار واژۀ کنونی. تعداد دفعاتی است که موضوع t به متن d تخصیص داده شده است بهجز موضوع کنونی. با استفاده از نمونهگیری گیبس، برای هر یک از نمونههای این مدل، φ و θ در تساوی (۲) و (۳) محاسبه میشود:
2) |
|
3) |
|
که در این تساوی، φwt احتمال کاربرد واژۀ w در موضوع t است و θtd احتمال کاربرد موضوع t در متن d است.
در این پژوهش، تلاش میشود ساختار معنایی نهفته در متن، با استفاده از الگوریتم «مدلسازی موضوع»، به دست آید و پس از این تحلیل اولیۀ خودکار، به فراتحلیل آن توسط انسان خبره پرداخته شود.
2ـ2. مروری بر مطالعات گذشته
در پژوهشهای متنوعی، از مدلسازی موضوع برای کاربردهای مختلفی استفاده شده است که بررسی همگی آنها در این مقاله ممکن نیست. آنچه بهاختصار توضیح داده میشود متمرکز بر استفاده از مدلسازی موضوع در حوزۀ بیماری کروناست. دونگ و همکاران[14] (۲۰۲۰) به تحلیل بیش از ۳۵ هزار مقالۀ علمی در حوزۀ کرونا پرداختهاند تا بتوانند موضوعات داغ مرتبط با کرونا را بیابند. آنها در این پژوهش،با استفاده از مدلسازی موضوع، ۸ موضوع را بهعنوان هدف تعریف کردهاند. سپس، به تحلیل رابطۀ معنایی بین موضوعات پرداختهاند و توزیع موضوعات بین کووید 19 و سایر بیماریهای خانوادۀ کرونا، مانند سارس، را بررسی کردهاند.
سونبهادرا و همکاران[15] (2020) در پژوهش خود تلاش کردهاند با استفاده از الگوریتمهای خوشهبندی پارامتری مانند k-means و غیرپارامتری مانند DBSCAN و HAC، موضوعات داغ را از مقالات علمی مربوط به بیماریهای سارس، مرس و کرونا استخراج کنند. در این پژوهش، پس از خوشهبندی دادهها، از دستهبند[16] برای برچسبگذاری سایر مقالات علمی به یک برچسب استفاده کردهاند. دادهای که در این پژوهش مورد استفاده قرار گرفته است دادگان کورد-19[17] است. این دادگان حاوی ۴۵ هزار مقاله دربارۀ این سه بیماری است که برای ۳۳ هزار مورد، مقالۀ کامل موجود است[18]. برای آموزش خوشهبند، به بازنمایی برداری داده نیاز است که برای این هدف، بردار متن مقالات موردنظر، بهوسیلۀ الگوریتم داک 2وک[19] تهیه شده و برای تشابهیابی، از فاصلۀ کسینوسی استفاده شده است.
عبدالرزاق و همکاران[20] (۲۰۲۰) به تحلیل موضوعات مهم رسانۀ اجتماعی توییتر دربارۀ بیماری کرونا پرداختهاند. دادهای که برای این پژوهش استفاده شده است نظرات افراد در رسانۀ اجتماعی توییتر، به زبان انگلیسی، در بازۀ زمانی ۲ فوریه تا ۱۵ مارس ۲۰۲۰ است. در این بازۀ زمانی، حدود 5/2 میلیون توییت جمعآوری شده است که حجم زیادی از آنها بازنشر بوده و فقط حاوی حدود ۱۶۷ هزار توییت یکتا[21] است. آنها علاوه بر استخراج موضوعات از توییتها با کمک مدلسازی موضوع، به تحلیل احساسات نظرات و تحلیلهای آماری مانند متوسط بازنشر نظرات، علاقهمندی[22] نظرات و دنبالهرو[23] موضوعات نیز پرداختهاند. در این پژوهش تعداد ۱۲ موضوع برای خوشهبندی دادهها در نظر گرفته شده است. مهمترین موضوع در بین کاربران که بیشترین علاقهمندی را به خود اختصاص داده است «ضررهای اقتصادی» بوده و کمترین علاقهمندی مربوط به موضوع «محدودیت سفر و هشدارها» بوده است.
اوردون و همکاران[24] (۲۰۲۰) از سه روش «همانندیابی الگو»[25]، «تخمین و برآورد زیاد یکنواخت»[26] و مدلسازی موضوع، برای استخراج موضوعات استفاده کردهاند. سپس، به تحلیل آماری اطلاعات موجود در نظرات، مانند علاقهمندی به موضوعات، ارتباط بین کاربرها و سرعت بازنشر نظرات در قالب یک نقشۀ تصویری در طی زمان، پرداختهاند. در این پژوهش، نظرات انگلیسی کاربران توییتر، در بازۀ زمانی ۲۴ مارس تا ۹ آوریل ۲۰۲۰، جمعآوری شده که مجموعاً حاوی بیش از ۲۳ میلیون توییت و بیش از ۵ میلیون توییت یکتاست. دادههای این پژوهش به ۲۰ موضوع خوشهبندی شده است. یکی از یافتهها این بوده است که با افزایش زمان بازنشر توییت، چگالی ارتباطها نیز افزایش یافته و کاربران مشخصی کانون توجه بازنشر توییتهای مربوط به بیماری کرونا را تحت تأثیر قرار میدهند.
کایلا و پراساد[27] (۲۰۲۰)، از نگاه «جریان اطلاعات»[28]، به بررسی نظرات توییتر انگلیسی و راستیآزمایی نظرات با استفاده از مدلسازی و تحلیل احساسات موضوع پرداختهاند. برای این هدف، ۱۸ هزار توییت بدون هرگونه بازنشر، بهصورت تصادفی، انتخاب شده است. سپس، ۱۰ موضوع از این داده استخراج شده و بهصورت خودکار، ۸ نوع برچسب تحلیل احساسات برای این حجم داده تخصیص داده شده است. موضوعات استخراجشده منعکسکنندۀ واقعیات از جامعه در بازۀ زمانی توییتهای جمعآوریشده بوده است. «ترس» و «اعتماد به مسئولان» بالاترین بسامد تحلیل احساسات را داشته است. نتیجهگیری این مقاله این بوده است که نظرات ارائهشده در توییتر اهمیت دارد و مسئولان میتوانند از تحلیل نظرات برای تصمیمگیری استفاده کنند.
- روش پژوهش
3ـ1. داده
این پژوهش بر تحلیل محتوایی نظرات کاربران در دو رسانۀ اجتماعی توییتر و اینستاگرام متمرکز است. ازآنجاکه تعداد نظراتی که روزانه از کاربران اینترنتی در این دو رسانه انتشار مییابد بسیار زیاد است، گردآوری این نوع داده بهصورت دستی ممکن نیست. به همین دلیل، برای افزایش دقت و کاهش هزینه و تلاش نیروی انسانی در جمعآوری این نوع دادۀ خاص، از روش «خزش در وب»[29] استفاده میشود که بهاختصار، خزش[30] نامیده میشود.
در فرایند خزش، ابتدا بهصورت نظاممند، گسترۀ جهانی اینترنت پیمایش میشود و سپس، با یافتن اطلاعات موردنظر از وب، دادۀ خروجی در قالب ساختار مشخص موردنظر ذخیره میشود. بایلی و همکاران[31] (۲۰۰۳: ۴) دو شیوۀ کلی برای خزش معرفی کردهاند. یکی «خزش پیوندی»[32] است که با پیمایش گراف پیوند صفحات وب و شروع از مجموعهای از نقاطِ آغاز، کار شناسایی و اتصال صفحات وب که معمولاً برای فهرستبندی استفاده میشود انجام میپذیرد. نوع دیگر «خزش محتوایی»[33] است که با کمک خزش پیوندی، براساس محتوای اسنادی که صفحات وب را تشکیل میدهند، انجام میگیرد. چایترا و همکاران[34] (۲۰۱۸) خزش را به سه دسته تقسیم کردهاند:
الف) خزشگر متمرکز[35] که بهصورت انتخابی، صفحات وب مرتبط با موضوع موردنظر را میکاود؛ ب) خزشگر افزایشی[36] که با بازدید مکرر صفحات وب، اطلاعات بهروزشده در آن صفحات را پیدا و بهروزرسانی میکند؛ ج) خزشگر توزیعی[37] که در این شیوه، فرایند خزش توسط یک سرور مرکزی به سایر خزشگرها محول میشود.
3ـ2. مدلسازی موضوع در دادههای رسانههای اجتماعی
برای پردازش داده و استخراج موضوعات از دادهها به ابزار پردازشی نیاز است. برای این هدف، از ابزار مالت[38] (McCallum, 2002) استفاده میکنیم. مالت یک بستۀ نرمافزاری است که به زبان برنامهنویسی جاوا[39] نوشته شده و برای پردازشهای آماری زبان طبیعی، مانند دستهبندی[40]، خوشهبندی، مدلسازی موضوع و «استخراج اطلاعات»[41]، به کار میرود. در این ابزار، روش نمونهگیری گیبس در الگوریتم تخصیص دریشله پنهان، که در مدلسازی موضوع استفاده میشود، پیادهسازی شده است. در این پژوهش، از ابزار مالت برای استخراج موضوعها از دادههای فارسی حاصل از رسانههای اجتماعی استفاده میکنیم.
خروجی الگوریتم مدلسازی موضوع دو ماتریس φ و θ است. در ماتریس φ، سطرها معرف موضوعها و ستونها نشاندهندۀ واژگان است. هر سطر حاوی ۲۰ واژهای است که بالاترین توزیع احتمالاتی را نسبت به موضوع انتزاعی مرتبط با آن سطر دارد؛ در ماتریس θ، سطرها معرف نظرات شبکۀ اجتماعی و ستونها معرف موضوعهاست و هر سطر حاوی توزیع احتمالاتی موضوعات انتزاعی نظرات مربوط است. ازآنجاکه الگوریتم مدلسازی موضوع جزء الگوریتمهای پارامتری محسوب میشود، نیاز است تعداد موضوعات از ابتدای فرایند خوشهبندی مشخص شود. خروجی بهدستآمده از این ابزار یک «خوشهبندی نرم»[42] است؛ به این مفهوم که توزیع احتمالاتی هر نظر به تعداد موضوعات انتزاعی مشخصشده محاسبه میشود.
3ـ3. کاربرد هشتگ در دادههای رسانههای اجتماعی
میدانیم نظرات منتشرشده در رسانههای اجتماعی، علاوه بر خود نظر، حاوی یک برچسب محتوایی است که با علامت # شروع و بهاصطلاح، «هشتگ[43]» نامیده میشود. معمولاً بین محتوای متن و هشتگهای استفادهشده ارتباط محتوایی وجود دارد. ازآنجاکه نظرات در رسانههای اجتماعی کوتاه است، بافت کامل برای جملات نوشتهشده وجود ندارد تا یک متن منسجم شکل بگیرد. این هشتگها کار فراداده[44] را انجام میدهند و در تکمیل اطلاعات زبانی اثر دارند. از ترکیب نظرات و این هشتگها تا حدودی انسجام درونی متن و محتوا شکل میگیرد. تسور و راپوپورت[45] (۲۰۱۲) از بررسی محتوایی هشتگها برای پیشبینی توزیع نظرات در جامعه استفاده کردهاند. گوراجالا و متیوس[46] (۲۰۱۸) تحلیل هشتگهای توییتر را برای فهمیدن عکسالعمل جامعه به کیفیت هوا به کار بردهاند. در این پژوهش، از نظرات توییتر در یک بازۀ زمانی دوساله استفاده شده است تا همبستگی بسامد اعلام نظرات و کیفیت هوا، در سه شهر پاریس، لندن و دهلینو، سنجیده شود.
با نگاهی به مجموعهنظرات رسانههای اجتماعی، میتوان به این فرضیه رسید که بین نظرات و هشتگها نوعی همبستگی وجود دارد. یکی از روشهای آماری برای محاسبۀ همبستگی، «ضریب همبستگی پیرسون»[47] است. همبستگی یک شیوۀ آماری است که برای مقایسۀ دو متغیر کمّی پیوسته استفاده میشود. در همبستگی، شدت پیوستگی دو متغیر سنجیده میشود. این ضریب عددی بین ۱ تا 1- است. اگر ضریب همبستگی پیرسون عدد ۱ باشد، بیانگر رابطۀ مستقیم بین دو متغیر است؛ به این مفهوم که با هرگونه تغییر در یک متغیر، متغیر دیگر نیز تغییر میکند. چنانچه این ضریب عدد 1- باشد، رابطۀ معکوس بین دو متغیر وجود دارد که با افزایش یک متغیر، متغیر دیگر کاهش مییابد. اگر این ضریب صفر باشد بیانگر عدم وجود رابطۀ خطی بین این دو متغیر است (Boddy & Smith, 2009: 92-94). از تساوی (۴) برای محاسبۀ ضریب همبستگی پیرسون استفاده میشود:
4) |
|
که در این تساوی، N تعداد جفتهای موردنظر برای مقایسه است، xy∑ مجموع تعداد توالی جفتهای موردنظر است، x∑ مجموع تعداد متغیر x و y∑ مجموع تعداد متغیر y است، x2∑ مجموع مجذور تعداد متغیر x و y2∑ مجموع مجذور تعداد متغیر y است.
در این پژوهش، میکوشیم بر زبان فارسی متمرکز شویم و ضمن استخراج موضوعها از میان نظرات و پیامهای مرتبط با کرونا به زبان فارسی در رسانههای اجتماعی، به بررسی همبستگی رابطۀ موضوعها و هشتگها نیز بپردازیم. برای تحلیل هشتگها، از ضریب همبستگی پیرسون میان موضوعها و هشتگها استفاده میکنیم. در این راستا، هر موضوع با برداری به ابعاد تعداد نظرات نمایش داده میشود و همچنین، هر هشتگ نیز با برداری با همین ابعاد نشان داده میشود. برای این منظور، تعداد ۲۴ موضوع و ۲۰۱ هشتگ در نظر گرفته شده است. معیار انتخاب تعداد هشتگها بسامدشان است؛ به این صورت که هشتگهای دارای بسامد بالای ۱۰۰ برای این منظور انتخاب شدهاند. با داشتن این بردار برای هریک از موضوعات و هشتگها، ضریب همبستگی پیرسون استخراج میشود و از این میان، زوج موضوعـوـهشتگهایی که همبستگی بالا دارد گزارش و تحلیل میشود.
۴. گردآوری دادههای پژوهش
برای انجام هر پژوهش زبانشناختی، به پیکرۀ زبانی نیاز است. قیومی (1393) فهرستی از پیکرههای زبانی موجود برای زبان فارسی را معرفی کرده و به مشکل واژگان خارج و چالش سامانههای پردازش زبان پرداخته است. این مشکل، در شرایطی که واژهها و اصطلاحات جدید مربوط به کرونا وارد زبان شده، حادتر است؛ چراکه معمولاً سامانههای پردازش زبان با پیکرههای موجود آموزش دیدهاند و بهدلیل عدم بهروزبودن پیکرهها، واژهها و اصطلاحات جدید در این پیکرههای موجود یافت نمیشود. ازآنجاکه مقالۀ حاضر بر بیماری کرونا متمرکز است، پیکرههای عمومی معرفیشده کارکرد لازم را ندارد؛ بنابراین، نیاز است یک پیکرۀ تخصصی در این حوزه تهیه شود.
این پیکرۀ زبانی از طریق خزش در نظرات و پیامهای کاربران رسانههای اجتماعی اینستاگرام و تلگرام تهیه شده است. شیوهای که برای خزش این دو رسانۀ اجتماعی استفاده شده از نوع خزش افزایشی است. دادههای بهدستآمده از طریق خزش، بدون هرگونه ساختارمندی و بهمنظور داشتن قابلیت کاربرد در یک پژوهش، نیاز است ضمن ساختارمندسازی، نوفه داده کاهش یابد. ازاینرو، در مرحلۀ پیشپردازش، چندین اقدام انجام شده است که در ادامه، مراحل آن توضیح داده میشود. لازم به ذکر است از مجموعهنظراتی که در رسانههای اجتماعی منتشر میشود، از نظر زبانی و محتوایی، بسیار متنوع است. باتوجهبه اهداف این پژوهش، نظرات و پیامهای خزششده مرتبط با موضوع کرونا که به زبان فارسی بودهاند، بهعنوان پیکرۀ زبانی موردنیاز در این پژوهش، استفاده میشود. شایانذکر است وجود واژههایی که غلط املایی داشته باشند و یا به گونۀ زبانی محاورهای یا گویشی نوشته شده باشند دور از انتظار نیست و از این نظر، تغییری در دادۀ اصلی ایجاد نکردهایم تا داده طبیعی به نظر برسد.
4ـ1. مراحل پیشپردازش
4ـ1ـ1. ساختارمندسازی داده
بهمنظور ساختارمندسازی دادۀ زبانی، قیومی (1398) چندین ساختار را معرفی کرده و باتوجهبه نیاز، کار ساختارمندسازی داده را انجام داده است (قیومی، ۱۳۹۸). دادۀ گردآوریشده از نظرات کاربران در شبکههای اجتماعی حاوی ۶ ستون است. ستون اول حاوی نمایۀ پیام است؛ ستون دوم و سوم حاوی منبع و تاریخ انتشار نظر است؛ ستون چهارم حاوی اطلاعات درمورد بازنشر نظر است و در ستون پنجم، نام حساب کاربری فرد در رسانۀ اجتماعی که نظری را بازنشر کرده ذکر شده است؛ و در نهایت، ستون ششم حاوی محتوای نظر است.
4ـ1ـ2. بهنجارسازی
نظرات خزششده از رسانههای اجتماعی چند مشکل اساسی دارد که کاربردیشدن آن را با چالش مواجه میکند. اول اینکه تنوع در تلفنهای هوشمند سبب شده است کدگذاریهای متون یکدست نباشد؛ بنابراین، نیاز است نظرات، از نظر کد، یکدستسازی شوند و همگی به کد استاندارد UTF8 تبدیل گردند. ناگفته نماند این نوع یکدستسازی موجب میشود تنوع در حروف، مانند «ک»، «ی» یا «ے» عربی، از بین برود. مشکل دیگر این نوع داده استفاده از شکلک[48] در متن نظرات و گاهی بهعنوان خود نظر است. در این پژوهش، بهصورت دستی، کد هریک از این شکلکها شناسایی شد و از محتوای نظرات حذف شد.
۴ـ1ـ3. واحدسازی
رعایت فاصلهگذاری بیرونی بین واژهها و درج نیمفاصلۀ درونی در یک واژه یکی از چالشهای بسیار مهم در تشخیص واژه است که بر کیفیت شیوههای پردازش زبان طبیعی مبتنی بر آمار تأثیر میگذارد. برای مثال، عدم رعایت فاصلهگذاری صحیح سبب میشود رایانه زنجیرۀ «ویابهتراست» را بهعنوان یک واژه تلقی کند، زیرا برای رایانه، فاصلۀ بین واژهها بهعنوان معیار تشخیص یک واژه تعریف شده است. عکس این موضوع نیز صادق است، مانند «دانشآموز» که بهدلیل وجود فاصلۀ کامل بهجای نیمفاصله، بهعنوان دو واژه شمارش میشود. برای کاهش این مشکلات در انجام این پژوهش، از الگوریتم معرفیشده توسط قیومی (1397) برای واحدسازی[49] متن استفاده کردهایم. این الگوریتم سهمرحلهای است. در مرحلۀ اول، کار تفکیک چندواحدیها به واژههای مستقل یا ترکیب وندها با پایهها در متن صورت میپذیرد. در مرحلۀ دوم، به واحدسازی فعل پرداخته میشود و صورتهای صرفی فعل با یکدیگر ترکیب میشوند. در مرحلۀ سوم، امکان ساخت واحدهای واژگانی از زنجیرههای چندواحدی میسر میشود؛ این واحدها در مرحلۀ اول از یکدیگر تفکیک شدهاند و ترکیب آنها با یکدیگر میتواند به ساخت یک واحد واژگانی منجر شود. نتایج عملی گزارششده که روی واحدسازی پیکرۀ آزمونی، با نمونهگیری تصادفی از پایگاه دادۀ زبان فارسی (عاصی، 1384)، تهیه شده حاکی از صحت[50] 80/97 درصد در واحدسازی و میزان 02/0 درصد تولید خطا توسط الگوریتم معرفیشده است.
4ـ2. پیکرۀ نظرات کرونا
برای تهیۀ «پیکرۀ نظرات کرونا» از نظرات کاربران فارسیزبان دو رسانۀ اجتماعی اینستاگرام و توییتر، پس از جمعآوری تمامی نظرات در بازۀ زمانی ۳۰ بهمن ۱۳۹۸ تا ۳۱ خرداد ۱۳۹۹، واژۀ «کرونا» به زبان فارسی در این مجموعهداده جستجو شد. نظراتی که حاوی این واژه بود استخراج شد و با ساختارمندسازی و ذخیرهسازی آن، بهعنوان پیکرۀ زبانی هدف در این پژوهش مورد استفاده قرار گرفت. در جدول (۱)، اطلاعات آماری استخراجشده از این مجموعهداده گزارش شده است.
جدول ۱. اطلاعات آماری استخراجشده از «پیکرۀ نظرات کرونا»
اطلاعات آماری |
مقدار |
نسبت نظرات بازنشرشده |
58/0 |
نظرات بازنشرشده |
۱۳۴٫۹۳۵ |
تنوع هشتگها |
19/0 |
هشتگهای بدون تکرار |
۵۴٫۳۸۳ |
هشتگهای با تکرار |
۲۹۳٫۱۵۲ |
تنوع واژگانی |
032/0 |
واژههای بدون تکرار |
۲۱۶٫۱۸۲ |
واژههای با تکرار |
۶٫۶۸۶٫۲۴۴ |
تعداد نظرات |
۲۳۳٫۵۵۷ |
همان گونه که در جدول (۱) مشاهده میشود، حجم زیادی از نظرات درحقیقت بازنشر نظرات دیگران است. این ویژگی موجب کاهش تنوع واژگانی شده است؛ بنابراین، نیاز است نظرات بازنشرشده حذف شوند. در جدول (۲)، اطلاعات آماری «پیکرۀ نظرات کرونا»، بدون درنظرگرفتن نظرات بازنشرشده، گزارش شده است. با حذف نظرات بازنشرشده، حدود نیمی از نظرات کنار گذاشته شد و در این پژوهش مورد استفاده قرار نگرفت. همچنین، حذف این نظرات به افزایش تنوع واژگانی و تنوع هشتگها منجر شد.
جدول ۲. اطلاعات آماری استخراجشده از «پیکرۀ نظرات کرونا» بدون نظرات بازنشرشده
تنوع هشتگها |
هشتگها ی بدون تکرار |
هشتگهای با تکرار |
تنوع واژگانی |
واژههای بدون تکرار |
واژههای با تکرار |
تعداد نظرات |
16/0 |
۳۰٫۵۶۱ |
۱۹۰٫۵۱۱ |
053/0 |
۱۷۹٫۰۰۴ |
۳٫۳۸۴٫۹۳۸ |
۹۹٫۸۱۳ |
۵. نتایج بهدستآمده
5ـ1. تنظیمات آزمایشها
هدف این پژوهش، تحلیل محتوایی نظرات کاربران رسانههای اجتماعی و یافتن اهم موضوعاتی است که در نظرات آنها انعکاس داده شده است. علاوه بر یافتن موضوعات، وجود رابطۀ همبستگی بین موضوع نظرات و هشتگهای تخصیصدادهشده نیز بررسی خواهد شد.
برای ارائۀ آمار نظرات از تحلیل موضوعات این پژوهش، که در بخش 5ـ2 توضیح داده میشود، نیاز است «خوشهبندی نرم» ارائهشده توسط الگوریتم مدلسازی موضوعی را به «خوشهبندی سخت»[51] تبدیل کنیم؛ به این مفهوم که برای هر متن، فقط یک موضوع انتزاعی تعیین شود. معیار انتخاب موضوع انتزاعی کاندید، موضوعی است که بالاترین احتمال را برای آن متن دارد. در مرحلۀ بعد، نیاز است موضوعهای انتزاعی، که بهواسطۀ مجموعۀ ۲۰ واژهای در فایل φ الگوریتم مدلسازی موضوع مشخص و معرفی شدهاند، توسط یک انسان خبره، بهصورت دستی، فراتحلیل شود و هویت آن موضوع، با یک برچسب محتوایی، مشخص گردد. شایانذکر است در بخش 5ـ3، جایی که همبستگی موضوعات و هشتگها ارائه میشود، خوشهبندی نرم در بررسی انجامشده مورد استفاده قرار میگیرد.
5ـ2. نتایج تحلیل موضوعی
در این پژوهش، دادۀ ورودی ابزار مالت، پیکرۀ نظرات کروناست. تعداد موضوعاتی که نیاز است برای ابزار مالت تنظیم شود، بهصورت تجربی، تعداد ۲۴ موضوع براساس پیکرۀ موجود تعیین شد تا موضوعهای انتزاعی استخراج شوند. سپس، براساس ۲۰ واژۀ هر موضوع، بهصورت دستی، برچسب هر موضوع مشخص شد. در جدول (۳)، مجموعۀ برچسب موضوعها، توزیع آماری هر موضوع و ۵ واژهای که بیانگر آن موضوع است گزارش شدهاند.
جدول 3. موضوعات استخراجشده از پیکرۀ کرونا
واژههای موضوع |
برچسب موضوعی |
درصد نسبی نظرات |
بسامد نظرات |
ردیف |
حکومت، ملت، انتخابات، اتحاد، دشمن |
سیاسیـداخلی |
36/14 |
۱۴۳۳۴ |
۱ |
خودکشی، زندگی، عادی، مسافرت، رعایت |
اجتماعی |
20/10 |
۱۰۱۷۶ |
۲ |
خونه، کار، مامانم، بیدار، دوست، زنگ |
خانواده |
51/6 |
۶۵۰۱ |
۳ |
ستاد، وضعیت، مدیریت، بحران، شرایط |
مدیریت بحران |
99/5 |
۵۹۷۴ |
۴ |
دعا، حرم، نماز، دین، اسلام |
مذهبی |
96/5 |
۵۹۴۹ |
۵ |
مبتلایان، تعداد، ابتلا، افزایش، قربانیان |
اخبار داخلی کرونا |
11/5 |
۵۱۰۱ |
۶ |
سگ، خر، الاغ، نفهم، بیشعور |
توهینآمیز |
82/4 |
۴۸۱۳ |
۷ |
آمریکا، اروپا، تجهیزات، غرب، تحریم |
اخبار بینالملل کرونا |
84/3 |
۳۸۳۷ |
۸ |
قرنطینه، رعایت، جلوگیری، انتقال، قطع |
فاصلهگذاری اجتماعی |
74/3 |
۳۷۳۰ |
۹ |
ماسک، ویروس، الکل، ضدعفونی، دستکش |
بهداشتی |
73/3 |
۳۷۲۵ |
۱۰ |
دلار، پول، قیمت، نفت، بازار |
اقتصادی |
70/3 |
۳۶۹۸ |
۱۱ |
ترامپ، جهان، جنگ، رژیم، حمله |
سیاسیـخارجی |
48/3 |
۳۴۷۲ |
۱۲ |
سال، عید، مبارک، تبریک، شادی |
نوروز |
42/3 |
۳۴۱۱ |
۱۳ |
آزمایش، مشکوک، مثبت، بستری، علائم |
تشخیص کرونا |
10/3 |
۳۰۹۱ |
۱۴ |
واکسن، داروی، کشف، تست، کیت |
درمان |
05/3 |
۳۰۴۵ |
۱۵ |
بیمارستان، کادر، مبارزه، پزشکان، سلامت |
پزشکی |
81/2 |
۲۸۰۰ |
۱۶ |
حرف، دروغ، توییت، جواب، گوش |
داستانک |
80/2 |
۲۷۹۶ |
۱۷ |
هرات، ولایت، صحت، کابل، #هرات_در_بحران |
افغانستان |
54/2 |
۲۵۳۸ |
۱۸ |
#کرونا_را_شکست_میدهیم، #ویروس، #کرونادرایران، #در_خانه_بمانیم، #قرنطینه |
پویش و هشتگهای کرونایی |
27/2 |
۲۲۶۶ |
۱۹ |
فیلم، برنامه، نمایش، تیم، #موسیقی |
سرگرمی |
05/2 |
۲۰۴۳ |
۲۰ |
زندان، زندانیان، فرار، آزاد، مرخصی |
کرونا و زندان |
90/1 |
۱۸۹۸ |
۲۱ |
سایت، پست، آنلاین، ارسال، پیج |
رسانه |
76/1 |
۱۷۵۸ |
۲۲ |
دی، شکست، هواپیما، بنزین، زلزله |
رویدادهای غمانگیز سال ۹۸ |
65/1 |
۱۶۴۲ |
۲۳ |
#بوتیک، #لباس، #تحویل، #اسپرت، دایرکت |
تبلیغات |
22/1 |
۱۲۱۵ |
۲۴ |
در ادامه، نمونههایی از پنج موضوع پربسامد ارائه میشود تا ضمن نمایش عملکرد الگوریتم مدلسازی موضوع، امکان فراتحلیل دادهها فراهم شود.
5 ـ2ـ1. موضوع سیاسیـداخلی
الف) اِعمال سیاستهای جهانی کنترل جمعیت در ایران بارها مورد تذکر رهبری قرار گرفته است. یکی از دلایل تلفات بالای #کرونا در اتحادیه اروپا افزایش کهولت و کاهش نسبت جوانان در هرم سنی است. دولتها باید به این چالش جهانی #کنترل_جمعیت توجه کنند.
ب) روش جدیدی که دشمن علیه ایران در جریان معضل ویروس کرونا پیش گرفته فشار بر روی مردم و انتساب آن به رهبری است. برخی اصلاحطلبان نیز دشمن را همراهی میکنند. خوب است آگاهیهای لازم در این مورد داده شود و راههای مقابله با این حربه باید طراحی و اجرایی بشوند.
ج) افراد و شبکههایی که معتقدند تحریمها فقط حکومت ایران را در بر گرفته نه مردم را و هدف براندازی نظام این کشور نیست، نمونۀ تحریمی ایران را در مورد ایتالیا، که ششمین اقتصاد برتر دنیاست اعمال کنند! ایتالیا در بحران کرونا مجبور به دزدیدن ماسک شده، تحریم مالی، دارو و... هم بماند.
د) مبارزه با کرونا اتحاد مسئولین سیاسی و مردم را میخواهد. باید که #متحدانه در این راستا حرکت کنیم که خداینخواسته از فاجعۀ انسانی #جلوگیری شود. همه میدانیم که #کرونا وضعیت سیاسی، اقتصادی و اجتماعی را در جهان تغییر میدهد.
5 ـ2ـ2. موضوع اجتماعی
الف) پیام جکی چان به مردم ایران: قوی باش چین! قوی باش ایران! جکی چان بازیگر مطرح و بینالمللی اهل چین، همراه با جمعی از بازیگران چینی، با ارسال پیامی، از مردم ایران و چین خواست قوی بمانند. این پیام به پاس کمکهای بشردوستانه و پیامهای روحیهبخش ایران برای کشور چین در هنگام مبارزه با #کرونا ارسال شده، چون آنها معتقدند دوست واقعی هر کشوری در هنگام سختیها مشخص خواهد شد.
ب) بعد از کرونا، چند روز همه جَوگیرن، به این صورت که از کافه رفتن و قدم زدن تو خیابون و... لذت میبرن و قدر همدیگهرو میدونن ولی بعدش بازم همه چیز برمیگرده به روال عادی و روزمرگی همهمون رو دیوونه میکنه.
ج) اولین خودکشی به دلیل کرونا؛ وزیر دارایی ایالت آلمان خودکشی کرد، زیرا نگران بود نتواند با تأثیرات منفی کرونا مقابله و انتظارات مردم در این باره را برآورده کند. او خود را در ریل قطار انداخت و قبل از آن، با دلنوشتهای دلیل خودکشی را اعلام کرده بود.
د) من میتونم بگم بارها به این فکر میکردم که این روش خودکشی آسونترینه و اگر روزی بخوام انجام بدم این کارو میکنم. بعد این ویدیو و اون صدای تهش کاملاً منصرف شدم ـ یه میلیاردر ایتالیایی چون کل خانوادهش بر اثر کرونا مردن، خودشو میکشه.
5ـ2ـ3. موضوع خانواده
الف) حتی اگه زنگ بزنن که لطفاً بیا قرارداد ببندیم برای ادامۀ همکاریمون نمیرم، تا آخر کرونا هم خونه میمونم. از جون مامان بابام مهمتر نیست.
ب) حس میکنم در دنیای پساکرونا! آدمها و فامیل از هم دورتر میشن. دیگه مثل قبل مسافرت خونه هم نمیرن و شاید مهمانیها یه دورهمی سادۀ یهساعته تو رستوران و کافه بشه.
ج) همسایه روبهروییمون خانوادگی کرونا گرفتن. مامانم دمبهساعت زنگ میزنه میگه پنجرۀ خونهتو ببند کرونا میاد تو.
د) نمیدونم روز چندم قرنطینه است. اگر تقویم چک نکنم، حتی نمیدونم چندشنبه است. فقط اینکه دیگه دل و دماغ ندارم. اگر هم از اینور اونور روحیه میگیرم، سهچهار ساعت بیشتر دووم نداره. دوباره رفتم تو مود تنهایی. همۀ ناتیفیکیشنهای معاشرتی تعطیله. فقط اینجا میام یه چیزی شر میکنم و بعد پیش خودم میگم چه کار مسخرهای بود. فکر کنم اگر بر اثر کرونا نمیریم، افسردگی، دپرشنهای شدید خواهیم گرفت. مخصوصاً برای ماهایی که تنهاییم، تنها زندگی میکنیم، یه کشور دیگهایم. انقدر حساس شدم که با کوچکترین انگولکی، کنترل خودم رو از دست میدم. تنها دلخوشی این روزام شده آشپزی. که اونم نمیدونم تا کی ادامه داشته باشه. اصلاً تا کی قراره تو خونه بشینیم، من اصلاً آدم تنهایی و خونهنشینی نیستم و خودم میدونم دارم دپرشن میگیرم. این روند ادامه داشته باشه، نمیدونم تهش قراره با خودم چجوری رفتار کنم.
5ـ2ـ4. موضوع مدیریت بحران
الف) همسفران عزیز؛ با توجه به نگرانیهای موجود از شیوع کرونا، تور این هفته رو کنسل کردیم. باتوجهبه اخبار ضدونقیضی که بیرون اومده و آمار کشتهشدگان که بیشتر شده، نسبت به کنسل کردن تورهای پیش رو حساسیت بیشتری به خرج میدیم و اگه لازم باشه، تا زمان بهبود شرایط، تمام تورها رو کنسل میکنیم. لطفاً مراقب خودتون باشید و توصیههای پزشکی رو جدی بگیرید.
ب) فردا سر کار رفتن ممنوع است. کیانوش جهانپور، سخنگوی وزارت بهداشت، امروز دربارۀ آغاز به کار برخی مشاغل از روز شنبه (16 فروردین) گفت تمامی مشاغل باید تابع مصوبات ستاد مقابله با کرونا باشن.
ج) اطلاعرسانی کرونا. وزیر بهداشت، در نامهای، به رئیسجمهوری اعلام کرد که نامۀ وزارت صمت، مبنی بر بازگشایی کلیۀ مشاغل، با نقش، مسئولیت و جایگاه ستاد ملی مقابله با کرونا مغایرت دارد.
د) گویا نحسی ویروس کرونا بیشتر دامن مدعیان توسعهیافتگی و پیشرفت را گرفته است. شیوع بیماری کرونا، با این سرعت وحشتناک، نشان از وضعیت اسفناک بهداشت در کشورهای بهظاهر تمیز دارد.
5ـ2ـ5. موضوع مذهبی
الف) دعا کنیم برای دلهای شکسته... برای کسانی که مشکل افتاده تو زندگیشون... برای صبر بازماندگانی که عزیزانشون رو از دست دادن... خدایا از تو برای همه آرامش میخوام، دنیای خالی از کروناویروس قسمت کن.
ب) در دورانی که حرمها و مساجد و نمازجمعه تعطیل است و مؤمنین اجتماعات دینی را بهخاطر پیشگیری از شیوع بیماری کرونا لغو کردهاند، پلیس 111 مرد و زن را در یک پارتی مختلط شبانه در شهریار دستگیر کرد!
ج) #کرونا ثابت کرد کسانی که میگفتن وقت نداریم نماز قضا و روزه و خوندن قرآن و نهجالبلاغه و کتاب آقای مطهری و... بخونم... بهانه بود، چون تو این یک ماه فقط لم دادن تو مجازی از ترس دارن پیام ارسال میکنند.
د) از بیانات این عالم دین؛ ویروس کرونا برای کفار عذاب است، برای فاسق تنبیه است و برای مسلمان رحمت!
همانطور که در جدول (۳) مشخص است، دو موضوع «سیاسیـداخلی» و «اجتماعی» محور حدود ۲۵٪ از نظرات در پیکرۀ نظرات کرونای بوده است. موضوع «تبلیغات» کمترین حجم از نظرات (2/1٪ نظرات) را در پیکرۀ مذکور به خود اختصاص داده است. از میان ۲۴ موضوعی که درمورد بیماری کرونا مطرح شده است، تعداد ۱۰ موضوع مستقیماً با خود ویروس کرونا و ماهیت همهگیری آن مربوط است: «مدیریت بحران»، «اخبار داخلی کرونا»، «اخبار بینالملل کرونا»، «فاصلهگذاری اجتماعی»، «بهداشتی»، «تشخیص کرونا»، «درمان»، «پزشکی»، «پویش و هشتگهای کرونایی» و «کرونا و زندان». این موضوعات بیش از ۳۵٪ از حجم نظرات مطرحشده در پیکرۀ نظرات را به خود اختصاص داده است.
میدانیم زبان فارسی بین کشورهای ایران، افغانستان و تاجیکستان مشترک است و ممکن است علاوه بر ایران، افرادی از دو کشور دیگر نیز نظرات خود را در رسانههای اجتماعی انعکاس دهند. با استخراج موضوعات، مشخص شد موضوع «افغانستان» 54/2٪ از نظرات را به خود اختصاص داده است که معرف نظرات به زبان فارسی در افغانستان در کنار نظرات به زبان فارسی در ایران است.
5ـ3. نتایج تحلیل هشتگها
در پیکرۀ نظرات کرونای بررسیشده، ۱۹۰٫۳۵۲ هشتگ در نظرات یافت شد که بدون درنظرگرفتن تکرار، تعداد ۳۰٫۹۸۵ هشتگ باقی ماند. از این تعداد، ۱۹٫۱۹۶ هشتگ در نظرات (بهطور نسبی 98/10٪) فقط یک بار به کار رفته است و تعداد ۲۰۱ هشتگ بیش از ۱۰۰ بار تکرار شده بودند. در جدول (۴)، فهرست ۱۰ هشتگ پرکاربرد در نظرات گزارش شده است. ۸ هشتگ اول بر موضوع کرونا متمرکز است و خود هشتگ کرونا، یعنی #کرونا، بیشترین کاربرد را داشته است.
جدول 4. فهرست ۱۰ هشتگ پرکاربرد در نظرات
درصد نسبی |
تعداد |
هشتگ |
درصد نسبی |
تعداد |
هشتگ |
76/0 |
۱۴۳۷ |
#کرونا_ویروس |
46/11 |
۲۱۸۰۵ |
#کرونا |
69/0 |
۱۳۱۳ |
#کرونا_را_شکست_میدهیم |
48/1 |
۲۸۱۹ |
#کروناویروس |
64/0 |
۱۲۲۵ |
#در_خانه_بمانیم |
44/1 |
۲۷۳۴ |
#ایران |
61/0 |
۱۱۷۰ |
#سراب_غرب |
33/1 |
۲۵۳۹ |
#ویروس_کرونا |
61/0 |
۱۱۵۶ |
#تهران |
83/0 |
۱۵۸۸ |
#قرنطینه |
تحلیل دیگری که در این پژوهش ارائه میشود به بررسی وجود رابطه بین موضوع و هشتگهای مرتبط با آن موضوع میپردازد. برای این هدف، از ضریب همبستگی پیرسون استفاده میشود. همانطور که در بخش 3ـ3 توضیح داده شد، امتیاز ضریب همبستگی پیرسون عددی بین ۱ تا 1- است. در این پژوهش، اگر امتیاز ضریب همبستگی پیرسون صفر باشد، هیچگونه ارتباطی بین موضوع و هشتگ وجود ندارد؛ هرچقدر امتیاز بهدستآمده به سمت ۱ میل کند، این ارتباط بیشتر است و اگر به سمت 1- میل کند، رابطۀ معکوس میان آن هشتگ و آن موضوع برقرار است که بیانگر عدم نمایش آن هشتگ در آن موضوع است. در جدول (۵)، هشتگهایی که بالاترین ضریب همبستگی پیرسون را با موضوع داشتهاند گزارش شدهاند.
براساس نتایج گزارششده در جدول (۵)، همبستگیهای کشفشده بین اکثر موضوعات استخراجشده از پیکرۀ کرونا و هشتگهای انتخابشده توسط کاربران منطقی و معنادار است. بهعنوانمثال، بین موضوع «پزشکی» و هشتگ «#جهادگران_سلامت» همبستگی بالایی وجود دارد؛ به این معنا که این هشتگ، در اکثر مواقع، در نظرات، مرتبط با موضوع «پزشکی» به کار رفته و در سایر موضوعات، مانند «سیاسی» و «اجتماعی»، به کار نرفته است.
شایانذکر است این ضریب همبستگی برای تمام موضوعات استخراج نشده است؛ به این معنا که بین برخی موضوعات، مانند «تشخیص کرونا»، «رسانه»، «داستانک» و «توهینآمیز»، و هشتگهای بهکاررفته برای آنها همبستگی وجود ندارد و ضریب همبستگی بین این موضوعات و هشتگها در حدود صفر است.
جدول 5. همبستگی میان هشتگ و موضوع نظرات
هشتگ |
موضوع |
هشتگ |
موضوع |
#ایران_قوی، #وزارت_بهداشت |
درمان |
#قرنطینه، #قرنطینه_خانگی، #مرگ |
اجتماعی |
#رأی، #عید_نوروز، #انتخابات |
رویدادهای پیرامون |
#سراب_غرب، #ایران_قوی، #پزشکان_بدون_مرز، #آمریکا، #ایتالیا، تحریم |
اخبار بینالملل کرونا |
#فوتبال، #استقلال، #فیلم، #موسیقی |
سرگرمی |
وزارت_بهداشت، #کوویید، #ویروس_کرونا |
اخبار داخلی کرونا |
#آزادی، #رأی، #تحریم، #امید، #جمهوری_اسلامی، #سپاه، #ایران، #اعتراضات_سراسری |
سیاسیـداخلی |
#افغانستان، #Afghanistan |
افغانستان |
#عراق، #سراب_غرب، #آمریکا، #ترامپ، #چین، #امریکا |
سیاسیـخارجی |
#جهش_تولید، #تحریم، #دولت |
اقتصادی |
#در_خانه_بمانیم، #قرنطینه |
فاصلهگذاری اجتماعی |
#الکل، #ویروس، #پیشگیری، #ماسک، #کرونادرایران |
بهداشتی |
#تبریز |
کرونا و زندان |
#جهادگران_سلامت، #پرستاران، #مدافعان_سلامت، #پرستار، #باهم_علیه_کرونا |
پزشکی |
#روحانی، #مجلس، #وزارت_بهداشت، #کرونا، #ویروس_کرونا، #شماره_ 4030، #رهبری، #دولت، #حسن_روحانی، #همه_با_هم_علیه_کرونا |
مدیریت بحران |
#کرونادرایران، #کروناویروس |
پویش کرونایی |
#امام_زمان، #ظهور، #کربلا، #خدا |
مذهبی |
#تیشرت، #شلوار، #بوتیک_محب، #کاپشن، #boutiquemoheb |
تبلیغات |
#نوروز، #عید، #سال_نو، #در_خانه_بمانیم، #در_خانه_میمانیم |
نوروز |
#قرنطینه، #قرنطینه_خانگی |
خانوادگی |
۶. نتیجهگیری و جمعبندی
در این پژوهش، تلاش شد با جمعآوری نظرات و پیامها از رسانههای اجتماعی توییتر و اینستاگرام و انتخاب موارد مربوط به کرونا، یک پیکرۀ زبانی تخصصی به نام «پیکرۀ نظرات کرونا» از نظرات و پیامهای کاربران این دو رسانۀ اجتماعی تهیه شود. پس از پیشپردازش این پیکره، با بهرهگیری از یک شیوۀ الگوریتمی در تحلیل گفتمان، به تحلیل محتوایی این پیکره و خوشهبندی نظرات، براساس موضوعهای نهان در آنها، پرداخته شد. 24 موضوع انتزاعی از پیکرۀ کرونا استخراج شد و هر موضوع، براساس واژههای با احتمال بالا، توسط ناظر انسانی برچسبزنی شد. این پیکره و روششناسی پردازشی معرفیشده بستری را برای تحلیلهای متفاوت متخصصان حوزههای مختلف علومانسانی فراهم آورده است که در این پژوهش، فقط به دو نمونه از تحلیلهای ممکن در بررسی محتوای نظرات و هشتگها پرداخته شده است.
با بررسی دادههای «پیکرۀ نظرات کرونا» و آمار بهدستآمده از پردازش موضوعی آن میتوان گمانهزنی کرد که اگرچه رسالت رسانههای اجتماعی اطلاعرسانی، آگاهسازی و نشر اطلاعات است، موضوعات «سیاسی» و «اجتماعی» و تبادل نظر دربارۀ آنها حدود ۲۵٪ از نظرات در این پیکره را در بر گرفته است. این به آن مفهوم است که در جامعۀ ایران، دغدغههای سیاسی و اجتماعی بیش از هر موضوعی، مانند شیوع همهگیری بیماری کرونا که سلامتی آحاد جامعه را تحتالشعاع قرار میدهد، مورد توجه است و رسانههای اجتماعی زمینهای را برای ابراز این دسته از نظرات فراهم آورده است. موضوعاتی که در این پیکره مستقیماً به خود ویروس کرونا و ویژگیهای یک همهگیری مربوط بود طیف متنوعی داشت که در لابهلای نظرات به چشم خورد. از میان این موضوعات، «مدیریت بحران» از بیشترین اهمیت نزد کاربران برخوردار بود. امکاناتی مانند رسانههای اجتماعی میتواند، در شکل یک رسانه، به رسالت اولیۀ خود که همانا نشر اطلاعات و آگاهی است بپردازد. ازاینرو، میتوان از ظرفیت رسانههای اجتماعی برای اطلاعرسانی استفاده و به افزایش سطح دانش عمومی افراد جامعه در شیوع یک همهگیری کمک کرد.
از رابطۀ همبستگی بین موضوعات و هشتگها چنین نتیجه گرفته شد که این هشتگها تصادفی نبودهاند و کاربر، آگاهانه، از محتوای معنایی فشردۀ آن برای توصیف یک متن کوتاه استفاده میکند. ازاینرو، استفادۀ صحیح هشتگها میتواند به وضوح مطلب کمک شایانی کند.
دستاوردهای مهم این پژوهش یافتن راهکاری رایانشی برای بیان وجود رابطۀ معنایی بین محتوای یک متن کوتاه (موضوع متن) و هشتگهای تعریفشده برای آن است. این دستاورد میتواند زمینهساز پژوهشهای آتی باشد، به این صورت که امکان خوشهبندی هشتگها، پیشبینی خودکار هشتگ براساس مطلب نوشتهشده و همچنین، پیشنهاد خودکار هشتگ مناسب براساس متن به کاربر فراهم شود. وجود چنین امکاناتی به افزایش انسجام درونی بیشتر در متن کوتاه میانجامد.
تعارض منافع
تعارض منافع ندارم.
ORCID
Masood Ghayoomi |
|
http://orcid.org/0000-0001-6685-1332 |
[1]. Coronavirus
[2]. COVID-19
[3]. corpus-driven
[4]. de Saussure, F.
[5]. topic modeling
[6]. Papadimitriou et al.
[7]. text mining
[8]. cluster
[9]. Hofmann, T.
[10]. Blei et al.
[11]. Latent Diritlet Allocation
[12]. Diritlet prior distribution
[13]. Gibbs sampling
[14]. Dong et al.
[15]. Sonbhadra et al.
[16]. classifier
[17]. CORD-19 (COVID-19 Open Research Dataset)
[18]. https://pages.semanticscholar.org/corona-virusresearch
[19]. doc2vec
[20]. Abd-Alrazaq et al.
[21]. unique
[22]. like
[23]. follower
[24]. Ordun et al.
[25]. pattern matching
[26]. uniform manifold approximation and projection
[27]. Kaila, R. P., & Prasad, A. V. K.
[28]. information flow
[29]. Web crawling
[30]. crawl
[31]. Bailey et al.
[32]. link crawling
[33]. content crawling
[34]. Chaitra et al.
[35]. focused Web crawler
[36]. incremental Web crawler
[37]. distributional Web crawler
[38]. Mallet
[39]. Java
[40]. classification
[41]. information extraction
[42]. soft clustering
[43]. hashtag
[44]. meta-data
[45]. Tsur, O., & Rappoport, A.
[46]. Gurajala, S., & Matthews, J. N.
[47]. Pearson correlation coefficient
[48]. emoji
[49]. tokenization
[50]. accuracy
[51]. hard clustering
https://doi.org/10.1101/2020.03.26.20044164
http://mallet.cs.umass.edu.