The First Semantic Role Corpus in Persian Language

Mirzaei, Azade; Moloodi, Amir Saeid

doi:10.22054/ls.2014.3104

Document Type : Research Paper

Authors

Azade Mirzaei ¹
Amir Saeid Moloodi ²

¹ Assistant Professor, Department of Linguistics, Allameh Tabataba’i University, Tehran;

² Assistant Professor, Department of Foreign Languages and Linguistics, Shiraz University;

https://doi.org/10.22054/ls.2014.3104

Abstract

The first semantic roles corpus in Persian language, containing about 30,000 sentences from contemporary Persian language, is manually annotated. This corpus, based on the concept of thematic roles of Fillmore, adds a layer of predicate-argument information to the syntactic structures of Persian Dependency Treebank. In this corpus, the verbs, propositional nouns and adjectives are regarded as the predicates of the sentences and are annotated according to their argument structure. The data was prepared based on Conference on Natural Language Learning (CoNLL) dependency format. Semantic tags used as the semantic annotations include thematic roles and functional tags. Thematic roles labels present the argument structure of the predicates of the sentences, and functional tags modify the verb or the whole sentence. The number of thematic roles tags and functional tags are 27 and 15, respectively. The two tags of NEGATION and MODALS are used as the functional tags.

Keywords

Full Text

تولید پیکره‌های برچسب‌خوردۀ زبانی و بهره‌گیری از آن‌ها در امر یادگیری ماشینی از جمله اقداماتی است که دست‌یابی به حداکثر ظرفیت‌ها را هدف قرار داده است. انسان از قوۀ اندیشه برخوردار است و دست‌یابی به لایه‌های مختلف زبان برایش امری طبیعی و ناخودآگاه محسوب می‌شود. از سوی دیگر، ماشین از ویژگی سرعت در پردازش اطلاعات بهره می‌برد. ترکیب این دو ویژگی موجب دست‌یابی به اطلاعات لایه‌های مختلف زبان با امکان دسته‌بندی، استخراج و پردازش اطلاعات در سریع‌ترین زمان ممکن خواهد شد.

مفهوم

بر این اساس، در بررسی ماشینیِ زبانِ آدمی که با هدف استخراج، دسته‌بندی و پردازش اطلاعات برای کاربردهایی چون ترجمۀ ماشینی، سامانۀ پرسش‌و‌پاسخ، مشابهت‌یابی، ویرایش متن و مانند آن انجام می‌شود، هدف نهایی، دست‌یابی به مفهوم است. برای این منظور، دسترسی به اطلاعات موجود در لایه‌های مختلف متن (نوشتاری یا گفتاری) ضروری است، اما ازآنجاکه بهترین نوع اطلاعات، برای ماشین، صوری‌ترینِ آن‌هاست، تهیۀ پیکره‌های زبانی از صوری‌ترین سطوح زبان آغاز می‌گردد و همچنان که شکل (1) نشان می‌دهد، دست‌یابی ماشین به سطوح مختلف زبان، مرحله‌به‌مرحله انجام می‌شود و برای کسب تجربۀ ماشینی، گذر از صرف، نحو، معنی و گفتمان به‌ترتیب صورت می‌گیرد. به بیان دیگر، ماشین از اطلاعات هر سطح بهره می‌برد تا سطح بعدی را بفهمد و این روند ادامه می‌یابد تا نهایتاً به مفاهیم پنهانِ در پس متون دسترسی کامل پیدا کند.

شکل 1) سطوح تحلیل زبان

در پیکره‌سازی برای مقاصد یادگیری ماشینی، در نخستین سطح از سطوح زبان برچسب اجزاء سخن² و اطلاعات صرفی مربوط به واژه‌های زبان تعیین می‌شوند. نمونه‌ای از برچسب‌گذاری اطلاعات صرفی در جملۀ (1) ارائه شده است. از جملۀ این پیکره‌ها در زبان فارسی می‌توان به پیکرۀ بی‌جن‌خان³ (2011) اشاره کرد.

1) پسر	کتاب‌هایی	خرید.
اسم، جاندار، مفرد	اسم، بی‌جان، جمع	فعل، گذشتۀ، ساده، سوم شخص مفرد

در سطح نحو، نقش هر واژه در ارتباط با واژه‌های دیگر جمله مطرح است. در این سطح، اطلاعات نحوی جملات و عبارت‌های زبانی برحسب رویکرد زبان‌شناختی هر پیکرۀ نحوی و غالباً در ارتباط مستقیم با فعل جمله (به‌عنوان مرکز ثقل ساختاری جمله) مشخص می‌شود. برای مثال، تحلیل نحوی جملۀ زیر در ارتباط با فعل «زدن» صورت پذیرفته است.

2) علی	تابلو را	به دیوار	زد.
فاعل	مفعول	مفعول حرف اضافه

تظاهرات نحوی متفاوت افعال، عموماً حکایت از معناهای متفاوت دارند. برای مثال، همان ‌طور که در نمونه‌های 3 و 4 دیده می‌شود، ظرفیت‌های نحوی متفاوت فعل «زدن» معنی‌های متفاوت آن را به دست داده است و این یعنی اینکه تعیین و یادگیری صورت‌بندی‌های نحوی متفاوت، راهی به سوی تشخیص معنی است.

3) علی دوستش را زد. < فاعل،(مفعول)[را+]>

4) علیپوسترهارابه دیوار زد. < فاعل،(مفعول)[را+/-]،(مفعول حرف‌اضافه‌ای) [به|بر|روی|زیر] >

پیکرۀ نحوی وابستگی زبان فارسی (رسولی و همکاران، 2013) این ارتباطات نحوی را طبقه‌بندی و ارائه کرده است، اما نکته در این است که تنوع‌های زبانی به همین‌جا ختم نمی‌شوند و بلافاصله صورت‌هایی پدیدار می‌شوند که علی‌رغم یکسان بودن ساخت نحوی‌شان، معانی متفاوت دارند. برای مثال، اگر دو جملۀ «آن‌ها داور را زدند» و «آن‌ها موهایشان را زدند» را با یکدیگر مقایسه کنیم، درمی‌یابیم که فعل «زدن» با دو معنای متفاوت (یکی کتک زدن و دیگری کوتاه کردن) در هر دو جمله دارای ساخت نحوی واحد <فاعل، مفعول> است. همین نکته، یعنی یکسان بودن ساخت نحوی با وجود تفاوت‌های معنایی، یادگیری ماشینی را با مشکل مواجه کرده و این امر نشانگر اهمیت تولید پیکرۀ نقش‌های معنایی برای پردازش ماشینی است.

5) آن‌ها داور را زدند. فاعل، (مفعول)[را+/-] کنشگر، کنش‌پذیر

6) آن‌ها موهایشان را ‌ زدند. فاعل، (مفعول) [را+/-] سبب، کنش‌گذار

در این موارد دسترسی به لایۀ معنایی می‌تواند در ابهام‌زدایی از گزاره‌ها مفید واقع شود.

البته گاهی عکس نکتۀ فوق نیز در زبان رخ می‌دهد؛ به این معنی که صورت‌هایی ارائه می‌شوند که علی‌رغم یکسان بودن معنی و اشاره به یک گزارۀ واحد معنایی، ساخت نحوی متفاوت دارند. در این موارد نیز اگر ماشین فقط به اطلاعات نحوی، تکیه کند، در تحلیل زبان با مشکل مواجه می‌شود.

7) علی	غذا را	پخت.
فاعل	مفعول
8) غذا	پخت.
فاعل

فعل «پختن» در دو مثال (7) و (8) به‌لحاظ معنایی یک گزارۀ واحد محسوب می‌شود، اما بدون آنکه مجهول شده باشد و ساخت‌واژۀ آن تغییر کرده باشد، دو ساخت نحوی متفاوت را به نمایش گذاشته است. بنابراین، اتکا به سطح نحو سبب می‌شود ماشین برای فعل «پخت» به‌اشتباه، دو معنی متفاوت را دریافت کند.

کارآمدی اطلاعات معنایی در امور پردازشی ارزشمندی همچون ترجمۀ ماشینی، خلاصه‌سازی، سامانه‌های پرسش‌وپاسخ و غیره، سبب شده است تا به شکل فزاینده‌ای، حتی با صرف هزینه‌های بالا، برای زبان‌های مختلف چنین پیکره‌هایی ساخته شود.

2. پیشینۀ مطالعات

شمار پیکره‌های معنایی نسبت به پیکره‌های نحوی کمتر است. در زبان انگلیسی پروپ‌بنک⁴ (پالمر⁵ و همکاران، 2005)، فریم‌نت⁶ (بیکر⁷ و همکاران، 1998) و ورب‌نت⁸ (دانگ⁹ و همکاران، 1998؛ کیپر¹⁰ و همکاران، 2000) از مهم‌ترین طرح‌های معنایی هستند که هدفشان دستیابی به اطلاعات گزاره‌های معنایی است. پروپ‌بنک، پیکرۀ دادگان معنایی زبان انگلیسی، با روش‌شناسی مشخص در تعریف نقش‌های معنایی، لایه‌ای از اطلاعات مربوط به نقش‌های معنایی را به پیکرۀ دادگان نحوی پن‌تری‌بنک¹¹ (مارکوس¹²، 1993) افزوده است. در این پیکره برای پرهیز از مناقشات موجود در تعریف نقش‌های معنایی، برحسب شباهت میان نقش‌ها، از اختصارات شماره‌ای از صفر تا 5 استفاده شده است. تمایز میان دو نقش Arg0 و Arg1 بر اساس اثر دوتی¹³ (1991) انجام شده است. لازم به توضیح است که پیکرۀ بزرگ نقش‌های معنایی زبان فارسی بر اساس این رویکرد نیز برچسب‌گذاری شده که بحث در خصوص شیوۀ تولید و آمار مربوط به آن در اثر دیگری به‌طور مبسوط ارائه می‌شود.

زبان آلمانی نیز با افزودن لایه‌ای از اطلاعات معنایی به پیکرۀ دادگان نحوی خود، یعنی پیکرۀ نحوی تایگر¹⁴ (برانتس¹⁵ و دیگران، 2002)، پیکرۀ 40 هزار جمله‌ای گزاره‌های معنایی زالسا¹⁶ (بورخارت¹⁷، 2006) را به دست داده است.

در زمینۀ شیوۀ ارائۀ پیکره‌های نحوی و معنایی، در بین زبان‌ها تنوع به چشم می‌خورد؛ به این صورت که در برخی از زبان‌ها همچون دو مورد اخیر، پروژه‌های معنایی و نحوی در دو مرحلۀ جدا و مستقل ارائه شده‌اند؛ زبان چینی نیز جزو این گروه از زبان‌هاست که پیکرۀ گزاره‌های معنایی (خو¹⁸ و پالمر، 2009) و پیکرۀ نحویِ (خو، 2005) خود را در دو مرحلۀ مجزا تهیه و ارائه کرده است. در برخی دیگر از زبان‌ها، اطلاعات هر دو سطح نحو و معنا در یک پیکرۀ واحد گردآوری شده است؛ پیکرۀ اسپانیایی و کاتالان (توله¹⁹و همکاران، 2008) متعلق به این گروه از زبان‌هاست. نهایتاً در گروهی دیگر از زبان‌ها، همچون زبان ژاپنی (کاواهارا²⁰، 2002) بخشی از پیکرۀ نحوی موجود برچسب‌گذاری معنایی شده است. تولید پیکره‌های گزاره‌های معنایی برچسب‌خورده در زبان‌های مختلف به‌سرعت رو به افزایش است.

3. پیکرۀ بزرگ نقش‌های معنایی زبان فارسی

پیکرۀ بزرگ نقش‌های معنایی زبان فارسی، لایۀ معنایی را بر روی پیکرۀ نحوی وابستگی زبان فارسی (رسولی و همکاران، 2013) قرار داده است. مجموعۀ جملات برچسب‌خورده حدود 30.000 جمله است. در هر یک از جملات پیکره، بر مبنای دستور حالت فیلمور²¹ (1978،1998، 2001) کلیۀ نقش‌های معنایی مربوط به افعال، اسم‌های گزاره‌ای و صفات گزاره‌ای تعیین شده‌اند. علاوه‌براین، چون پیکرۀ حاضر مجموعه‌ای از جملات را شامل می‌شود، در کنار سازه‌های موضوع، سازه‌های غیرموضوع شامل افزوده‌ها و برخی اطلاعات کلامی نیز برچسب‌گذاری شده‌اند.

مبدأ

منظور از اسم گزاره‌یدر گزاره‌ای، اسم‌هایی هستند که همانند فعل‌ها، ساخت موضوعی²² دارند، اما برخلاف فعل، به متمم‌های خود حالت نمی‌دهند و قادر به حمل شناسه‌های فعلی هم نیستند (کریمی‌دوستان، 1386). به‌عنوان نمونه‌ای از اسامی گزاره‌ای می‌توان به واژۀ «اخراج» در عبارت «اخراج آدم از بهشت» اشاره کرد. چون اسم «اخراج» ساخت موضوعی دارد، آن را متعلق به طبقۀ اسامی گزاره‌ای می‌دانیم. موضوع‌های هستۀ اسمی مذکور در عبارت فوق عبارت‌اند از: «آدم» (مکان‌دار²³) و «از» (مکان). باید به این نکته اشاره کرد که در پیکرۀ حاضر، برچسب‌زنی معنایی اسم‌های گزاره‌ای بر اساس برچسب‌زنی معنایی فعل صورت گرفته است؛ به این معنی که اسم‌های مشتق از فعل‌ها را همانند فعل‌ها برچسب می‌زنیم.

9) اخراج آدم از بهشت

مکان‌دار

همچنین، صفات گزاره‌ای آن گروه از صفاتی هستند که می‌توانند همانند محمول‌های فعلی، ساخت موضوعی داشته باشند. برای مثال، در گروه صفتی «خوشحال از قبولی»، گروه حرف‌اضافه‌ای از قبولی،یکی از موضوع‌های صفت خوشحال است و بنابراین، خوشحالیک صفت گزاره‌ای است. لازم به ذکر است که چون تعداد زیادی از افعال مرکب زبان فارسی در پیکرۀ حاضر در بخش فعل‌یارِ خود صفت داشتند، تعداد صفات گزاره‌ای در این بخش کاهش یافته است.

خروجی داده‌های برچسب‌خورده بر اساس الگوی همایش زبان‌شناسی رایانه‌ای و پردازش زبان طبیعی (CoNLL)²⁴ فراهم آمده است. در جدول زیر برخی از اطلاعات آماری پیکره ارائه شده است.

جدول 1) آمارهای مربوط به پیکره

تعداد کل جملات	۲۹٫۹۸۲
میانگین طول هر جمله	۶۱/۱۶
تعداد کل افعال	62889
تعداد فعل منحصربه‌فرد	9200
تعداد اسم‌های گزاره‌ای منحصربه‌فرد	1300
تعداد صفات گزاره‌ای منحصربه‌فرد	300

4. برچسب‌های معنایی

1ـ4. نقش‌های معنایی

فیلمور در دستور حالت، فهرستی از نقش‌های معنایی را با عناوینی همچون حالت کنادی²⁵، حالت وسیله‌ای²⁶، حالت تأثیرپذیری²⁷، حالت تحققی²⁸، حالت مکانی²⁹ و حالت مفعولی³⁰ تعریف کرد (دبیرمقدم، 1389). از آن زمان تا به امروز، نوع و تعداد نقش‌های معنایی همیشه محل بحث و اختلاف نظر بوده است. ورب‌نت با استفاده از فهرستی از نقش‌های معنایی و بر اساس طبقه‌بندی لوین³¹ (1993)، مجموعه‌ای از افعال زبان انگلیسی را دسته‌بندی و قاب معنایی هر یک از آن‌ها را مشخص کرده است. پیکرۀ بزرگ نقش‌های معنایی زبان فارسی بر اساس نقش‌های مورد نظر ورب‌نت که ریشه در نقش‌های معنایی فیلمور دارد، برچسب‌گذاری شده است. لازم به توضیح است که با توجه به برخی ویژگی‌های منحصربه‌فردِ زبان فارسی، برخی از این نقش‌ها در هم تلفیق شده و درمقابل، برخی نقش‌های دیگر به این مجموعه اضافه شده‌اند.

فهرستی از نقش‌های معنایی به‌کاررفته در پیکرۀ بزرگ نقش‌های معنایی در جدول شمارۀ 2 مشخص شده است. تعاریف مشخص کنشگر، کنش‌پذیر و مانند آن، به دلیل سابقۀ حضور در پیشینۀ مطالعات زبان‌شناسی یا به دلیل شفافیت معنایی (همانند مفاهیم دارنده یا مقدار)، نیازی به بازتعریف ندارند. از این میان، نقش‌های هم‌کنش‌پذیر، هم‌کنشگر و هم‌مکان‌دار در تعیین افعال دوسویه و افعال ترکیبی مورد استفاده قرار گرفتند؛ به بیان دیگر، در افعال کنشی مانند گفتگو کردن، دو شرکت‌کنندۀ فعال به‌عنوان کنشگر و هم‌کنشگر برچسب می‌گیرند و در صورت‌های فعلی همچون مخلوط کردن، ترکیب کردن، جوش دادن و مانند آن، دو شرکت‌کنندۀ مخلوط‌شونده هم‌کنش‌پذیرند.

تمایز سه‌تایی کنش‌پذیر (شرکت‌کنندۀ تحت تأثیر فعل)، مکان‌‌دار (شرکت‌کننده‌‌ای که در سکون یا حرکت است و فعل به وضعیت آن اشاره می‌کند) و کنش‌بر (شرکت‌کننده‌ای که نقطۀ مقابل کنش فعل است اما از آن تأثیر نمی‌گیرد) دسته‌بندی ویژه و منحصر به پیکرۀ بزرگ دادگان معنایی زبان فارسی است.

مکان غیرفیزیکی یا وضعیت‌ها در شرایطی که رویداد فعلی به آن‌ها ختم می‌شوند، «نتیجه‌»اند و در شرایطی که فعل از سمت آن‌ها آغاز می‌شود، «منشأ» هستند. در همین خصوص، «پذیرنده» شرکت‌کنندۀ جانداری است که نقطۀ پایان/انجام و یا هدف فعل قرار می‌گیرد.

10) او این مسئله رااز مننمی‌پذیرد.

منشأ

11) او نوشته‌اش رابه داستانتبدیل کرد.

نتیجه

12) علی مداد رابه دوستشداد.

پذیرنده

«دربارگی»موضوع رخداد و رویداد جمله است و «آغاز و انجام» در بازه‌های زمانی، نقطۀ شروع و پایان رویداد محسوب می‌شوند.

13) علیبا دوستش در مورد خاطراتشانصحبت می‌کردند واین صحبت ازصبحتا ظهرطول کشید.

هم‌کنشگر دربارگی آغاز انجام

و در نهایت، «نسبت»³² عنوانی است برای ویژگی که به دیگرشرکت‌کننده‌ها نسبت و یا اسناد داده می‌شود.

جدول 2) فهرست نقش‌های معنایی پیکره

کنشگر	کنش‌پذیر	آغاز	هم‌کنشگر	پذیرنده
کنش‌پذیر	کنش‌بر	انجام	هم‌کنش‌پذیر	نتیجه
تجربه‌گر	مکان‌دار	مقدار	هم‌مکان‌دار	منشأ
سبب	دارنده	مکان	نسبت	مبدأ
بهره‌ور	دارایی	محرک	دربارگی	مقصد

2ـ4. افزوده‌ها

افزوده‌ها خود به سه گروه افزوده‌های حاشیه‌ای³³، افزوده‌های وجهی³⁴ و افزوده‌های متنی³⁵ تقسیم می‌شوند. افزوده‌های حاشیه‌ای، اطلاعاتی در خصوص منظور، علت، زمان، مکان، شرایط، روش و مقدار محمول‌ها ارائه می‌دهند. افزوده‌های وجهی نظر نویسنده یا گوینده را در خصوص میزان قطعیت و امکان وقوع گزاره بیان می‌کنند و تمامی انواع آن‌ها اعم از وجه‌نماهای برداشتی³⁶، توانمندی³⁷ و شواهدی³⁸، با هر تظاهر زبانی اعم از فعل، قید، گروه حرف‌اضافه‌ای و مانند آن، برچسب وجه‌نما دریافت می‌کنند. افزوده‌های متنی نیز پیونددهنده‌هایی هستند که بین جمله‌ها ارتباط برقرار می‌کنند.

از میان افزوده‌های حاشیه‌ای، سه افزودۀ همراهی، وصف و مرجع‌دار با سایر افزوده‌های این گروه تفاوت دارند. این سه افزوده برخلاف سایر اعضای این گروه که به‌لحاظ معنایی در ارتباط مستقیم با فعل جمله هستند، در ارتباط مستقیم با موضوع‌ها تعریف می‌شوند؛ به این ترتیب که افزودۀ همراهی، شخصی حقیقی یا حقوقی است که کنشگر جمله را در انجام کنش همراهی می‌کند، افزودۀ وصف افزوده‌ای است که با موضوع‌ها در یک رابطۀ اسنادی قرار دارد و به‌تنهایی می‌تواند در قالب یک وضعیت گزاره‌ای به‌کار‌رود و نهایتاً، افزودۀ مرجع‌دار به‌عنوان نظیر وجودی موضوع‌ها تعریف می‌شود. برای مثال، در جملۀ «علی با دوستش به سینما رفت»، گروه حرف‌اضافه‌ای «با دوستش» که در انجام کنش رفتن به سینما، علی را همراهی کرده است، برچسب «همراهی» دریافت می‌کند یا در جملۀ «علی خوشحال وارد کلاس شد»، «علی» و «خوشحال» در یک رابطۀ اسنادی با یکدیگر قرار دارند و «خوشحال» خود دارای معنای گزاره‌ای است؛ بنابراین، کلمۀ «خوشحال» برچسب «وصف» را دریافت می‌کند. در جمله‌ای نظیر «آن‌ها خودشان کارهایشان را انجام می‌دهند» نیز کلمۀ «خودشان» که نظیر وجودی «آن‌ها» محسوب می‌شود، برچسب «مرجع‌دار» را به خود اختصاص می‌دهد.

هدف، نقشی همانند بهره‌ور دارد، اما ازآنجاکه در ظرفیت فعل حضور ندارد، در ردیف افزوده‌ها قرار می‌گیرد. برای مثال، در جملۀ «او به خاطر من برای این امتحان خیلی تلاش می‌کند.»، «من» به‌عنوان هدف برچسب‌گذاری می‌شود.

قیدهای فراوانی همانند هرگز، گاهی، اغلب و مانند آن، برچسب تکرار دریافت کردند و صورت‌هایی چون نه ... نه...،به‌عنوان نفی برچسب‌گذاری شدند. لازم به توضیح است که برچسب نفی برای زبان‌هایی چون انگلیسی، آلمانی و زبان‌های دیگری که از سازۀ مشخص و جدا برای مفهوم نفی استفاده می‌کنند، معنادارتر است؛ در زبان فارسی عنصر نفی با وندافزایی مشخص می‌شود و در بخش صرف می‌تواند تعیین وضعیت شود.

فهرستی از افزوده‌های حاشیه‌ای و وجهی پیکرۀ حاضر در جدول شمارۀ (3) ارائه شده است. لازم به توضیح است که در روند برچسب‌گذاری، اگر نوع افزوده در هیچ‌یک از طبقات مورد اشاره قرار نگرفته باشد، از عنوان پوششی قید استفاده شده است.

جدول 3) فهرست افزوده‌های حاشیه‌ای و وجهی پیکره

جهت	روش	هدف
مکان	شرط	تکرار
زمان	ابزار	نفی
مقدار	همراهی	قید
منظور	وصف	وجه‌نما
علت	مرجع‌دار

زمان

شرط

مکان

شرط

زمان

14) پس از صرف نهار در صورت تمایل دوستان در اطراف کمپ گشت خواهیم زد.

کنش‌پذیر

تجربه‌گر

فعل‌ساز

برای نمونه، نوع افزوده‌ها در جملۀ 14 مشخص شده‌اند. همان ‌طور که ملاحظه می‌شود، جملۀ فوق دو محمول اسمی و یک محمول فعلی دارد که زیرشان خط کشیده شده است. هر یک از وابسته‌های محمول‌ها نیز برحسب نقششان در جمله یا عبارت، یک برچسب معنایی دریافت کرده‌اند.

3ـ4. نقش‌های کلامی

نقش‌های کلامی در پیکرۀ حاضر دربردارندۀ سه برچسب پیونددهندۀ گفتمانی، مبتدا و پیوند بند موصولی³⁹ است. پیونددهنده‌های گفتمانی آن دسته از سازه‌های زبانی هستند که کارکرد اصلی‌شان برقراری ارتباط میان جملات است. برای مثال، زنجیرۀ «به عبارت دیگر» در فاصلۀ میان دو جمله، از مصادیق پیونددهنده‌های گفتمانی به شمار می‌رود. برچسب مبتدا برای تعیین سازه‌های مبتداشدۀ ضمیرگذار مورد استفاده قرار می‌گیرد و نهایتاً برای نشان دادن حرکت بندهای اسمی اعم از متممی یا موصولی (توضیحی و توضیحی) از برچسب پیوند بند موصولی استفاده می‌شود که در بیش از 9400 بند اسمی، نسبت جایگاهی هستۀ بند و بند را مشخص کرده است.

5. فرایند برچسب‌گذاری پیکره

برای تهیۀ پیکرۀ مذکور دو درس‌نامۀ برچسب‌گذاری گزاره‌های فعلی و گزاره‌های اسمی تهیه شد و در اختیار برچسب‌زنان قرار گرفت. در میان راه نیز، بنا بر نیاز، یادداشت‌های تکمیلی به همراه مثال‌های کافی به مجموعۀ شیوه‌نامه‌ها اضافه شد. همچنین، اطلاعات نحوی جملات در تمام طول برچسب‌زنی در اختیار برچسب‌زنان قرار داشت.

فرایند برچسب‌گذاری پیکرۀ حاضر در سه مرحلۀ اصلی (البته به صورت هم‌زمان) انجام پذیرفت. در مرحلۀ نخست، محمول‌های فعلی، اسمی و صفات جملات شناسایی شدند. در مرحلۀ دوم، شرکت‌کنندگان محمول‌های مذکور برحسب نقششان در رویداد گزاره‌ای، برچسب معنایی مناسب را دریافت کردند. در مرحلۀ سوم نیز افزوده‌ها و برخی از ویژگی‌های کلامی ذکرشده در قسمت پیشین، هدف برچسب‌گذاری قرار گرفتند؛ همچنین، در جریان برچسب‌گذاری نقش‌های معنایی، فعل‌هایی که در معانی متفاوت به کار می‌رفتند، مشخص شده، ضمن دریافت ساخت ظرفیتی مناسب، شمارۀ مفهومی⁴⁰ متفاوتی از همتای همنام خود دریافت کردند. برای مثال، فعل «زدن» در معناهای دزدیدن،کتک زدن، نصب کردن، مانستن، ضربان داشتن و مانند آن، شمارۀ مفهومی متفاوتی دریافت کرده است.

6. اصلاح پیکره

برای به دست آوردن آمار معناداری از درستی روند برچسب‌زنی، حدود 6000 جمله به صورت دوبرچسبی آماده شد؛ به این ترتیب که یک جملۀ واحد توسط دو برچسب‌زن متفاوت که از خروجی کار یکدیگر مطلع نبودند، برچسب‌گذاری شد. سپس، اختلافات موجود در داده‌های دوبرچسبی گزارش شدند و توسط کاربر ناظر (نویسندگان مقالۀ حاضر) مورد بازبینی و اصلاح قرار گرفتند. لازم به توضیح است که برای دسترسی به اختلاف‌های میان داده‌های دوبرچسبی به منظور آمارگیری، داده‌های اصلاح‌شده در بخشی مستقل از اختلافات ذخیره شدند. همچنین، در پایان کار، یک برنامۀ غلط‌یاب آماده شد که هدف آن، گزارش تنوع‌های موجود در ساخت‌های ظرفیت معنایی هر فعل در کل پیکره بود؛ به این ترتیب که برای هر فعل، تمامی تنوع‌های ساختی آن در پیکره توسط برنامه گزارش می‌شد و ناظران دربارۀ این تنوع‌ها تصمیم‌گیری می‌کردند. اساساً تنوع‌های موجود در ساخت‌های ظرفیتی برنامۀ غلط‌یاب ممکن بود سه دلیل عمده داشته باشد. در حالت نخست، ممکن بود تنوع به دلیل چندمعنایی بودن فعل باشد؛ یعنی به‌طور مثال، برای فعل «زدن»در معناهای مختلف، ظرفیت‌های معنایی متفاوت در نظر گرفته شده باشد. در این حالت، امکان داشت برای معانی متفاوت فعل مذکور، به‌اشتباه شماره‌های مفهومی مستقلی در نظر گرفته نشده باشد که درنهایت این اشتباه توسط ناظران برطرف می‌شد. دلیل دوم تنوع‌ها، حذف بخشی از ساخت موضوعی یک فعل در جملات مختلف بود. به‌طور مثال، برنامۀ غلط‌یاب به دلیل مشاهدۀ تنوع موجود در ساخت‌های ظرفیتی فعل «گفت» در دو جملۀ زیر آن‌ها را گزارش می‌کرد. در این مورد هم اختلاف، طبیعی و مجاز بود و نیازی به اصلاح نداشت.

15) علی ماجرا را برای دوستش گفت. ساخت ظرفیتی: کنشگر، دربارگی، پذیرنده

16) علی ماجرا را گفت. ساخت ظرفیتی: کنشگر، دربارگی

دلیل سوم تنوع‌های ساخت‌های معنایی نیز خطاهای انسانی در برچسب‌زنی بود که توسط ناظران اصلاح شدند. البته باید خاطرنشان کرد که مرحلۀ اصلاح، نگهداری و بهینه‌سازی پیکره همچنان باز خواهد بود.

7. آمار

برای مقایسۀ نمای نحوی و معنایی زبان فارسی، از پیکرۀ نحوی زبان فارسی تعداد 6 مورد از پربسامدترین نقش‌های نحوی مرتبط با فعل، شامل فاعل، فعل‌یار، مفعول، مسند، مفعول حرف‌اضافه‌ای و متمم بندی فعل، در جدول (5) ارائه شده و سپس در مقابل هر یک از این 6 نقش، از پیکرۀ نقش‌های معنایی فارسی، تعداد 5 مورد از معادل‌های معنایی آن از پربسامدترین نقش‌های معنایی ارائه شده است. برای مثال، فاعل که در پیکرۀ دادگان نحوی زبان فارسی، فراوان‌ترین نقش نحوی مرتبط با فعل بوده است، در پیکرۀ نقش‌های معنایی زبان فارسی در 43 درصد از موارد به‌عنوان کنشگر، در 16 درصد موارد به‌عنوان کنش‌بر، در 9 درصد به‌عنوان تجربه‌گر، در 8 درصد به‌عنوان کنش‌پذیر و در 5 درصد از موارد به‌عنوان مکان‌دار برچسب خورده‌است. همان ‌طور که ملاحظه می‌شود، مجموع درصدهای مذکور در مورد ما‌به‌ازاهای معنایی نقش فاعل به عدد 81 می‌رسد و این نکته به این معناست که 19 درصد باقی‌مانده به نقش‌های معنایی دیگری اختصاص یافته که در جدول زیر نیامده‌اندند؛ بنابراین، در این جدول برای 6 نقش نحوی مذکور، تنها 5 ما‌به‌ازای معنایی پربسامد ذکر شده است.

جدول 5) پربسامدترین نقش‌های نحوی فعل در پیکرۀ نحوی به همراه درصدی از مابه‌ازاهای معنایی آنها

مفعول			فعل‌یار			فاعل
32	کنش‌بر		99	فعل‌ساز		43	کنشگر
25	کنش‌پذیر		046/0	کنش‌بر		16	کنش‌بر
14	فعل‌ساز		021/0	کنش‌پذیر		9	تجربه‌گر
7	مکان‌دار		018/0	کنشگر		8	کنش‌پذیر
3	دربارگی		012/0	نسبت		5	مکان‌دار
متمم بندی فعل			مفعول حرف اضافه‌ای			مسند
35		کنش‌بر	20		مکان	56		فعل‌ساز
4/1		وجه‌نما	19		فعل‌ساز	35		نسبت
3/1		محرک	82/11		پذیرنده	5/1		کنش‌بر
07/1		آغاز	45/11		کنش‌بر	08/1		کنشگر
91/0		نسبت	89/7		مقصد	58/0		مکان

فراوانی 10 رابطۀ معنایی پربسامد پیکره را در سه جدول (6)، (7) و (8) می‌توان مرور کرد. در جدول (6)، پربسامدترین روابط معنایی در میان تمامی برچسب‌های معنایی اعم از برچسب‌های موضوعی، افزوده‌ها و نقش‌های کلامی ارائه شده است که برچسب قید با 7/24 درصد و فعل‌ساز با 2/22 درصد به ترتیب بیشترین فراوانی را به خود اختصاص داده‌اند. جدول (7) به فراوانی 10 برچسب پربسامد نقش‌های معنایی (موضوعی) اختصاص دارد. همان ‌طور که ملاحظه می‌شود، برچسب کنش‌بر با 4/25 درصد و کنشگر با 18 درصد بیشترین بسامد را دارند. در جدول (8) نیز فراوانی 10 افزودۀ پربسامد پیکرۀ نقش‌های معنایی ارائه شده است و همان ‌طور که مشاهده می‌شود، افزودۀ مقدار با 18 درصد و افزودۀ زمان با 9/14 درصد دارای بالاترین بسامدها هستند.

جدول 6 فراوانی برچسب‌های پیکرۀ‌ معنایی (اعم از برچسب‌های موضوعی و افزوده‌ها)		جدول 7 فراوانی نقش‌‌های معنایی پیکره		جدول 8 فراوانی افزوده‌های معنایی
کل برچسب‌ها		نقش‌های معنایی		افزوده‌ها
قید	24/7	کنش‌بر	4/25	مقدار	18
فعلساز	22/2	کنشگر	18	زمان	9/14
کنش‌بر	12	کنش‌پذیر	9/11	قید	2/10
کنشگر	6/5	دربارگی	2/7	روش	8/9
کنش‌پذیر	5/6	نسبت	2/5	مکان	9/7
دربارگی	3/4	نتیجه	6/4	وصف	5/7
نسبت	2/5	تجربه‌گر	4/4	تکرار	8/4
نتیجه	2/2	مکان	3/4	شرط	01/4
B0	2/1	مکان‌دار	4	منظور	4
تجربه‌گر	2	پذیرنده	8/3	علت	3/3

8. نتیجه‌گیری

اثر حاضر به معرفی نخستین پیکرۀ نقش‌های معنایی برچسب‌خوردۀ زبان فارسی، تحت عنوان پیکرۀ بزرگ نقش‌های معنایی زبان فارسی می‌پردازد که اطلاعات سطح معنا را بر پیکرۀ نحوی وابستگی زبان فارسی افزوده است. در پیکرۀ حاضر تمامی وابسته‌های محمول‌های فعلی، اسمی و صفتی برحسب کارکردشان در جملات و عبارات زبانی، برچسب معنایی دریافت کردند و مجموعاً حدود 30،000 جمله در سطح معنا برچسب‌گذاری شدند. به منظور دست‌یابی به حداکثر دقت در برچسب‌زنی، درس‌نامه‌ها و دستورالعمل‌های مفصلی در اختیار برچسب‌زنان قرار گرفت و در طول فرایند برچسب‌زنی، تمامی اطلاعات سطح نحو در اختیار برچسب‌زنان قرار داشت. شایان ذکر است که در کنار پیکرۀ حاضر، دو محصول کارآمد دیگر تحت عنوان فرهنگ ظرفیت معنایی افعال فارسی و همچنین تجزیه‌گر خودکار معنایی نیز تهیه شد که جزئیات آن‌ها در آثار مستقل دیگری ارائه خواهد شد.

تقدیر و تشکر

طرح تولید پیکرۀ بزرگ معنایی زبان فارسی که دادۀ ارزشمندی را برای پژوهشگران زبان‌شناس، زبان‌شناسان رایانشی و مهندسین هوش مصنوعی فراهم آورده، با حمایت مرکز تحقیقات کامپیوتری علوم اسلامی نور انجام‌شده است. لازم است از گروه زبان‌شناس و رایانه‌ای مجموعه، ندا پورمرتضی خامنه، پریناز دادرس، مرتضی رضایی شریف‌آبادی، سلیمه زمانی، سارا شفیعی، فاطمه صدقی، سعیده قدردوست نخچی، منوچهر کوهستانی، مصطفی مهدوی و هومن مهیار که در مسیر تولید این پیکره همکاری داشتند، تشکر کنیم. همچنین، مراتب سپاس خود را از همکاری و حمایت ویژۀ دکتر مهدی بهنیافر ابراز می‌داریم.

References

دبیر مقدم، محمد. (1389). زبانشناسینظری: پیدایش و تکوین دستور زایشی. ویراست دوم، چاپ چهارم. تهران: سمت.

کریمی دوستان، غلامحسین. (1386). «اسامی و صفات گزاره‌ای در زبان فارسی»،. ادب و زبان فارسی3، 3: 202ـ187.

Baker, C. F., Fillmore, C. J., and Lowe, J. B. (1998). “The Berkeley FrameNet project”. Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics. Volume 1 (pp. 86-90). Association for Computational Linguistics.

Bi Jen Khan, M., Sheykhzadegan, J., Bahrani, M., and Ghayoomi, M., (2011). “Lessons from building a Persian written corpus: Peykare”. Language Resources and Evaluation. 45, no. 2: 164-143.

Brants, S., Dipper, S., Hansen, S., Lezius, W., and Smith, G. (2002). “The TIGER treebank”. Proceedings of the workshop on treebanks and linguistic theories (Vol. 168).

Burchardt, A., Erk, K., Frank, A., Kowalski, A., Padó, S., and Pinkal, M. (2006). “The SALSA corpus: a German corpus resource for lexical semantics”. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC).

Dowty, David R. (1991). “Thematic proto-roles and argument selection”. Language. 67(3):547–619.

Dang, H. T., Kipper, K., Palmer, M., and Rosenzweig, J., (1998, August). “Investigating regular sense extensions based on intersective Levin classes”. Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics-Volume 1 (pp. 293-299). Association for Computational Linguistics.

Fillmore, C. J. (1976). “Frame semantics and the nature of language”. Annals of the New York Academy of Sciences, Vol. 280, pp. 20-32.

ـــــــــــــــــ , and Atkins, B. S. (1998). “FrameNet and lexicographic relevance”. Proceedings of the First International Conference on Language Resources and Evaluation, Granada, Spain. pp. 28-30

ــــــــــــــــ , and Baker, C. F. (2001). “Frame semantics for text understanding”. Proceedings of WordNet and Other Lexical Resources Workshop.

Kipper, K., Dang, H. T., Schuler, W., & Palmer, M. (2000). “Building a class-based verb lexicon using TAGs”. TAG+5 Fifth International Workshop on Tree Adjoining Grammars and Related Formalisms, Paris, France.

Kawahara, D., Kurohashi, S., and Hasida, K. (2002). “Construction of a Japanese relevance-tagged corpus”. Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC-2002), pp. 2008–2013, Las Palmas, Canary Islands.

Levin, B. (1993). English Verb Classes and Alternations: A Preliminary Investigation. University of Chicago Press, Chicago.

Marcus, M. P., Marcinkiewicz, M. A., and Santorini, B. (1993). “Building a large annotated corpus of English: The Penn Treebank”. Computational Linguistics. 19(2). pp. 313–330.

Palmer, M., Kingsbury, P., and Gildea., D (2005). “The Proposition Bank: An Annotated Corpus of Semantic Roles”. Computational Linguistics. 31 (1). pp. 71–106

Rasooli, M. S., Kouhestani M., and Moloodi A. (2013). “Development of a Persian Syntactic Dependency Treebank”. Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. pp. 306–314.

Taulé, M., Martí, M. A., & Recasens, M. (2008). “AnCora: Multilevel Annotated Corpora for Catalan and Spanish”. Proceedings of the Sixth International Language Resources and Evaluation (LREC-08). pp. 96–101.

Xue, N., Xia, F., Chiou, F. D., & Palmer, M. (2005). “The Penn Chinese TreeBank: Phrase structure annotation of a large corpus”. Natural language engineering. 11(02). pp. 207-238.

ــــــــــ., and Palmer, M., (2009). “Adding semantic roles to the Chinese Treebank”. Natural Language Engineering. 15(1). pp. 143-172.

پی‌نوشت:
1. تولید نخستین پیکرۀ نقش‌های معنایی زبان فارسی با حمایت مرکز تحقیقات کامپیوتری علوم اسلامی صورت گرفته است.
  1. parts of speech
  2. Bi Jen Khan
  3. PropBank
  4. Palmer
  5. FrameNet
  6. Baker
  7. VerbNet
  8. Dang
  9. Kipper
  10. Penn Treebank
  11. Marcus
  12. Dowty
  13. TIGER
  14. Brants
  15. SALSA
  16. Burchardt
  17. Xue
  18. Taulé
  19. Kawahara
  20. Fillmore
  21. argument structure
  22. این برچسب معرف موضوع‌هایی است که دربارۀ وضعیت موقعیتی آنها صحبت می‌شود؛ بنابراین، این‌ها موضوع‌های ساکن یا در حرکت هستند.
    1. CoNLL= Conference on Natural Language Learning
    2. agentive
    3. instrumental
    4. dative
    5. factitive
    6. locative
    7. objective
    8. Levin
    9. attribute
    10. circumstantial adjunct
    11. mood adjunct
    12. textual adjunct
    13. epistemic
    14. deontic
    15. evidential
    16. relative clause link
sense

Language Science

The First Semantic Role Corpus in Persian Language

Full Text

Full Text

References

References

Volume 2, Issue 3 - Serial Number 3
December 2015
Pages 48-29

The First Semantic Role Corpus in Persian Language

Full Text

Full Text

References

References

Volume 2, Issue 3 - Serial Number 3December 2015Pages 48-29

Volume 2, Issue 3 - Serial Number 3
December 2015
Pages 48-29