Document Type : Research Paper
Authors
1 Assistant Professor, Department of Linguistics, Allameh Tabataba’i University, Tehran;
2 Assistant Professor, Department of Foreign Languages and Linguistics, Shiraz University;
Abstract
The first semantic roles corpus in Persian language, containing about 30,000 sentences from contemporary Persian language, is manually annotated. This corpus, based on the concept of thematic roles of Fillmore, adds a layer of predicate-argument information to the syntactic structures of Persian Dependency Treebank. In this corpus, the verbs, propositional nouns and adjectives are regarded as the predicates of the sentences and are annotated according to their argument structure. The data was prepared based on Conference on Natural Language Learning (CoNLL) dependency format. Semantic tags used as the semantic annotations include thematic roles and functional tags. Thematic roles labels present the argument structure of the predicates of the sentences, and functional tags modify the verb or the whole sentence. The number of thematic roles tags and functional tags are 27 and 15, respectively. The two tags of NEGATION and MODALS are used as the functional tags.
Keywords
تولید پیکرههای برچسبخوردۀ زبانی و بهرهگیری از آنها در امر یادگیری ماشینی از جمله اقداماتی است که دستیابی به حداکثر ظرفیتها را هدف قرار داده است. انسان از قوۀ اندیشه برخوردار است و دستیابی به لایههای مختلف زبان برایش امری طبیعی و ناخودآگاه محسوب میشود. از سوی دیگر، ماشین از ویژگی سرعت در پردازش اطلاعات بهره میبرد. ترکیب این دو ویژگی موجب دستیابی به اطلاعات لایههای مختلف زبان با امکان دستهبندی، استخراج و پردازش اطلاعات در سریعترین زمان ممکن خواهد شد.
مفهوم |
بر این اساس، در بررسی ماشینیِ زبانِ آدمی که با هدف استخراج، دستهبندی و پردازش اطلاعات برای کاربردهایی چون ترجمۀ ماشینی، سامانۀ پرسشوپاسخ، مشابهتیابی، ویرایش متن و مانند آن انجام میشود، هدف نهایی، دستیابی به مفهوم است. برای این منظور، دسترسی به اطلاعات موجود در لایههای مختلف متن (نوشتاری یا گفتاری) ضروری است، اما ازآنجاکه بهترین نوع اطلاعات، برای ماشین، صوریترینِ آنهاست، تهیۀ پیکرههای زبانی از صوریترین سطوح زبان آغاز میگردد و همچنان که شکل (1) نشان میدهد، دستیابی ماشین به سطوح مختلف زبان، مرحلهبهمرحله انجام میشود و برای کسب تجربۀ ماشینی، گذر از صرف، نحو، معنی و گفتمان بهترتیب صورت میگیرد. به بیان دیگر، ماشین از اطلاعات هر سطح بهره میبرد تا سطح بعدی را بفهمد و این روند ادامه مییابد تا نهایتاً به مفاهیم پنهانِ در پس متون دسترسی کامل پیدا کند.
شکل 1) سطوح تحلیل زبان
در پیکرهسازی برای مقاصد یادگیری ماشینی، در نخستین سطح از سطوح زبان برچسب اجزاء سخن2 و اطلاعات صرفی مربوط به واژههای زبان تعیین میشوند. نمونهای از برچسبگذاری اطلاعات صرفی در جملۀ (1) ارائه شده است. از جملۀ این پیکرهها در زبان فارسی میتوان به پیکرۀ بیجنخان3 (2011) اشاره کرد.
1) پسر |
کتابهایی |
خرید. |
اسم، جاندار، مفرد |
اسم، بیجان، جمع |
فعل، گذشتۀ، ساده، سوم شخص مفرد |
در سطح نحو، نقش هر واژه در ارتباط با واژههای دیگر جمله مطرح است. در این سطح، اطلاعات نحوی جملات و عبارتهای زبانی برحسب رویکرد زبانشناختی هر پیکرۀ نحوی و غالباً در ارتباط مستقیم با فعل جمله (بهعنوان مرکز ثقل ساختاری جمله) مشخص میشود. برای مثال، تحلیل نحوی جملۀ زیر در ارتباط با فعل «زدن» صورت پذیرفته است.
2) علی |
تابلو را |
به دیوار |
زد. |
فاعل |
مفعول |
مفعول حرف اضافه |
|
تظاهرات نحوی متفاوت افعال، عموماً حکایت از معناهای متفاوت دارند. برای مثال، همان طور که در نمونههای 3 و 4 دیده میشود، ظرفیتهای نحوی متفاوت فعل «زدن» معنیهای متفاوت آن را به دست داده است و این یعنی اینکه تعیین و یادگیری صورتبندیهای نحوی متفاوت، راهی به سوی تشخیص معنی است.
3) علی دوستش را زد. < فاعل،(مفعول)[را+]>
4) علیپوسترهارابه دیوار زد. < فاعل،(مفعول)[را+/-]،(مفعول حرفاضافهای) [به|بر|روی|زیر] >
پیکرۀ نحوی وابستگی زبان فارسی (رسولی و همکاران، 2013) این ارتباطات نحوی را طبقهبندی و ارائه کرده است، اما نکته در این است که تنوعهای زبانی به همینجا ختم نمیشوند و بلافاصله صورتهایی پدیدار میشوند که علیرغم یکسان بودن ساخت نحویشان، معانی متفاوت دارند. برای مثال، اگر دو جملۀ «آنها داور را زدند» و «آنها موهایشان را زدند» را با یکدیگر مقایسه کنیم، درمییابیم که فعل «زدن» با دو معنای متفاوت (یکی کتک زدن و دیگری کوتاه کردن) در هر دو جمله دارای ساخت نحوی واحد <فاعل، مفعول> است. همین نکته، یعنی یکسان بودن ساخت نحوی با وجود تفاوتهای معنایی، یادگیری ماشینی را با مشکل مواجه کرده و این امر نشانگر اهمیت تولید پیکرۀ نقشهای معنایی برای پردازش ماشینی است.
5) آنها داور را زدند. فاعل، (مفعول)[را+/-] کنشگر، کنشپذیر
6) آنها موهایشان را زدند. فاعل، (مفعول) [را+/-] سبب، کنشگذار
در این موارد دسترسی به لایۀ معنایی میتواند در ابهامزدایی از گزارهها مفید واقع شود.
البته گاهی عکس نکتۀ فوق نیز در زبان رخ میدهد؛ به این معنی که صورتهایی ارائه میشوند که علیرغم یکسان بودن معنی و اشاره به یک گزارۀ واحد معنایی، ساخت نحوی متفاوت دارند. در این موارد نیز اگر ماشین فقط به اطلاعات نحوی، تکیه کند، در تحلیل زبان با مشکل مواجه میشود.
7) علی |
غذا را |
پخت. |
فاعل |
مفعول |
|
8) غذا |
پخت. |
|
فاعل |
|
|
فعل «پختن» در دو مثال (7) و (8) بهلحاظ معنایی یک گزارۀ واحد محسوب میشود، اما بدون آنکه مجهول شده باشد و ساختواژۀ آن تغییر کرده باشد، دو ساخت نحوی متفاوت را به نمایش گذاشته است. بنابراین، اتکا به سطح نحو سبب میشود ماشین برای فعل «پخت» بهاشتباه، دو معنی متفاوت را دریافت کند.
کارآمدی اطلاعات معنایی در امور پردازشی ارزشمندی همچون ترجمۀ ماشینی، خلاصهسازی، سامانههای پرسشوپاسخ و غیره، سبب شده است تا به شکل فزایندهای، حتی با صرف هزینههای بالا، برای زبانهای مختلف چنین پیکرههایی ساخته شود.
2. پیشینۀ مطالعات
شمار پیکرههای معنایی نسبت به پیکرههای نحوی کمتر است. در زبان انگلیسی پروپبنک4 (پالمر5 و همکاران، 2005)، فریمنت6 (بیکر7 و همکاران، 1998) و وربنت8 (دانگ9 و همکاران، 1998؛ کیپر10 و همکاران، 2000) از مهمترین طرحهای معنایی هستند که هدفشان دستیابی به اطلاعات گزارههای معنایی است. پروپبنک، پیکرۀ دادگان معنایی زبان انگلیسی، با روششناسی مشخص در تعریف نقشهای معنایی، لایهای از اطلاعات مربوط به نقشهای معنایی را به پیکرۀ دادگان نحوی پنتریبنک11 (مارکوس12، 1993) افزوده است. در این پیکره برای پرهیز از مناقشات موجود در تعریف نقشهای معنایی، برحسب شباهت میان نقشها، از اختصارات شمارهای از صفر تا 5 استفاده شده است. تمایز میان دو نقش Arg0 و Arg1 بر اساس اثر دوتی13 (1991) انجام شده است. لازم به توضیح است که پیکرۀ بزرگ نقشهای معنایی زبان فارسی بر اساس این رویکرد نیز برچسبگذاری شده که بحث در خصوص شیوۀ تولید و آمار مربوط به آن در اثر دیگری بهطور مبسوط ارائه میشود.
زبان آلمانی نیز با افزودن لایهای از اطلاعات معنایی به پیکرۀ دادگان نحوی خود، یعنی پیکرۀ نحوی تایگر14 (برانتس15 و دیگران، 2002)، پیکرۀ 40 هزار جملهای گزارههای معنایی زالسا16 (بورخارت17، 2006) را به دست داده است.
در زمینۀ شیوۀ ارائۀ پیکرههای نحوی و معنایی، در بین زبانها تنوع به چشم میخورد؛ به این صورت که در برخی از زبانها همچون دو مورد اخیر، پروژههای معنایی و نحوی در دو مرحلۀ جدا و مستقل ارائه شدهاند؛ زبان چینی نیز جزو این گروه از زبانهاست که پیکرۀ گزارههای معنایی (خو18 و پالمر، 2009) و پیکرۀ نحویِ (خو، 2005) خود را در دو مرحلۀ مجزا تهیه و ارائه کرده است. در برخی دیگر از زبانها، اطلاعات هر دو سطح نحو و معنا در یک پیکرۀ واحد گردآوری شده است؛ پیکرۀ اسپانیایی و کاتالان (توله19و همکاران، 2008) متعلق به این گروه از زبانهاست. نهایتاً در گروهی دیگر از زبانها، همچون زبان ژاپنی (کاواهارا20، 2002) بخشی از پیکرۀ نحوی موجود برچسبگذاری معنایی شده است. تولید پیکرههای گزارههای معنایی برچسبخورده در زبانهای مختلف بهسرعت رو به افزایش است.
3. پیکرۀ بزرگ نقشهای معنایی زبان فارسی
پیکرۀ بزرگ نقشهای معنایی زبان فارسی، لایۀ معنایی را بر روی پیکرۀ نحوی وابستگی زبان فارسی (رسولی و همکاران، 2013) قرار داده است. مجموعۀ جملات برچسبخورده حدود 30.000 جمله است. در هر یک از جملات پیکره، بر مبنای دستور حالت فیلمور21 (1978،1998، 2001) کلیۀ نقشهای معنایی مربوط به افعال، اسمهای گزارهای و صفات گزارهای تعیین شدهاند. علاوهبراین، چون پیکرۀ حاضر مجموعهای از جملات را شامل میشود، در کنار سازههای موضوع، سازههای غیرموضوع شامل افزودهها و برخی اطلاعات کلامی نیز برچسبگذاری شدهاند.
مبدأ |
منظور از اسم گزارهیدر گزارهای، اسمهایی هستند که همانند فعلها، ساخت موضوعی22 دارند، اما برخلاف فعل، به متممهای خود حالت نمیدهند و قادر به حمل شناسههای فعلی هم نیستند (کریمیدوستان، 1386). بهعنوان نمونهای از اسامی گزارهای میتوان به واژۀ «اخراج» در عبارت «اخراج آدم از بهشت» اشاره کرد. چون اسم «اخراج» ساخت موضوعی دارد، آن را متعلق به طبقۀ اسامی گزارهای میدانیم. موضوعهای هستۀ اسمی مذکور در عبارت فوق عبارتاند از: «آدم» (مکاندار23) و «از» (مکان). باید به این نکته اشاره کرد که در پیکرۀ حاضر، برچسبزنی معنایی اسمهای گزارهای بر اساس برچسبزنی معنایی فعل صورت گرفته است؛ به این معنی که اسمهای مشتق از فعلها را همانند فعلها برچسب میزنیم.
9) اخراج آدم از بهشت
مکاندار |
همچنین، صفات گزارهای آن گروه از صفاتی هستند که میتوانند همانند محمولهای فعلی، ساخت موضوعی داشته باشند. برای مثال، در گروه صفتی «خوشحال از قبولی»، گروه حرفاضافهای از قبولی،یکی از موضوعهای صفت خوشحال است و بنابراین، خوشحالیک صفت گزارهای است. لازم به ذکر است که چون تعداد زیادی از افعال مرکب زبان فارسی در پیکرۀ حاضر در بخش فعلیارِ خود صفت داشتند، تعداد صفات گزارهای در این بخش کاهش یافته است.
خروجی دادههای برچسبخورده بر اساس الگوی همایش زبانشناسی رایانهای و پردازش زبان طبیعی (CoNLL)24 فراهم آمده است. در جدول زیر برخی از اطلاعات آماری پیکره ارائه شده است.
جدول 1) آمارهای مربوط به پیکره
تعداد کل جملات |
۲۹٫۹۸۲ |
میانگین طول هر جمله |
۶۱/۱۶ |
تعداد کل افعال |
62889 |
تعداد فعل منحصربهفرد |
9200 |
تعداد اسمهای گزارهای منحصربهفرد |
1300 |
تعداد صفات گزارهای منحصربهفرد |
300 |
4. برچسبهای معنایی
1ـ4. نقشهای معنایی
فیلمور در دستور حالت، فهرستی از نقشهای معنایی را با عناوینی همچون حالت کنادی25، حالت وسیلهای26، حالت تأثیرپذیری27، حالت تحققی28، حالت مکانی29 و حالت مفعولی30 تعریف کرد (دبیرمقدم، 1389). از آن زمان تا به امروز، نوع و تعداد نقشهای معنایی همیشه محل بحث و اختلاف نظر بوده است. وربنت با استفاده از فهرستی از نقشهای معنایی و بر اساس طبقهبندی لوین31 (1993)، مجموعهای از افعال زبان انگلیسی را دستهبندی و قاب معنایی هر یک از آنها را مشخص کرده است. پیکرۀ بزرگ نقشهای معنایی زبان فارسی بر اساس نقشهای مورد نظر وربنت که ریشه در نقشهای معنایی فیلمور دارد، برچسبگذاری شده است. لازم به توضیح است که با توجه به برخی ویژگیهای منحصربهفردِ زبان فارسی، برخی از این نقشها در هم تلفیق شده و درمقابل، برخی نقشهای دیگر به این مجموعه اضافه شدهاند.
فهرستی از نقشهای معنایی بهکاررفته در پیکرۀ بزرگ نقشهای معنایی در جدول شمارۀ 2 مشخص شده است. تعاریف مشخص کنشگر، کنشپذیر و مانند آن، به دلیل سابقۀ حضور در پیشینۀ مطالعات زبانشناسی یا به دلیل شفافیت معنایی (همانند مفاهیم دارنده یا مقدار)، نیازی به بازتعریف ندارند. از این میان، نقشهای همکنشپذیر، همکنشگر و هممکاندار در تعیین افعال دوسویه و افعال ترکیبی مورد استفاده قرار گرفتند؛ به بیان دیگر، در افعال کنشی مانند گفتگو کردن، دو شرکتکنندۀ فعال بهعنوان کنشگر و همکنشگر برچسب میگیرند و در صورتهای فعلی همچون مخلوط کردن، ترکیب کردن، جوش دادن و مانند آن، دو شرکتکنندۀ مخلوطشونده همکنشپذیرند.
تمایز سهتایی کنشپذیر (شرکتکنندۀ تحت تأثیر فعل)، مکاندار (شرکتکنندهای که در سکون یا حرکت است و فعل به وضعیت آن اشاره میکند) و کنشبر (شرکتکنندهای که نقطۀ مقابل کنش فعل است اما از آن تأثیر نمیگیرد) دستهبندی ویژه و منحصر به پیکرۀ بزرگ دادگان معنایی زبان فارسی است.
مکان غیرفیزیکی یا وضعیتها در شرایطی که رویداد فعلی به آنها ختم میشوند، «نتیجه»اند و در شرایطی که فعل از سمت آنها آغاز میشود، «منشأ» هستند. در همین خصوص، «پذیرنده» شرکتکنندۀ جانداری است که نقطۀ پایان/انجام و یا هدف فعل قرار میگیرد.
10) او این مسئله رااز مننمیپذیرد.
منشأ
11) او نوشتهاش رابه داستانتبدیل کرد.
نتیجه
12) علی مداد رابه دوستشداد.
پذیرنده
«دربارگی»موضوع رخداد و رویداد جمله است و «آغاز و انجام» در بازههای زمانی، نقطۀ شروع و پایان رویداد محسوب میشوند.
13) علیبا دوستش در مورد خاطراتشانصحبت میکردند واین صحبت ازصبحتا ظهرطول کشید.
همکنشگر دربارگی آغاز انجام
و در نهایت، «نسبت»32 عنوانی است برای ویژگی که به دیگرشرکتکنندهها نسبت و یا اسناد داده میشود.
جدول 2) فهرست نقشهای معنایی پیکره
کنشگر |
کنشپذیر |
آغاز |
همکنشگر |
پذیرنده |
کنشپذیر |
کنشبر |
انجام |
همکنشپذیر |
نتیجه |
تجربهگر |
مکاندار |
مقدار |
هممکاندار |
منشأ |
سبب |
دارنده |
مکان |
نسبت |
مبدأ |
بهرهور |
دارایی |
محرک |
دربارگی |
مقصد |
2ـ4. افزودهها
افزودهها خود به سه گروه افزودههای حاشیهای33، افزودههای وجهی34 و افزودههای متنی35 تقسیم میشوند. افزودههای حاشیهای، اطلاعاتی در خصوص منظور، علت، زمان، مکان، شرایط، روش و مقدار محمولها ارائه میدهند. افزودههای وجهی نظر نویسنده یا گوینده را در خصوص میزان قطعیت و امکان وقوع گزاره بیان میکنند و تمامی انواع آنها اعم از وجهنماهای برداشتی36، توانمندی37 و شواهدی38، با هر تظاهر زبانی اعم از فعل، قید، گروه حرفاضافهای و مانند آن، برچسب وجهنما دریافت میکنند. افزودههای متنی نیز پیونددهندههایی هستند که بین جملهها ارتباط برقرار میکنند.
از میان افزودههای حاشیهای، سه افزودۀ همراهی، وصف و مرجعدار با سایر افزودههای این گروه تفاوت دارند. این سه افزوده برخلاف سایر اعضای این گروه که بهلحاظ معنایی در ارتباط مستقیم با فعل جمله هستند، در ارتباط مستقیم با موضوعها تعریف میشوند؛ به این ترتیب که افزودۀ همراهی، شخصی حقیقی یا حقوقی است که کنشگر جمله را در انجام کنش همراهی میکند، افزودۀ وصف افزودهای است که با موضوعها در یک رابطۀ اسنادی قرار دارد و بهتنهایی میتواند در قالب یک وضعیت گزارهای بهکاررود و نهایتاً، افزودۀ مرجعدار بهعنوان نظیر وجودی موضوعها تعریف میشود. برای مثال، در جملۀ «علی با دوستش به سینما رفت»، گروه حرفاضافهای «با دوستش» که در انجام کنش رفتن به سینما، علی را همراهی کرده است، برچسب «همراهی» دریافت میکند یا در جملۀ «علی خوشحال وارد کلاس شد»، «علی» و «خوشحال» در یک رابطۀ اسنادی با یکدیگر قرار دارند و «خوشحال» خود دارای معنای گزارهای است؛ بنابراین، کلمۀ «خوشحال» برچسب «وصف» را دریافت میکند. در جملهای نظیر «آنها خودشان کارهایشان را انجام میدهند» نیز کلمۀ «خودشان» که نظیر وجودی «آنها» محسوب میشود، برچسب «مرجعدار» را به خود اختصاص میدهد.
هدف، نقشی همانند بهرهور دارد، اما ازآنجاکه در ظرفیت فعل حضور ندارد، در ردیف افزودهها قرار میگیرد. برای مثال، در جملۀ «او به خاطر من برای این امتحان خیلی تلاش میکند.»، «من» بهعنوان هدف برچسبگذاری میشود.
قیدهای فراوانی همانند هرگز، گاهی، اغلب و مانند آن، برچسب تکرار دریافت کردند و صورتهایی چون نه ... نه...،بهعنوان نفی برچسبگذاری شدند. لازم به توضیح است که برچسب نفی برای زبانهایی چون انگلیسی، آلمانی و زبانهای دیگری که از سازۀ مشخص و جدا برای مفهوم نفی استفاده میکنند، معنادارتر است؛ در زبان فارسی عنصر نفی با وندافزایی مشخص میشود و در بخش صرف میتواند تعیین وضعیت شود.
فهرستی از افزودههای حاشیهای و وجهی پیکرۀ حاضر در جدول شمارۀ (3) ارائه شده است. لازم به توضیح است که در روند برچسبگذاری، اگر نوع افزوده در هیچیک از طبقات مورد اشاره قرار نگرفته باشد، از عنوان پوششی قید استفاده شده است.
جدول 3) فهرست افزودههای حاشیهای و وجهی پیکره
جهت |
روش |
هدف |
مکان |
شرط |
تکرار |
زمان |
ابزار |
نفی |
مقدار |
همراهی |
قید |
منظور |
وصف |
وجهنما |
علت |
مرجعدار |
|
زمان |
شرط |
مکان |
شرط |
زمان |
14) پس از صرف نهار در صورت تمایل دوستان در اطراف کمپ گشت خواهیم زد.
کنشپذیر |
تجربهگر |
فعلساز |
برای نمونه، نوع افزودهها در جملۀ 14 مشخص شدهاند. همان طور که ملاحظه میشود، جملۀ فوق دو محمول اسمی و یک محمول فعلی دارد که زیرشان خط کشیده شده است. هر یک از وابستههای محمولها نیز برحسب نقششان در جمله یا عبارت، یک برچسب معنایی دریافت کردهاند.
3ـ4. نقشهای کلامی
نقشهای کلامی در پیکرۀ حاضر دربردارندۀ سه برچسب پیونددهندۀ گفتمانی، مبتدا و پیوند بند موصولی39 است. پیونددهندههای گفتمانی آن دسته از سازههای زبانی هستند که کارکرد اصلیشان برقراری ارتباط میان جملات است. برای مثال، زنجیرۀ «به عبارت دیگر» در فاصلۀ میان دو جمله، از مصادیق پیونددهندههای گفتمانی به شمار میرود. برچسب مبتدا برای تعیین سازههای مبتداشدۀ ضمیرگذار مورد استفاده قرار میگیرد و نهایتاً برای نشان دادن حرکت بندهای اسمی اعم از متممی یا موصولی (توضیحی و توضیحی) از برچسب پیوند بند موصولی استفاده میشود که در بیش از 9400 بند اسمی، نسبت جایگاهی هستۀ بند و بند را مشخص کرده است.
5. فرایند برچسبگذاری پیکره
برای تهیۀ پیکرۀ مذکور دو درسنامۀ برچسبگذاری گزارههای فعلی و گزارههای اسمی تهیه شد و در اختیار برچسبزنان قرار گرفت. در میان راه نیز، بنا بر نیاز، یادداشتهای تکمیلی به همراه مثالهای کافی به مجموعۀ شیوهنامهها اضافه شد. همچنین، اطلاعات نحوی جملات در تمام طول برچسبزنی در اختیار برچسبزنان قرار داشت.
فرایند برچسبگذاری پیکرۀ حاضر در سه مرحلۀ اصلی (البته به صورت همزمان) انجام پذیرفت. در مرحلۀ نخست، محمولهای فعلی، اسمی و صفات جملات شناسایی شدند. در مرحلۀ دوم، شرکتکنندگان محمولهای مذکور برحسب نقششان در رویداد گزارهای، برچسب معنایی مناسب را دریافت کردند. در مرحلۀ سوم نیز افزودهها و برخی از ویژگیهای کلامی ذکرشده در قسمت پیشین، هدف برچسبگذاری قرار گرفتند؛ همچنین، در جریان برچسبگذاری نقشهای معنایی، فعلهایی که در معانی متفاوت به کار میرفتند، مشخص شده، ضمن دریافت ساخت ظرفیتی مناسب، شمارۀ مفهومی40 متفاوتی از همتای همنام خود دریافت کردند. برای مثال، فعل «زدن» در معناهای دزدیدن،کتک زدن، نصب کردن، مانستن، ضربان داشتن و مانند آن، شمارۀ مفهومی متفاوتی دریافت کرده است.
6. اصلاح پیکره
برای به دست آوردن آمار معناداری از درستی روند برچسبزنی، حدود 6000 جمله به صورت دوبرچسبی آماده شد؛ به این ترتیب که یک جملۀ واحد توسط دو برچسبزن متفاوت که از خروجی کار یکدیگر مطلع نبودند، برچسبگذاری شد. سپس، اختلافات موجود در دادههای دوبرچسبی گزارش شدند و توسط کاربر ناظر (نویسندگان مقالۀ حاضر) مورد بازبینی و اصلاح قرار گرفتند. لازم به توضیح است که برای دسترسی به اختلافهای میان دادههای دوبرچسبی به منظور آمارگیری، دادههای اصلاحشده در بخشی مستقل از اختلافات ذخیره شدند. همچنین، در پایان کار، یک برنامۀ غلطیاب آماده شد که هدف آن، گزارش تنوعهای موجود در ساختهای ظرفیت معنایی هر فعل در کل پیکره بود؛ به این ترتیب که برای هر فعل، تمامی تنوعهای ساختی آن در پیکره توسط برنامه گزارش میشد و ناظران دربارۀ این تنوعها تصمیمگیری میکردند. اساساً تنوعهای موجود در ساختهای ظرفیتی برنامۀ غلطیاب ممکن بود سه دلیل عمده داشته باشد. در حالت نخست، ممکن بود تنوع به دلیل چندمعنایی بودن فعل باشد؛ یعنی بهطور مثال، برای فعل «زدن»در معناهای مختلف، ظرفیتهای معنایی متفاوت در نظر گرفته شده باشد. در این حالت، امکان داشت برای معانی متفاوت فعل مذکور، بهاشتباه شمارههای مفهومی مستقلی در نظر گرفته نشده باشد که درنهایت این اشتباه توسط ناظران برطرف میشد. دلیل دوم تنوعها، حذف بخشی از ساخت موضوعی یک فعل در جملات مختلف بود. بهطور مثال، برنامۀ غلطیاب به دلیل مشاهدۀ تنوع موجود در ساختهای ظرفیتی فعل «گفت» در دو جملۀ زیر آنها را گزارش میکرد. در این مورد هم اختلاف، طبیعی و مجاز بود و نیازی به اصلاح نداشت.
15) علی ماجرا را برای دوستش گفت. ساخت ظرفیتی: کنشگر، دربارگی، پذیرنده
16) علی ماجرا را گفت. ساخت ظرفیتی: کنشگر، دربارگی
دلیل سوم تنوعهای ساختهای معنایی نیز خطاهای انسانی در برچسبزنی بود که توسط ناظران اصلاح شدند. البته باید خاطرنشان کرد که مرحلۀ اصلاح، نگهداری و بهینهسازی پیکره همچنان باز خواهد بود.
7. آمار
برای مقایسۀ نمای نحوی و معنایی زبان فارسی، از پیکرۀ نحوی زبان فارسی تعداد 6 مورد از پربسامدترین نقشهای نحوی مرتبط با فعل، شامل فاعل، فعلیار، مفعول، مسند، مفعول حرفاضافهای و متمم بندی فعل، در جدول (5) ارائه شده و سپس در مقابل هر یک از این 6 نقش، از پیکرۀ نقشهای معنایی فارسی، تعداد 5 مورد از معادلهای معنایی آن از پربسامدترین نقشهای معنایی ارائه شده است. برای مثال، فاعل که در پیکرۀ دادگان نحوی زبان فارسی، فراوانترین نقش نحوی مرتبط با فعل بوده است، در پیکرۀ نقشهای معنایی زبان فارسی در 43 درصد از موارد بهعنوان کنشگر، در 16 درصد موارد بهعنوان کنشبر، در 9 درصد بهعنوان تجربهگر، در 8 درصد بهعنوان کنشپذیر و در 5 درصد از موارد بهعنوان مکاندار برچسب خوردهاست. همان طور که ملاحظه میشود، مجموع درصدهای مذکور در مورد مابهازاهای معنایی نقش فاعل به عدد 81 میرسد و این نکته به این معناست که 19 درصد باقیمانده به نقشهای معنایی دیگری اختصاص یافته که در جدول زیر نیامدهاندند؛ بنابراین، در این جدول برای 6 نقش نحوی مذکور، تنها 5 مابهازای معنایی پربسامد ذکر شده است.
جدول 5) پربسامدترین نقشهای نحوی فعل در پیکرۀ نحوی به همراه درصدی از مابهازاهای معنایی آنها
مفعول |
فعلیار |
فاعل |
||||||
32 |
کنشبر |
99 |
فعلساز |
43 |
کنشگر |
|||
25 |
کنشپذیر |
046/0 |
کنشبر |
16 |
کنشبر |
|||
14 |
فعلساز |
021/0 |
کنشپذیر |
9 |
تجربهگر |
|||
7 |
مکاندار |
018/0 |
کنشگر |
8 |
کنشپذیر |
|||
3 |
دربارگی |
012/0 |
نسبت |
5 |
مکاندار |
|||
متمم بندی فعل |
مفعول حرف اضافهای |
مسند |
||||||
35 |
کنشبر |
20 |
مکان |
56 |
فعلساز |
|||
4/1 |
وجهنما |
19 |
فعلساز |
35 |
نسبت |
|||
3/1 |
محرک |
82/11 |
پذیرنده |
5/1 |
کنشبر |
|||
07/1 |
آغاز |
45/11 |
کنشبر |
08/1 |
کنشگر |
|||
91/0 |
نسبت |
89/7 |
مقصد |
58/0 |
مکان |
|||
فراوانی 10 رابطۀ معنایی پربسامد پیکره را در سه جدول (6)، (7) و (8) میتوان مرور کرد. در جدول (6)، پربسامدترین روابط معنایی در میان تمامی برچسبهای معنایی اعم از برچسبهای موضوعی، افزودهها و نقشهای کلامی ارائه شده است که برچسب قید با 7/24 درصد و فعلساز با 2/22 درصد به ترتیب بیشترین فراوانی را به خود اختصاص دادهاند. جدول (7) به فراوانی 10 برچسب پربسامد نقشهای معنایی (موضوعی) اختصاص دارد. همان طور که ملاحظه میشود، برچسب کنشبر با 4/25 درصد و کنشگر با 18 درصد بیشترین بسامد را دارند. در جدول (8) نیز فراوانی 10 افزودۀ پربسامد پیکرۀ نقشهای معنایی ارائه شده است و همان طور که مشاهده میشود، افزودۀ مقدار با 18 درصد و افزودۀ زمان با 9/14 درصد دارای بالاترین بسامدها هستند.
جدول 6 فراوانی برچسبهای پیکرۀ معنایی (اعم از برچسبهای موضوعی و افزودهها) |
|
جدول 7 فراوانی نقشهای معنایی پیکره |
|
جدول 8 فراوانی افزودههای معنایی |
|||
کل برچسبها |
|
نقشهای معنایی |
|
افزودهها |
|||
قید |
24/7 |
|
کنشبر |
4/25 |
|
مقدار |
18 |
فعلساز |
22/2 |
|
کنشگر |
18 |
|
زمان |
9/14 |
کنشبر |
12 |
|
کنشپذیر |
9/11 |
|
قید |
2/10 |
کنشگر |
6/5 |
|
دربارگی |
2/7 |
|
روش |
8/9 |
کنشپذیر |
5/6 |
|
نسبت |
2/5 |
|
مکان |
9/7 |
دربارگی |
3/4 |
|
نتیجه |
6/4 |
|
وصف |
5/7 |
نسبت |
2/5 |
|
تجربهگر |
4/4 |
|
تکرار |
8/4 |
نتیجه |
2/2 |
|
مکان |
3/4 |
|
شرط |
01/4 |
B0 |
2/1 |
|
مکاندار |
4 |
|
منظور |
4 |
تجربهگر |
2 |
|
پذیرنده |
8/3 |
|
علت |
3/3 |
8. نتیجهگیری
اثر حاضر به معرفی نخستین پیکرۀ نقشهای معنایی برچسبخوردۀ زبان فارسی، تحت عنوان پیکرۀ بزرگ نقشهای معنایی زبان فارسی میپردازد که اطلاعات سطح معنا را بر پیکرۀ نحوی وابستگی زبان فارسی افزوده است. در پیکرۀ حاضر تمامی وابستههای محمولهای فعلی، اسمی و صفتی برحسب کارکردشان در جملات و عبارات زبانی، برچسب معنایی دریافت کردند و مجموعاً حدود 30،000 جمله در سطح معنا برچسبگذاری شدند. به منظور دستیابی به حداکثر دقت در برچسبزنی، درسنامهها و دستورالعملهای مفصلی در اختیار برچسبزنان قرار گرفت و در طول فرایند برچسبزنی، تمامی اطلاعات سطح نحو در اختیار برچسبزنان قرار داشت. شایان ذکر است که در کنار پیکرۀ حاضر، دو محصول کارآمد دیگر تحت عنوان فرهنگ ظرفیت معنایی افعال فارسی و همچنین تجزیهگر خودکار معنایی نیز تهیه شد که جزئیات آنها در آثار مستقل دیگری ارائه خواهد شد.
تقدیر و تشکر
طرح تولید پیکرۀ بزرگ معنایی زبان فارسی که دادۀ ارزشمندی را برای پژوهشگران زبانشناس، زبانشناسان رایانشی و مهندسین هوش مصنوعی فراهم آورده، با حمایت مرکز تحقیقات کامپیوتری علوم اسلامی نور انجامشده است. لازم است از گروه زبانشناس و رایانهای مجموعه، ندا پورمرتضی خامنه، پریناز دادرس، مرتضی رضایی شریفآبادی، سلیمه زمانی، سارا شفیعی، فاطمه صدقی، سعیده قدردوست نخچی، منوچهر کوهستانی، مصطفی مهدوی و هومن مهیار که در مسیر تولید این پیکره همکاری داشتند، تشکر کنیم. همچنین، مراتب سپاس خود را از همکاری و حمایت ویژۀ دکتر مهدی بهنیافر ابراز میداریم.
دبیر مقدم، محمد. (1389). زبانشناسینظری: پیدایش و تکوین دستور زایشی. ویراست دوم، چاپ چهارم. تهران: سمت.
کریمی دوستان، غلامحسین. (1386). «اسامی و صفات گزارهای در زبان فارسی»،. ادب و زبان فارسی3، 3: 202ـ187.
Baker, C. F., Fillmore, C. J., and Lowe, J. B. (1998). “The Berkeley FrameNet project”. Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics. Volume 1 (pp. 86-90). Association for Computational Linguistics.
Bi Jen Khan, M., Sheykhzadegan, J., Bahrani, M., and Ghayoomi, M., (2011). “Lessons from building a Persian written corpus: Peykare”. Language Resources and Evaluation. 45, no. 2: 164-143.
Brants, S., Dipper, S., Hansen, S., Lezius, W., and Smith, G. (2002). “The TIGER treebank”. Proceedings of the workshop on treebanks and linguistic theories (Vol. 168).
Burchardt, A., Erk, K., Frank, A., Kowalski, A., Padó, S., and Pinkal, M. (2006). “The SALSA corpus: a German corpus resource for lexical semantics”. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC).
Dowty, David R. (1991). “Thematic proto-roles and argument selection”. Language. 67(3):547–619.
Dang, H. T., Kipper, K., Palmer, M., and Rosenzweig, J., (1998, August). “Investigating regular sense extensions based on intersective Levin classes”. Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics-Volume 1 (pp. 293-299). Association for Computational Linguistics.
Fillmore, C. J. (1976). “Frame semantics and the nature of language”. Annals of the New York Academy of Sciences, Vol. 280, pp. 20-32.
ـــــــــــــــــ , and Atkins, B. S. (1998). “FrameNet and lexicographic relevance”. Proceedings of the First International Conference on Language Resources and Evaluation, Granada, Spain. pp. 28-30
ــــــــــــــــ , and Baker, C. F. (2001). “Frame semantics for text understanding”. Proceedings of WordNet and Other Lexical Resources Workshop.
Kipper, K., Dang, H. T., Schuler, W., & Palmer, M. (2000). “Building a class-based verb lexicon using TAGs”. TAG+5 Fifth International Workshop on Tree Adjoining Grammars and Related Formalisms, Paris, France.
Kawahara, D., Kurohashi, S., and Hasida, K. (2002). “Construction of a Japanese relevance-tagged corpus”. Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC-2002), pp. 2008–2013, Las Palmas, Canary Islands.
Levin, B. (1993). English Verb Classes and Alternations: A Preliminary Investigation. University of Chicago Press, Chicago.
Marcus, M. P., Marcinkiewicz, M. A., and Santorini, B. (1993). “Building a large annotated corpus of English: The Penn Treebank”. Computational Linguistics. 19(2). pp. 313–330.
Palmer, M., Kingsbury, P., and Gildea., D (2005). “The Proposition Bank: An Annotated Corpus of Semantic Roles”. Computational Linguistics. 31 (1). pp. 71–106
Rasooli, M. S., Kouhestani M., and Moloodi A. (2013). “Development of a Persian Syntactic Dependency Treebank”. Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. pp. 306–314.
Taulé, M., Martí, M. A., & Recasens, M. (2008). “AnCora: Multilevel Annotated Corpora for Catalan and Spanish”. Proceedings of the Sixth International Language Resources and Evaluation (LREC-08). pp. 96–101.
Xue, N., Xia, F., Chiou, F. D., & Palmer, M. (2005). “The Penn Chinese TreeBank: Phrase structure annotation of a large corpus”. Natural language engineering. 11(02). pp. 207-238.
ــــــــــ., and Palmer, M., (2009). “Adding semantic roles to the Chinese Treebank”. Natural Language Engineering. 15(1). pp. 143-172.
پینوشت:
- تولید نخستین پیکرۀ نقشهای معنایی زبان فارسی با حمایت مرکز تحقیقات کامپیوتری علوم اسلامی صورت گرفته است.
- parts of speech
- Bi Jen Khan
- PropBank
- Palmer
- FrameNet
- Baker
- VerbNet
- Dang
- Kipper
- Penn Treebank
- Marcus
- Dowty
- TIGER
- Brants
- SALSA
- Burchardt
- Xue
- Taulé
- Kawahara
- Fillmore
- argument structure
- این برچسب معرف موضوعهایی است که دربارۀ وضعیت موقعیتی آنها صحبت میشود؛ بنابراین، اینها موضوعهای ساکن یا در حرکت هستند.
- CoNLL= Conference on Natural Language Learning
- agentive
- instrumental
- dative
- factitive
- locative
- objective
- Levin
- attribute
- circumstantial adjunct
- mood adjunct
- textual adjunct
- epistemic
- deontic
- evidential
- relative clause link
sense
- تولید نخستین پیکرۀ نقشهای معنایی زبان فارسی با حمایت مرکز تحقیقات کامپیوتری علوم اسلامی صورت گرفته است.