ایجاد نخستین پیکره به‌روزشونده در زبان فارسی توسط محققان دانشگاهییکشنبه ۰۹, مه‍ ۱۳۹۶



پژوهشگران زبان‌شناسی دانشگاه شیراز برای نخستین بار پیکره‌ای را برای متون فارسی ایجاد کرده‌اند که هر روز به صورت خودکار و متوازن به‌روزرسانی می‌شود.

به اعلام ایسنا، دکتر امیرسعید مولودی، عضو هیئت علمی بخش زبان‌های خارجی و زبان‌شناسی دانشگاه شیراز و مدیر پروژه پیکره به‌روزشونده با بیان اینکه در این پیکره استانداردهایی رعایت شده است که پیش از این در تهیه پیکره‌های زبان فارسی مغفول مانده بود، گفت: این پیکره و جستجوگر آن ابزار پژوهشی مهمی برای تحقیقات زبان‌شناسی و سایر حوزه‌های علوم انسانی است و علاوه بر این برای اهداف پردازشی زبان فارسی نیز می‌تواند مورد استفاده قرار گیرد.

وی افزود: ایده اولیه این طرح حدود دو سال پیش شکل گرفت و پس از انجام مراحل مطالعاتی در سال ۱۳۹۵، پیاده‌سازی فاز نخست آن با تمرکز بر متون خبری آغاز شد که رونمایی از این پیکره، مطابق برنامه‌ریزی‌های انجام‌گرفته، در هفته پژوهش امسال در آذرماه انجام خواهد شد.

مدیر پروژه پیکره به‌روزشونده با اشاره به این نکته که امروزه از پیکره‌های زبانی تقریباً در تمامی حوزه‌های علوم انسانی به طور عام و مطالعات زبانی به طور خاص استفاده می‌شود، گفت: بحث به‌روز بودن، توازن و نماینده بودن سه ویژگی مهم برای کارآمدی پیکره‌های زبانی است که در پروژه حاضر مورد توجه قرار گرفته است؛ بنابراین پیکره حاضر از این حیث که تنوعات زبانی را با انتخاب داده از ژانرهای مختلف پوشش می‌دهد، داده به میزان مساوی از هر ژانر انتخاب می‌شود و اینکه هر روز داده‌های آن افزایش می‌یابد، به‌ترتیب برخوردار از سه ویژگی نماینده‌ بودن، توازن و به‌روزشوندگی است.

وی ادامه داد: به‌روزشونده بودن پیکره حاضر به پژوهشگر این امکان را می‌دهد که بتواند تغییرات زبانی و حتی فرهنگی-جامعه‌شناختی را با استفاده از آن بررسی و تحلیل کند.

مولودی خاطرنشان کرد: در فاز نخست این پروژه، هر روز متون خبری به صورت متوازن از ۶ حوزه موضوعی و از خبرگزاری‌های مختلف به پیکره اضافه می‌شود.

همچنین مرتضی رضایی شریف‌آبادی، دانشجوی دکتری زبان‌شناسی دانشگاه شیراز و مسئول فنی پروژه با بیان اینکه مراحل اجرایی کار با همکاری تیمی قوی از مهندسان نرم‌افزار و با بهره‌گیری از جدیدترین فناوری‌ها انجام شده است، گفت: علاوه بر امکان دریافت داده پیکره، علاقه‌مندان می‌توانند برای کاوش در پیکره از ابزار جستجوی برخط تهیه‌شده استفاده کنند.

وی افزود: تمام متون پیکره به صورت خودکار نرمال‌سازی و ریشه‌یابی می‌شوند و برچسب اجزای کلام به واژه‌های آن‌ها اختصاص می‌یابد و برای توازن متون در سطح موضوع و زیرموضوع و همچنین توازن زمانی نیز از روشی ابتکاری استفاده شده است.

رضایی تأکید کرد: هم‌اکنون پیکره به‌روزشونده و ابزار جستجوگر آن به صورت آزمایشی و با دسترسی محدود راه‌اندازی شده است.

بر اساس اعلام روابط عمومی دانشگاه شیراز، یکی از مهم­ترین گام‌ها در طراحی و ساخت سیستم‌های بازشناسی گفتار پیوسته با دایره لغات بزرگ (LVCSR)، تعلیم مدل زبانی (Language Model) برای مدل کردن نحوه توالی کلمات در یک زبان خاص است. برای انجام چنین کاری، داشتن مقادیر بسیار زیادی از دادگان متنی (Text) از آن زبان همراه با برچسب‌های لازم ضروری است. از طرفی در بسیاری از پروژه‌های تحقیقاتی در زمینه پردازش زبان طبیعی (Natural Language Processing)، چنین دادگانی مورد نیاز است.

پیکره مجموعه‏‌ای از پاره‌‏های زبانی است که انتخاب و بر اساس معیارهای زبانی روشنی مرتب می‌‏شوند به ‏نحوی که همچون نمونه‌‏ای از زبان به کار گرفته می‌شوند. پیکره شامل متن‌های پیوسته طبیعی است که می‌‏توان از آن اطلاعاتی درباره عناصر زبانی، هم واژگانی هم غیرواژگانی (مانند سبک، نقطه‌‏گذاری، دستور، گونه کاربردی) به ‏دست آورد.

کشف واژه‌‏هایی خاص یا کاربردهایی خاص از آنها در پیکره‌‏ای از متن‌های معتبر که متخصصان هر زمینه موضوعی آن را نوشته‌‏اند، بسیار ارزشمند است زیرا نشان می‏‌دهد اگرچه همه واژه‌‏ها در فرهنگ‏‌های لغت ظاهر می‌‏شوند، در بافت‌‏هایی خاص نمی‌‏توان از آنها استفاده کرد، حتی اگر جمله به لحاظ دستوری درست باشد.

انتهای پیام



مأخذ

It's only fair to share...Pin on PinterestShare on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn