پروژه ها | آزمایشگاه پردازش زبان طبیعی

معرفی

این بخش به معرفی محصولات آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی میپردازد. این آزمایشگاه خدمات گسترده‌ای در حوزه هوش مصنوعی بطور عام و پردازش زبان طبیعی و مهندسی هستان شناسی بطور خاص ارائه می‌دهد. در حوزه پردازش زبان طبیعی تمرکز اصلی آزمایشگاه بر پردازش زبان فارسی است. در این حوزه انواع محصولات آزمایشگاه را می توان بصورت زیر دسته بندی نمود. برخی از این محصولات بصورت منبع آزاد، برخی بصورت وب سرویس، برخی در قالب آزمایشگاه تایید نمونه و برخی با مجوزهای خاص قابل دسترسی و بهره برداری هستند:

1- ابزارهای تولید و برچسب گذاری دادگان مانند
- فرهنگ‌یار : ابزار تولید فرهنگ جامع فارسی در فرهنگستان زبان و ادب فارسی
- سمپ : ابزار مدیریت و برچسبزنی پیکره با برچسب های معنایی
- واژه‌یار : ابزار جمعسپاری واژهگزینی و ارائه واژه های معادل فارسی کلمات و عبارات انگلیسی

2- منابع زبانی شامل واژگان، هستان شناسی، پیکره های آموزش و آزمایش و دادگان محک ازجمله
- فارس‌نت : وردنت فارسی
- واژگان فارسواژه
- هستانشناسی پردازش زبان طبیعی
- پیکره بزرگ فارسی
- پیکره بلاگ ها
- مدلهای زبانی فارسی (مدل بزرگ چندتای کلمات، مدلهای جاسازی کلمات ...)
- پیکره محک رفع ابهام معنایی فارسی
- پیکره محک قطعه بندی فارسی
- پیکره محک تحلیل ساختواژی و بن‌واژه‌یابی فارسی
- پیکره محک تشخیص استلزام و تناقض فارسی
- پیکره محک شباهت سنجی با آنالوژی
- پیکره محک مدلهای جاسازی

3- پردازشهای پایه ( سطح 1 ) ( ابزار استپ وان ) شامل :
- تشخیص زبان فارسی
- قطعه بند ( توکنایزر ) جهت تقسیم متن به جملات و سپس به کلمات (توکن ها)
- تحلیلگر ساختواژی، بن‌واژه یاب (ریشه یاب) و لم‌یاب جهت تشخیص ساختار ساختواژی کلمات و یافتن ریشه یا بن واژه کلمه
- برچسب زن اجزاء کلام (POS tagger) جهت تعیین مقوله لغوی کلمات

4- سرویس‌های پردازش های میانی زبان ( سطح 2 ) مانند :
- دسته بندی متون
- تبدیل محاوره به رسمی
- تشخیص طنز و توهین و .. (نوع گفتگو)
- شباهت سنجی کلمات و جملات
- شناسایی گر موجودیت های نامدار (NER) جهت شناسایی و تعیین نوع موجودیت های نامدار متن

5- برنامه های کاربردی (سطح 3) ازجمله :
- نگار : ویرایش و اصلاح متون به جهت نگارش فارسی معیار مطابق دستورخط و معادلهای مصوب فرهنگستان
- مهتاب : سامانه مشابهت سنجی و کشف تقلب متون فارسی
- کیوسک : سامانه پرسش و پاسخ در حوزه آموزش و میز اطالاعات دانشکده مهندسی کامپیوتر
- خبره یابی و منبع‌یابی : یافتن افراد خبره، سازمانهای حقوقی و انتشارات مرتبط با یک موضوع در حوزه پردازش زبان به منظور کمک به مجلات و کنفرانس ها در یافتن داور و دانشجویان و محققان در یافتن مرجع یا همکار در حوزه کاری مشترک
- دستیار هوشمند موبایل جهت دریافت و اجرای دستورات کاربر موبایل
- تحلیل احساسات و نظرات
- ترجمه ماشینی
- خلاصهسازی متون فارسی
- تبدیل متن به تصویر

6- طرح کلان و برنامه های جامع (سطح 4) :
پروژه جامع فعلی آزمایشگاه، "سامانه هوشمند ارتباط با مشتریان (سها)" است که هم‌اکنون به‌عنوان بخشی از طرح دانشکده هوشمند به‌صورت آزمایشی در دانشکده در حال توسعه، نصب و اجراست و .شامل ۵ زیرسامانه اصلی زیر می باشد.
- تشخیص نوع گفتگو
- گپ هوشمند (چت‌بات)
- پرسش و پاسخ
- تحلیل احساسات و نظرات کاربران
- دستورپذیری و اجرای درخواست

استپ وان

STeP-1: Standard Text preparation for Persian language

برای بسیاری از برنامه‌های پردازش زبان طبیعی لازم است تا مجموعه‌ای از پیش‌پردازش‌ها بر روی متن ورودی انجام گیرد تا متن به فرمت مناسبی برای پردازش‌های سطح بالاتر تبدیل شود. از جمله‌ی این پیش‌پردازش‌ها می‌توان به قطعه‌بندی، ریشه‌یابی اشاره کرد. کاربران پردازش‌های زبان طبیعی به واسطی یکپارچه و ساده برای پردازش‌های پایه بر روی متن نیاز دارند. ‌استپ وان یک بسته نرم‌افزاری شامل پردازش‌های پایه‌ی برروی زبان فارسی است. این بسته شامل قطعه‌بند و ویرایش‌گر متون فارسی، ریشه‌یاب و تحلیل‌گر ساخت واژی است. این نرم‌افزار به زبان سی شارپ نوشته شده است. زیر سیستم های نرم افزار تحلیل متن استپ وان را می توان به صورت زیر تشریح کرد.

زیرسیستم قطعه‌بند : این زیرسیستم متن را به کلمات و جملات تشکیل‌دهنده‌اش تجزیه می‌کند. در این سیستم فاصله‌ها و نیم فاصله‌ها بین کلمات فارسی تصحیح می‌شود. همچنین این سیستم، متن را تا حدی بر اساس اصول نگارشی فرهنگستان زبان و ادب فارسی ویرایش می‌کند.
زیرسیستم ریشه‌یاب : این زیرسیستم قادر به ریشه یابی تمام کلمات تصریفی، تعدادی از کلمات اشتقاقی و تحلیل ساختواژی آن‌هاست.

استپ وان یک API است که در اختیار کاربران تخصصی پردازش زبان فارسی قرار می‌گیرد.نسخه جدید و نسخه قبلی استپ وان و راهنمای آن از طریق لینک های مقابل دسترسی داشته باشید. ‌نسخه جدید ‌نسخه قبلی ‌راهنما

فارس‌نت

‌فارس‌نت‌ نخستین ، دقیقترین و بزرگترین وردنت فارسی است که در آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی و با حمایت مرکز تحقیقات مخابرات ایران توسعه یافته است. آخرین نسخه فارس‌نت (نسخه 3) دارای بیش از 100 هزار مدخل واژگانی (واژه یا عبارت) است که در حدود 40 هزار مجموعه ترادف جا گرفته اند. برای هر مدخل حداقل یک معنی تعریف شده و هر معنی در یک و فقط یک مجموعه ترادف شرکت می کند. کلیه مجموعه‌های ترادف یا در سلسله مراتب شرکت می کنند و یا به عنوان سرگروه معرفی می شوند. درضمن هر مجموعه ترادف یا حداقل یکی از اعضا آن در حداقل یک رابطه غیر سلسله مراتبی شرکت نموده است. همچنین هر مجموعه ترادف در صورت امکان به مجموعه ترادف نظیر در وردنت 3.0 پرینستون نگاشت شده است.

واژه یار

یافتن معادل فارسی واژگان بیگانه یکی از دغدغه‌های پژوهشگران می‌باشد، از آنجایی که این معادل فارسی باید رسا، منطقی و تاحدممکن مورد قبول عام باشد، نیاز است جست‌وجوی معادل، ثبت و تصویب آن در سامانه‌ای جمع‌سپاری شده باشد.
واژه یار‌ سامانه‌ای است که پژوهشگران می‌توانند واژه‌های بیگانه را با فیلترهای حوزه و انواع عبارات منظم جست‌وجو نمایند و به معادل‌های پیشنهاد شده، رأی مثبت یا منفی دهند، چراکه این رأی‌ها در پیشنهاد این معادل به عنوان معادلِ مصوب فرهنگستان زبان و ادب فارسی مؤثر خواهد بود‌. پنل مدیریت این سامانه جهت استفاده افراد با دسترسی ویژه به گونه‌ای طراحی و پیاده‌سازی شده که کاربر را قادر می‌سازد: گروه‌های کاربری با امتیاز تصویب متفاوت تعریف کند و دسترسی کاربران ثبت‌نام شده و حوزه‌ها را مدیریت نماید، پیشینه‌ی جست‌وجوی ناموفق را مشاهده کند و همچنین واژگانی که معادل مصوب ندارند را ملاحظه کرده و درصورت نیاز با توجه به رأی افراد، معادل مصوب را بازبینی نماید. کاربر ثبت‌نام شده که دسترسی عادی دارد، می‌تواند لیست واژگان به سامانه بی افزاید و برای واژگان موجود معادل تعریف کند. واژگانی که توسط این کاربران تعریف می شود، پس از تایید کاربر با دسترسی ویژه در سامانه جهت استفاده عام قرار می‌گیرد. ‌نسخه ویندوز ‌نسخه اندروید

فرهنگ‌یار

‌فرهنگ‌یار ابزاری است برای تهیه فرهنگ جامع زبان فارسی، که به عنوان یک طرح ملی توسط فرهنگستان زبان و ادب فارسی در حال پیگیری است. این فرهنگ بر اساس انتخاب گزیده‌هایی از متون منتخب زبان فارسی، از دوران و گونه‌های مختلف، در حال تهیه است. فرهنگ‌یار ضمن ارائه امکان نگهداری این مجموعه عظیم متون منتخب و جستجو در آن، امکان فرهنگ‌نگاری بر اساس شیوه‌نامه مفصل و پیچیده فرهنگ‌نویسی، تدوین‌شده در گروه فرهنگ‌نویسی فرهنگستان زبان و ادب فارسی، را فراهم آورده است؛ که دامنه‌ای از تعریف مدخل‌ها، جریان کاری ویراستاری آنان، مدیریت و جستجو در مدخل‌ها، مدیریت کاربران، و ارائه نسخه قابل‌چاپ از فرهنگ در قالب فایل MS Word را شامل می‌شود.

همچنین از آنجایی که این نرم‌افزار تحت وب می‌باشد؛ امکان مشارکت فرهنگ‌نویسان از هر نقطه‌ای از جهان را برای فرهنگستان ممکن می‌سازد. برابر برآوردهای صورت گرفته به نظر می‌رسد این نرم‌افزار با ویژگی‌های پیاده‌سازی شده آن، یک نمونه ابزار بی‌نظیر فرهنگ‌نویسی است که برای زبان فارسی ایجاد شده است.

مهتاب

در عصر شبکه جهانی وب، جستجوی اطلاعات به سادگی با استفاده از موتورهای جستجو و پایگاه داده های برخط انجام می شود. اگر چه این امر در اشتراک گذاری و انتشار دانش، نقش بسزایی داشته است اما در عین حال حفاظت از حق مالکیت در مقابل سوء استفاده ها را نیز دشوارتر می کند. سیستم های کشف تقلب یا مشابهت یاب اسناد، سعی به کشف این نوع سوء استفاده‌ها را دارند. سیستم مهتاب از جمله پروژه هایی است که در زمینه کشف تقلب در اسناد علمی، در آزمایشگاه پردازش زبانهای طبیعی دانشگاه شهید بهشتی تعریف شده است.

پروژه مهتاب یک سیستم مشابهت یاب روی اسناد علمی حوزه برق و کامپیوتر است. این سیستم اسناد پرس و جو را با پایگاه داده ای متشکل از بیست هزار مقاله و پایان نامه های حوزه برق و کامپیوتر مورد مقایسه قرار‌می دهد و اسناد پایگاه داده را بر اساس میزان شباهتشان به سند پرس و جو رتبه بندی کرده و به کاربر نمایش‌ می دهد. علاوه بر اینکه سیستم درصد شباهت کلی هر سند پرس وجو با شند منبع را تعیین ‌می کند همچنین قادر به نمایش محل دقیق مشابهت بین دو سند و تعیین درصد این شباهت بصورت مستقل‌می باشد. در این سیستم تصاویر اسناد نیز مورد مقایسه قرار‌می گیرد و در تعیین درصد کلی شباهت اسناد تأثیرگذار خواهند بود. سیستم مهتاب در حال حاضر قادر به شناسایی انواع کپی برداری های دقیق، کپی برداری با تغییرات و برخی تکنیک های دستکاری متن مانند درج و حذف جملات، تقسیم و تلفیق جملات، جابجایی و جایگزینی کلمات با مترادف هایشان‌می باشد. سیستم مهتاب مبتنی بر روش‌های بازیابی اطلاعات است و این امر سبب شده سیستم قادر به اجرا روی پایگاه داده‌های با حجم انبوه نیز باشد. این سیستم اکنون قادر به پشتیبانی از زبان‌های فارسی و انگلیسی است و مشابهت یابی بین زبانی برای زبان‌های فارسی و انگلیسی از چشم‌اندازهای متصور برای سیستم مهتاب خواهد بود.

خبره یابی

مسئله‌ی خبره‌یابی یکی از چالش‌برانگیزترین مسائل کنونی در حوزه‌های مختلف علوم کامپیوتر از جمله حوزه‌ی پردازش زبان طبیعی است. این مسئله به بررسی خبرگی‌های افراد برای تعیین بهترین کاندیدهای موقعیت‌های شغلی مختلف در کسب‌وکارها یا محیط‌های علمی-پژوهشی می‌پردازد. در اصل، هدف از چنین سیستم‌هایی برقراری ارتباط بین افراد واجد شرایط و حوزه‌های خبرگی مختلف است.

سیستم خبره‌یابی‌ آزمایشگاه پردازش زبان طبیعی، به منظور یافتن منابع خبرگی مختلف در حوزه‌ی پردازش زبان طبیعی آماده شده است. این سیستم با استفاده از تکنولوژی‌های وب معنایی، نظیر هستان‌شناسی‌های خاص دامنه، با توجه به پرس‌وجوهای دریافتی از کاربر نهایی سیستم منابع مرتبط با پرس‌وجو را به صورت رتبه‌بندی شده ارائه می‌دهد.

هستان‌شناسی «پردازش زبان طبیعی» به جهت استفاده در این سامانه و بهبود نتایج نهایی این سیستم تهیه شده است. این هستان‌شناسی مجموعه‌ی کاملی از عبارات و اصطلاحات مرتبط با این حوزه را با ویژگی‌ها و روابط مختلفی که با یکدیگر دارند، ارائه می‌دهد. تحقیقات نشان می‌دهند استفاده از چنین مدل مفهومی‌ای در حل مسئله‌ی خبره‌یابی باعث بهبود نتایج ارائه شده به نسبت سایر سیستم‌های خبره‌یاب موجود شده است. این سیستم شامل سه بخش زیر می‌باشد:

رتبه‌بندی مقالات : ‌ لیستی مرتب شده از مقالات مرتبط با پرس‌وجوی درخواستی را با توجه به اطلاعاتی که از مقالات در دسترس هستند، ارائه می‌دهد.
رتبه‌بندی خبرگان حقیقی : ‌ لیستی مرتب شده از نویسندگان مرتبط با پرس‌وجوی درخواستی را با توجه به اطلاعات پروفایل و هم‌چنین مقالات آن‌ها ارائه می‌دهد.
رتبه‌بندی خبرگان حقوقی : ‌ لیستی مرتب شده از دانشگاه‌های جهان مرتبط با پرس‌وجوی درخواستی را با توجه به اطلاعات پژوهشگران و دانشجویان این دانشگاه‌ها ارائه می‌دهد.

تحلیل احساسات

تجزیه و تحلیل احساسات (گاهی اوقات به عنوان نظرکاوی یا عقیده کاوی یا هوش مصنوعی احساسات شناخته می‌شود) به استفاده از پردازش زبان طبیعی، تجزیه و تحلیل متن، زبان‌شناسی محاسباتی، و بیومتریک به شناسایی سیستماتیک، استخراج، سنجش کمیت، و مطالعه حالات مؤثر و اطلاعات ذهنی اشاره دارد. تجزیه و تحلیل احساسات به طور گسترده‌ای در موارد صدای مشتری مانند بررسی و پاسخ نظر سنجی، آنلاین و رسانه‌های اجتماعی و در موارد مراقبت بهداشت برای کاربردهایی از بازاریابی تا خدمات به مشتریان برای پزشکی اعمال می‌شود.

سامانه تجزیه و تحلیل احساسات به تعیین نگرش یک سخنران، نویسنده، یا موضوع دیگر با توجه به برخی از موضوع یا قطبیت متن کلی یا واکنش احساسی به یک سند، تعامل، یا رویداد کمک می‌کند. نگرش ممکن است یک قضاوت یا ارزیابی (نظریه ارزیابی را ببینید)، حالت مؤثر (احساس نویسنده یا سخنران)، یا ارتباط عاطفی باشد. (اثر عاطفی در نظر گرفته شده توسط نویسنده یا مخاطب).

نگار

نگار یک سامانه نگارش فارسی معیار و یک افزونه بر ویرایشگر MS-Word است. هدف این سیستم اشکال‌زدایی از متون فارسی و تبدیل متون به استاندارد فرهنگستان زبان و ادب فارسی است. این سامانه به زبان سی شارپ نوشته شده است. این سامانه به ویرایشگر word مایکروسافت اضافه شده و امکان ویرایش متون فارسی را در اختیار کاربران قرار می‌دهد. نگار یک افزونه برای نرم افزار Word است که در اختیار کاربران عادی برای ویرایش متون فارسی قرار می‌گیرد. این افزونه دارای چهار بخش اصلی می‌باشد:
       - استانداردسازی
       - ویرایش و اصلاح فاصله‌گذاری بین کلمات متن
       - اصلاح علائم نگارشی
       - تبدیل اعداد
       - اعداد غیرفارسی به فارسی
       - اعداد رقمی به حرفی

‌نسخه 32 بیتی نسخه 64 بیتی

فارس‌واژه

فارس‌واژه مجموعه‌ای از کلمات زبان فارسی است که از ترکیب کلمات زایا، فارس‌نت، فرهنگ املائی و تعدادی از کلماتی که به صورت دستی وارد و ویرایش شده‌اند، تشکیل شده است. این مجموعه شامل حدود 72 هزار کلمه است و به همت دانشجویان آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی جمع‌آوری شده است. هر کلمه دارای صورت نوشتاری، صورت آوایی، برچسب مقوله‌ی نحوی، فرکانس، صورت صحیح نوشتاری بودن/نبودن، مرکب بودن/نبودن، مشتق بودن/نبودن، شکل مفرد کلمه در صورت جمع مکسر بودن، می‌باشد.

خلاصه‌ساز

با رشد روزافزون مستندات متنی در وب، انتخاب اطلاعات مطلوب در زمان محدود کار مشکلي است. با استفاده از ابزارهایی نظیر خلاصه‌سازها، می‌توان این حجم انبوه اطلاعات را با توليد خلاصه پیش‌نویس‌ مدیریت نمود. روش خلاصه‌سازی پیشنهاد شده شامل سه مرحله پیش‌پردازش، پردازش و تولید خلاصه برای متون خبری می‌باشد.

1- مرحله پیش‌پردازش مرحله پیش‌پردازش شامل قطعه‌بندی (تشخیص محدوده جملات و کلمات)، حذف ایست‌واژه‌ها یا هرزواژه‌ها، شناسایی مقادیر عددی و اسامی خاص، ریشه‌یابی با استفاده از استپ وان و استخراج اطلاعات معنایی مورد نیاز از فارس‌نت می‌باشد.

2- مرحله پردازش در مرحله پردازش امتیاز ویژگی برای هر جمله ورودی با استفاده از هشت ویژگی ظاهری موجود در متن و امتیاز شباهت و ارتباط برای هر زوج جمله با اعمال اطلاعات استخراج شده از فارس‌نت محاسبه می‌گردند. سپس جملات در سه نوع خوشه اصلی‌ حاوی جملات مشابه، جملات مرتبط و جملات هم وقوع خوشه‌بندی می‌شوند.

3-مرحله نهایی در مرحله نهایی خلاصه با گزینش جملات از خوشه‌ها به دو روش "امتیاز ویژگی" یا "تعداد جملات مشابه و مرتبط" تولید می‌شود.

ترجمه ماشینی

ترجمه ماشینی از حوزه های پرکاربرد پردازش زبان طبیعی است که به دلیل ابهامات و پیچیدگی قواعد زبان طبیعی در زبان مبداء و مقصد با مشکلات زیادی روبرو بوده است. البته کارایی ترجمه ماشینی به کارایی پردازش های پایه ای زبان طبیعی مورد استفاده در آن نیز بستگی دارد. ترجمه ماشینی به طور معمول با مفهوم ترجمه یک نوشتار از زبان مبداء به مقصد مطرح می شود. ترجمه گفتار به گفتار با ترکیب مولفه های تبدیل گفتار به نوشتار و نوشتار به گفتار با ترجمه نوشتاری قابل انجام است.

دو گرایش کلی مبتنی بر قاعده و مبتنی بر پیکره در ترجمه ماشینی وجود دارد. در گرایش مبتنی بر قاعده با مطالعات زبانی، پایگاهی از قواعد برای ترجمه ایجاد می شود که به طور معمول پوشش کافی ندارند. همچنین ممکن است، جملات ترجمه شده روان نباشند.در گرایش مبتنی بر پیکره، دانش زبانی مورد نیاز برای ترجمه به صورت ماشینی از پیکره موازی استخراج می شود. پیکره موازی حاوی میلیون ها جمله معادل به دو زبان مبداء و مقصد است.

روش ترجمه آماری در گرایش مبتنی بر پیکره از اوائل دهه نود مورد توجه قرار گرفته است و بیشتر تحقیقات اخیر نیز درباره این روش است. در این روش با یادگیری احتمالات مختلف از پیکره زبانی، جمله خروجی دارای بیشترین احتمال تولید می شود. محصول حاضر یک مترجم آماری فارسی به انگلیسی است که با استفاده از پیکره میزان با حدود یک میلیون جمله در دامنه ادبیات کلاسیک آموزش داده شده است. در مدل آماری این مترجم سعی شده است که تفاوت ترتیب کلمات در دو زبان فارسی و انگلیسی آموزش داده شود.

پیکره ها و دادگان

انواع داده ها ( داده‌های متنی و غیرمتنی زبانی ) را به عنوان پیکره ها و دادگان می‌شناسیم. آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی با هدف تسهیل دسترسی پژوهشگران این حوزه به منابع زبانی موجود در زبان فارسی، پیکره ها و دادگان تولید شده خود را با شرایط خاصی به اشتراک می¬گذارد. همچنین شما می توانید از طریق این پایگاه با تیم پژوهشی آزمایشگاه در تماس باشید. این تیم با سابقۀ موفق در تولید مجموعه داده‌های زبانی، آماده ارائه مشاوره و انجام سفارش‌های تولید داده است. لطفاً جهت مشاهده پیکره ها و دادگان اینجا کلیک نمائید.