معرفی
این بخش به معرفی محصولات آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی میپردازد. این آزمایشگاه خدمات گستردهای در حوزه هوش مصنوعی بطور عام و پردازش زبان طبیعی و مهندسی هستان شناسی بطور خاص ارائه میدهد.
در حوزه پردازش زبان طبیعی تمرکز اصلی آزمایشگاه بر پردازش زبان فارسی است. در این حوزه انواع محصولات آزمایشگاه را می توان بصورت زیر دسته بندی نمود. برخی از این محصولات بصورت منبع آزاد، برخی بصورت وب سرویس، برخی در قالب آزمایشگاه تایید نمونه و برخی با مجوزهای خاص قابل دسترسی و بهره برداری هستند:
- 1- ابزارهای تولید و برچسب گذاری دادگان مانند
- - فرهنگیار : ابزار تولید فرهنگ جامع فارسی در فرهنگستان زبان و ادب فارسی
- - سمپ : ابزار مدیریت و برچسبزنی پیکره با برچسب های معنایی
- - واژهیار : ابزار جمعسپاری واژهگزینی و ارائه واژه های معادل فارسی کلمات و عبارات انگلیسی
- 2- منابع زبانی شامل واژگان، هستان شناسی، پیکره های آموزش و آزمایش و دادگان محک ازجمله
- - فارسنت : وردنت فارسی
- - واژگان فارسواژه
- - هستانشناسی پردازش زبان طبیعی
- - پیکره بزرگ فارسی
- - پیکره بلاگ ها
- - مدلهای زبانی فارسی (مدل بزرگ چندتای کلمات، مدلهای جاسازی کلمات ...)
- - پیکره محک رفع ابهام معنایی فارسی
- - پیکره محک قطعه بندی فارسی
- - پیکره محک تحلیل ساختواژی و بنواژهیابی فارسی
- - پیکره محک تشخیص استلزام و تناقض فارسی
- - پیکره محک شباهت سنجی با آنالوژی
- - پیکره محک مدلهای جاسازی
- 3- پردازشهای پایه ( سطح 1 ) ( ابزار استپ وان ) شامل :
- - تشخیص زبان فارسی
- - قطعه بند ( توکنایزر ) جهت تقسیم متن به جملات و سپس به کلمات (توکن ها)
- - تحلیلگر ساختواژی، بنواژه یاب (ریشه یاب) و لمیاب جهت تشخیص ساختار ساختواژی کلمات و یافتن ریشه یا بن واژه کلمه
- - برچسب زن اجزاء کلام (POS tagger) جهت تعیین مقوله لغوی کلمات
- 4- سرویسهای پردازش های میانی زبان ( سطح 2 ) مانند :
- - دسته بندی متون
- - تبدیل محاوره به رسمی
- - تشخیص طنز و توهین و .. (نوع گفتگو)
- - شباهت سنجی کلمات و جملات
- - شناسایی گر موجودیت های نامدار (NER) جهت شناسایی و تعیین نوع موجودیت های نامدار متن
- 5- برنامه های کاربردی (سطح 3) ازجمله :
- - نگار : ویرایش و اصلاح متون به جهت نگارش فارسی معیار مطابق دستورخط و معادلهای مصوب فرهنگستان
- - مهتاب : سامانه مشابهت سنجی و کشف تقلب متون فارسی
- - کیوسک : سامانه پرسش و پاسخ در حوزه آموزش و میز اطالاعات دانشکده مهندسی کامپیوتر
- - خبره یابی و منبعیابی : یافتن افراد خبره، سازمانهای حقوقی و انتشارات مرتبط با یک موضوع در حوزه پردازش زبان به منظور کمک به مجلات و کنفرانس ها در یافتن داور و دانشجویان و محققان در یافتن مرجع یا همکار در حوزه کاری مشترک
- - دستیار هوشمند موبایل جهت دریافت و اجرای دستورات کاربر موبایل
- - تحلیل احساسات و نظرات
- - ترجمه ماشینی
- - خلاصهسازی متون فارسی
- - تبدیل متن به تصویر
- 6- طرح کلان و برنامه های جامع (سطح 4) :
- پروژه جامع فعلی آزمایشگاه، "سامانه هوشمند ارتباط با مشتریان (سها)" است که هماکنون بهعنوان بخشی از طرح دانشکده هوشمند بهصورت آزمایشی در دانشکده در حال توسعه، نصب و اجراست و .شامل ۵ زیرسامانه اصلی زیر می باشد.
- - تشخیص نوع گفتگو
- - گپ هوشمند (چتبات)
- - پرسش و پاسخ
- - تحلیل احساسات و نظرات کاربران
- - دستورپذیری و اجرای درخواست
استپ وان
STeP-1: Standard Text preparation for Persian language
برای بسیاری از برنامههای پردازش زبان طبیعی لازم است تا مجموعهای از پیشپردازشها بر روی متن ورودی انجام گیرد تا متن به فرمت مناسبی برای پردازشهای سطح بالاتر تبدیل شود. از جملهی این پیشپردازشها میتوان به قطعهبندی، ریشهیابی اشاره کرد. کاربران پردازشهای زبان طبیعی به واسطی یکپارچه و ساده برای پردازشهای پایه بر روی متن نیاز دارند.
استپ وان
یک بسته نرمافزاری شامل پردازشهای پایهی برروی زبان فارسی است. این بسته شامل قطعهبند و ویرایشگر متون فارسی، ریشهیاب و تحلیلگر ساخت واژی است. این نرمافزار به زبان سی شارپ نوشته شده است. زیر سیستم های نرم افزار تحلیل متن استپ وان را می توان به صورت زیر تشریح کرد.
زیرسیستم قطعهبند :
این زیرسیستم متن را به کلمات و جملات تشکیلدهندهاش تجزیه میکند. در این سیستم فاصلهها و نیم فاصلهها بین کلمات فارسی تصحیح میشود. همچنین این سیستم، متن را تا حدی بر اساس اصول نگارشی فرهنگستان زبان و ادب فارسی ویرایش میکند.
زیرسیستم ریشهیاب :
این زیرسیستم قادر به ریشه یابی تمام کلمات تصریفی، تعدادی از کلمات اشتقاقی و تحلیل ساختواژی آنهاست.
استپ وان یک API است که در اختیار کاربران تخصصی پردازش زبان فارسی قرار میگیرد.نسخه جدید و نسخه قبلی استپ وان و راهنمای آن از طریق لینک های مقابل دسترسی داشته باشید.
نسخه جدید
نسخه قبلی
راهنما
فارسنت
فارسنت
نخستین ، دقیقترین و بزرگترین وردنت فارسی است که در آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی و با حمایت مرکز تحقیقات مخابرات ایران توسعه یافته است. آخرین نسخه فارسنت (نسخه 3) دارای بیش از 100 هزار مدخل واژگانی (واژه یا عبارت) است که در حدود 40 هزار مجموعه ترادف جا گرفته اند. برای هر مدخل حداقل یک معنی تعریف شده و هر معنی در یک و فقط یک مجموعه ترادف شرکت می کند. کلیه مجموعههای ترادف یا در سلسله مراتب شرکت می کنند و یا به عنوان سرگروه معرفی می شوند. درضمن هر مجموعه ترادف یا حداقل یکی از اعضا آن در حداقل یک رابطه غیر سلسله مراتبی شرکت نموده است. همچنین هر مجموعه ترادف در صورت امکان به مجموعه ترادف نظیر در وردنت 3.0 پرینستون نگاشت شده است.
واژه یار
یافتن معادل فارسی واژگان بیگانه یکی از دغدغههای پژوهشگران میباشد، از آنجایی که این معادل فارسی باید رسا، منطقی و تاحدممکن مورد قبول عام باشد، نیاز است جستوجوی معادل، ثبت و تصویب آن در سامانهای جمعسپاری شده باشد.
واژه یار
سامانهای است که پژوهشگران میتوانند واژههای بیگانه را با فیلترهای حوزه و انواع عبارات منظم جستوجو نمایند و به معادلهای پیشنهاد شده، رأی مثبت یا منفی دهند، چراکه این رأیها در پیشنهاد این معادل به عنوان معادلِ مصوب فرهنگستان زبان و ادب فارسی مؤثر خواهد بود.
پنل مدیریت این سامانه جهت استفاده افراد با دسترسی ویژه به گونهای طراحی و پیادهسازی شده که کاربر را قادر میسازد: گروههای کاربری با امتیاز تصویب متفاوت تعریف کند و دسترسی کاربران ثبتنام شده و حوزهها را مدیریت نماید، پیشینهی جستوجوی ناموفق را مشاهده کند و همچنین واژگانی که معادل مصوب ندارند را ملاحظه کرده و درصورت نیاز با توجه به رأی افراد، معادل مصوب را بازبینی نماید.
کاربر ثبتنام شده که دسترسی عادی دارد، میتواند لیست واژگان به سامانه بی افزاید و برای واژگان موجود معادل تعریف کند. واژگانی که توسط این کاربران تعریف می شود، پس از تایید کاربر با دسترسی ویژه در سامانه جهت استفاده عام قرار میگیرد.
نسخه ویندوز
نسخه اندروید
فرهنگیار
فرهنگیار
ابزاری است برای تهیه فرهنگ جامع زبان فارسی، که به عنوان یک طرح ملی توسط فرهنگستان زبان و ادب فارسی در حال پیگیری است. این فرهنگ بر اساس انتخاب گزیدههایی از متون منتخب زبان فارسی، از دوران و گونههای مختلف، در حال تهیه است. فرهنگیار ضمن ارائه امکان نگهداری این مجموعه عظیم متون منتخب و جستجو در آن، امکان فرهنگنگاری بر اساس شیوهنامه مفصل و پیچیده فرهنگنویسی، تدوینشده در گروه فرهنگنویسی فرهنگستان زبان و ادب فارسی، را فراهم آورده است؛ که دامنهای از تعریف مدخلها، جریان کاری ویراستاری آنان، مدیریت و جستجو در مدخلها، مدیریت کاربران، و ارائه نسخه قابلچاپ از فرهنگ در قالب فایل MS Word را شامل میشود.
همچنین از آنجایی که این نرمافزار تحت وب میباشد؛ امکان مشارکت فرهنگنویسان از هر نقطهای از جهان را برای فرهنگستان ممکن میسازد. برابر برآوردهای صورت گرفته به نظر میرسد این نرمافزار با ویژگیهای پیادهسازی شده آن، یک نمونه ابزار بینظیر فرهنگنویسی است که برای زبان فارسی ایجاد شده است.
مهتاب
در عصر شبکه جهانی وب، جستجوی اطلاعات به سادگی با استفاده از موتورهای جستجو و پایگاه داده های برخط انجام می شود. اگر چه این امر در اشتراک گذاری و انتشار دانش، نقش بسزایی داشته است اما در عین حال حفاظت از حق مالکیت در مقابل سوء استفاده ها را نیز دشوارتر می کند. سیستم های کشف تقلب یا مشابهت یاب اسناد، سعی به کشف این نوع سوء استفادهها را دارند. سیستم مهتاب از جمله پروژه هایی است که در زمینه کشف تقلب در اسناد علمی، در آزمایشگاه پردازش زبانهای طبیعی دانشگاه شهید بهشتی تعریف شده است.
پروژه مهتاب
یک سیستم مشابهت یاب روی اسناد علمی حوزه برق و کامپیوتر است. این سیستم اسناد پرس و جو را با پایگاه داده ای متشکل از بیست هزار مقاله و پایان نامه های حوزه برق و کامپیوتر مورد مقایسه قرارمی دهد و اسناد پایگاه داده را بر اساس میزان شباهتشان به سند پرس و جو رتبه بندی کرده و به کاربر نمایش می دهد. علاوه بر اینکه سیستم درصد شباهت کلی هر سند پرس وجو با شند منبع را تعیین می کند همچنین قادر به نمایش محل دقیق مشابهت بین دو سند و تعیین درصد این شباهت بصورت مستقلمی باشد. در این سیستم تصاویر اسناد نیز مورد مقایسه قرارمی گیرد و در تعیین درصد کلی شباهت اسناد تأثیرگذار خواهند بود. سیستم مهتاب در حال حاضر قادر به شناسایی انواع کپی برداری های دقیق، کپی برداری با تغییرات و برخی تکنیک های دستکاری متن مانند درج و حذف جملات، تقسیم و تلفیق جملات، جابجایی و جایگزینی کلمات با مترادف هایشانمی باشد. سیستم مهتاب مبتنی بر روشهای بازیابی اطلاعات است و این امر سبب شده سیستم قادر به اجرا روی پایگاه دادههای با حجم انبوه نیز باشد. این سیستم اکنون قادر به پشتیبانی از زبانهای فارسی و انگلیسی است و مشابهت یابی بین زبانی برای زبانهای فارسی و انگلیسی از چشماندازهای متصور برای سیستم مهتاب خواهد بود.
خبره یابی
مسئلهی خبرهیابی یکی از چالشبرانگیزترین مسائل کنونی در حوزههای مختلف علوم کامپیوتر از جمله حوزهی پردازش زبان طبیعی است. این مسئله به بررسی خبرگیهای افراد برای تعیین بهترین کاندیدهای موقعیتهای شغلی مختلف در کسبوکارها یا محیطهای علمی-پژوهشی میپردازد. در اصل، هدف از چنین سیستمهایی برقراری ارتباط بین افراد واجد شرایط و حوزههای خبرگی مختلف است.
سیستم خبرهیابی
آزمایشگاه پردازش زبان طبیعی، به منظور یافتن منابع خبرگی مختلف در حوزهی پردازش زبان طبیعی آماده شده است. این سیستم با استفاده از تکنولوژیهای وب معنایی، نظیر هستانشناسیهای خاص دامنه، با توجه به پرسوجوهای دریافتی از کاربر نهایی سیستم منابع مرتبط با پرسوجو را به صورت رتبهبندی شده ارائه میدهد.
هستانشناسی «پردازش زبان طبیعی» به جهت استفاده در این سامانه و بهبود نتایج نهایی این سیستم تهیه شده است. این هستانشناسی مجموعهی کاملی از عبارات و اصطلاحات مرتبط با این حوزه را با ویژگیها و روابط مختلفی که با یکدیگر دارند، ارائه میدهد. تحقیقات نشان میدهند استفاده از چنین مدل مفهومیای در حل مسئلهی خبرهیابی باعث بهبود نتایج ارائه شده به نسبت سایر سیستمهای خبرهیاب موجود شده است.
این سیستم شامل سه بخش زیر میباشد:
رتبهبندی مقالات :
لیستی مرتب شده از مقالات مرتبط با پرسوجوی درخواستی را با توجه به اطلاعاتی که از مقالات در دسترس هستند، ارائه میدهد.
رتبهبندی خبرگان حقیقی :
لیستی مرتب شده از نویسندگان مرتبط با پرسوجوی درخواستی را با توجه به اطلاعات پروفایل و همچنین مقالات آنها ارائه میدهد.
رتبهبندی خبرگان حقوقی :
لیستی مرتب شده از دانشگاههای جهان مرتبط با پرسوجوی درخواستی را با توجه به اطلاعات پژوهشگران و دانشجویان این دانشگاهها ارائه میدهد.
تحلیل احساسات
تجزیه و تحلیل احساسات (گاهی اوقات به عنوان نظرکاوی یا عقیده کاوی یا هوش مصنوعی احساسات شناخته میشود) به استفاده از پردازش زبان طبیعی، تجزیه و تحلیل متن، زبانشناسی محاسباتی، و بیومتریک به شناسایی سیستماتیک، استخراج، سنجش کمیت، و مطالعه حالات مؤثر و اطلاعات ذهنی اشاره دارد. تجزیه و تحلیل احساسات به طور گستردهای در موارد صدای مشتری مانند بررسی و پاسخ نظر سنجی، آنلاین و رسانههای اجتماعی و در موارد مراقبت بهداشت برای کاربردهایی از بازاریابی تا خدمات به مشتریان برای پزشکی اعمال میشود.
سامانه تجزیه و تحلیل احساسات
به تعیین نگرش یک سخنران، نویسنده، یا موضوع دیگر با توجه به برخی از موضوع یا قطبیت متن کلی یا واکنش احساسی به یک سند، تعامل، یا رویداد کمک میکند. نگرش ممکن است یک قضاوت یا ارزیابی (نظریه ارزیابی را ببینید)، حالت مؤثر (احساس نویسنده یا سخنران)، یا ارتباط عاطفی باشد. (اثر عاطفی در نظر گرفته شده توسط نویسنده یا مخاطب).
نگار
نگار یک سامانه نگارش فارسی معیار
و یک افزونه بر ویرایشگر MS-Word است. هدف این سیستم اشکالزدایی از متون فارسی و تبدیل متون به استاندارد فرهنگستان زبان و ادب فارسی است. این سامانه به زبان سی شارپ نوشته شده است. این سامانه به ویرایشگر word مایکروسافت اضافه شده و امکان ویرایش متون فارسی را در اختیار کاربران قرار میدهد. نگار یک افزونه برای نرم افزار Word است که در اختیار کاربران عادی برای ویرایش متون فارسی قرار میگیرد. این افزونه دارای چهار بخش اصلی میباشد:
- استانداردسازی
- ویرایش و اصلاح فاصلهگذاری بین کلمات متن
- اصلاح علائم نگارشی
- تبدیل اعداد
- اعداد غیرفارسی به فارسی
- اعداد رقمی به حرفی
نسخه 32 بیتی
نسخه 64 بیتی
فارسواژه
فارسواژه
مجموعهای از کلمات زبان فارسی است که از ترکیب کلمات زایا، فارسنت، فرهنگ املائی و تعدادی از کلماتی که به صورت دستی وارد و ویرایش شدهاند، تشکیل شده است. این مجموعه شامل حدود 72 هزار کلمه است و به همت دانشجویان آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی جمعآوری شده است. هر کلمه دارای صورت نوشتاری، صورت آوایی، برچسب مقولهی نحوی، فرکانس، صورت صحیح نوشتاری بودن/نبودن، مرکب بودن/نبودن، مشتق بودن/نبودن، شکل مفرد کلمه در صورت جمع مکسر بودن، میباشد.
خلاصهساز
با رشد روزافزون مستندات متنی در وب، انتخاب اطلاعات مطلوب در زمان محدود کار مشکلي است. با استفاده از ابزارهایی نظیر خلاصهسازها، میتوان این حجم انبوه اطلاعات را با توليد خلاصه پیشنویس مدیریت نمود. روش
خلاصهسازی پیشنهاد شده
شامل سه مرحله پیشپردازش، پردازش و تولید خلاصه برای متون خبری میباشد.
1- مرحله پیشپردازش
مرحله پیشپردازش شامل قطعهبندی (تشخیص محدوده جملات و کلمات)، حذف ایستواژهها یا هرزواژهها، شناسایی مقادیر عددی و اسامی خاص، ریشهیابی با استفاده از استپ وان و استخراج اطلاعات معنایی مورد نیاز از فارسنت میباشد.
2- مرحله پردازش
در مرحله پردازش امتیاز ویژگی برای هر جمله ورودی با استفاده از هشت ویژگی ظاهری موجود در متن و امتیاز شباهت و ارتباط برای هر زوج جمله با اعمال اطلاعات استخراج شده از فارسنت محاسبه میگردند. سپس جملات در سه نوع خوشه اصلی حاوی جملات مشابه، جملات مرتبط و جملات هم وقوع خوشهبندی میشوند.
3-مرحله نهایی
در مرحله نهایی خلاصه با گزینش جملات از خوشهها به دو روش "امتیاز ویژگی" یا "تعداد جملات مشابه و مرتبط" تولید میشود.
ترجمه ماشینی
ترجمه ماشینی
از حوزه های پرکاربرد پردازش زبان طبیعی است که به دلیل ابهامات و پیچیدگی قواعد زبان طبیعی در زبان مبداء و مقصد با مشکلات زیادی روبرو بوده است. البته کارایی ترجمه ماشینی به کارایی پردازش های پایه ای زبان طبیعی مورد استفاده در آن نیز بستگی دارد. ترجمه ماشینی به طور معمول با مفهوم ترجمه یک نوشتار از زبان مبداء به مقصد مطرح می شود. ترجمه گفتار به گفتار با ترکیب مولفه های تبدیل گفتار به نوشتار و نوشتار به گفتار با ترجمه نوشتاری قابل انجام است.
دو گرایش کلی مبتنی بر قاعده و مبتنی بر پیکره در ترجمه ماشینی وجود دارد. در گرایش مبتنی بر قاعده با مطالعات زبانی، پایگاهی از قواعد برای ترجمه ایجاد می شود که به طور معمول پوشش کافی ندارند. همچنین ممکن است، جملات ترجمه شده روان نباشند.در گرایش مبتنی بر پیکره، دانش زبانی مورد نیاز برای ترجمه به صورت ماشینی از پیکره موازی استخراج می شود. پیکره موازی حاوی میلیون ها جمله معادل به دو زبان مبداء و مقصد است.
روش ترجمه آماری در گرایش مبتنی بر پیکره از اوائل دهه نود مورد توجه قرار گرفته است و بیشتر تحقیقات اخیر نیز درباره این روش است. در این روش با یادگیری احتمالات مختلف از پیکره زبانی، جمله خروجی دارای بیشترین احتمال تولید می شود. محصول حاضر یک مترجم آماری فارسی به انگلیسی است که با استفاده از پیکره میزان با حدود یک میلیون جمله در دامنه ادبیات کلاسیک آموزش داده شده است. در مدل آماری این مترجم سعی شده است که تفاوت ترتیب کلمات در دو زبان فارسی و انگلیسی آموزش داده شود.
پیکره ها و دادگان
انواع داده ها ( دادههای متنی و غیرمتنی زبانی ) را به عنوان پیکره ها و دادگان میشناسیم. آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی با هدف تسهیل دسترسی پژوهشگران این حوزه به منابع زبانی موجود در زبان فارسی، پیکره ها و دادگان تولید شده خود را با شرایط خاصی به اشتراک می¬گذارد. همچنین شما می توانید از طریق این پایگاه با تیم پژوهشی آزمایشگاه در تماس باشید. این تیم با سابقۀ موفق در تولید مجموعه دادههای زبانی، آماده ارائه مشاوره و انجام سفارشهای تولید داده است. لطفاً جهت مشاهده پیکره ها و دادگان
اینجا
کلیک نمائید.