پروژه ها

نگار: سامانه نگارش فارسی معیار

سامانه نگار یک سامانه نگارش فارسی معیار و یک افزونه بر ویرایشگر MS-Word است. هدف این سیستم اشکال‌زدایی از متون فارسی و تبدیل متون به استاندارد فرهنگستان زبان و ادب فارسی است. این سامانه به زبان C# نوشته شده است. این سامانه به ویرایشگر word مایکروسافت اضافه شده و امکان ویرایش متون فارسی را در اختیار کاربران قرار می‌دهد.
این افزونه دارای چهار بخش اصلی می‌باشد:
1) استانداردسازی
2) ویرایش و اصلاح فاصله‌گذاری بین کلمات متن
3) اصلاح علائم نگارشی
4) تبدیل اعداد
• اعداد غیرفارسی به فارسی
• اعداد رقمی به حرفی
نگار یکMS word plugin است که در اختیار کاربران عادی برای ویرایش متون فارسی قرار می‌گیرد.

فارس واژه

فارس‌واژه مجموعه‌ای از کلمات زبان فارسی است که از ترکیب کلمات زایا، فارس‌نت، فرهنگ املائی و تعدادی از کلماتی که به صورت دستی وارد و ویرایش شده‌اند، تشکیل شده است. این مجموعه شامل حدود 72 هزار کلمه است و به همت دانشجویان آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی جمع‌آوری شده است. هر کلمه دارای صورت نوشتاری، صورت آوایی، برچسب مقوله‌ی نحوی، فرکانس، صورت صحیح نوشتاری بودن/نبودن، مرکب بودن/نبودن، مشتق بودن/نبودن، شکل مفرد کلمه در صورت جمع مکسر بودن، می‌باشد.

خلاصه ساز

با رشد روزافزون مستندات متنی در وب، انتخاب اطلاعات مطلوب در زمان محدود کار مشکلي است. با استفاده از ابزارهایی نظیر خلاصه‌سازها، می‌توان این حجم انبوه اطلاعات را با توليد خلاصه پیش‌نویس‌ مدیریت نمود. روش خلاصه‌سازی پیشنهاد شده شامل سه مرحله پیش‌پردازش، پردازش و تولید خلاصه برای متون خبری می‌باشد.
مرحله پیش‌پردازش شامل قطعه‌بندی (تشخیص محدوده جملات و کلمات)، حذف ایست‌واژه‌ها یا هرزواژه‌ها، شناسایی مقادیر عددی و اسامی خاص، ریشه‌یابی (با استفاده از STep1) و استخراج اطلاعات معنایی مورد نیاز از فارس‌نت می‌باشد.
در مرحله پردازش، امتیاز ویژگی برای هر جمله ورودی (با استفاده از هشت ویژگی ظاهری موجود در متن) و امتیاز شباهت و ارتباط برای هر زوج جمله (با اعمال اطلاعات استخراج شده از فارس‌نت) محاسبه می‌گردند. سپس جملات در سه نوع خوشه اصلی‌ حاوی جملات مشابه، جملات مرتبط و جملات هم وقوع خوشه‌بندی می‌شوند.
در مرحله نهایی، خلاصه با گزینش جملات از خوشه‌ها به دو روش "امتیاز ویژگی" یا "تعداد جملات مشابه و مرتبط" تولید می‌شود.

سیستم مشابهت یاب مهتاب

در عصر شبکه جهانی وب، جستجوی اطلاعات به سادگی با استفاده از موتورهای جستجو و پایگاهدادههای برخط انجام میشود. اگر چه این امر در اشتراکگذاری و انتشار دانش، نقش بسزایی داشته است اما در عین حال حفاظت از حق مالکیت در مقابل سوء استفادهها را نیز دشوارتر میکند. سیستم های کشف تقلب یا مشابهت یاب اسناد، سعی به کشف این نوع سوء استفاده‌ها را دارند. سیستم مهتاب از جمله پروژه هایی است که در زمینه کشف تقلب در اسناد علمی، در آزمایشگاه پردازش زبانهای طبیعی دانشگاه شهید بهشتی تعریف شده است.
نسخه اول پروژه مهتاب (که اکنون خدمات آن در حال ارتقاء‌می باشد) یک سیستم مشابهت یاب روی اسناد علمی حوزه برق و کامپیوتر است. این سیستم اسناد پرس و جو را با پایگاه داده ای متشکل از بیست هزار مقاله و پایان نامه های حوزه برق و کامپیوتر مورد مقایسه قرار‌می دهد و اسناد پایگاه داده را بر اساس میزان شباهتشان به سند پرس و جو رتبه بندی کرده و به کاربر نمایش‌می دهد. علاوه بر اینکه سیستم درصد شباهت کلی هر سند پرس وجو با شند منبع را تعیین‌می کند همچنین قادر به نمایش محل دقیق مشابهت بین دو سند و تعیین درصد این شباهت بصورت مستقل‌می باشد. در این سیستم تصاویر اسناد نیز مورد مقایسه قرار‌می گیرد و در تعیین درصد کلی شباهت اسناد تأثیرگذار خواهند بود. سیستم مهتاب در حال حاضر قادر به شناسایی انواع کپی برداری های دقیق، کپی برداری با تغییرات و برخی تکنیک های دستکاری متن مانند درج و حذف جملات، تقسیم و تلفیق جملات، جابجایی و جایگزینی کلمات با مترادف هایشان‌می باشد.
سیستم مهتاب مبتنی بر روش‌های بازیابی اطلاعات است و این امر سبب شده سیستم قادر به اجرا روی پایگاه داده‌های با حجم انبوه نیز باشد. این سیستم اکنون قادر به پشتیبانی از زبان‌های فارسی و انگلیسی است و مشابهت یابی بین زبانی برای زبان‌های فارسی و انگلیسی از چشم‌اندازهای متصور برای سیستم مهتاب خواهد بود.

صفحه پروژه

مترجم ماشينی آماری فارسی–انگليسی

ترجمه ماشینی از حوزه¬های پرکاربرد پردازش زبان طبیعی است که به دلیل ابهامات و پیچیدگی قواعد زبان طبیعی در زبان مبداء و مقصد با مشکلات زیادی روبرو بوده است. البته کارایی ترجمه ماشینی به کارایی پردازش¬های پایه¬ای زبان طبیعی مورد استفاده در آن نیز بستگی دارد. ترجمه ماشینی به طور معمول با مفهوم ترجمه یک نوشتار از زبان مبداء به مقصد مطرح می¬شود. ترجمه گفتار به گفتار با ترکیب مولفه های تبدیل گفتار به نوشتار و نوشتار به گفتار با ترجمه نوشتاری قابل انجام است.
دو گرایش کلی مبتنی بر قاعده و مبتنی بر پیکره در ترجمه ماشینی وجود دارد. در گرایش مبتنی بر قاعده با مطالعات زبانی، پایگاهی از قواعد برای ترجمه ایجاد می¬شود که به طور معمول پوشش کافی ندارند. همچنین ممکن است، جملات ترجمه شده روان نباشند.در گرایش مبتنی بر پیکره، دانش زبانی مورد نیاز برای ترجمه به صورت ماشینی از پیکره موازی استخراج می¬شود. پیکره موازی حاوی میلیون¬ها جمله معادل به دو زبان مبداء و مقصد است.
روش ترجمه آماری در گرایش مبتنی بر پیکره از اوائل دهه نود مورد توجه قرار گرفته است و بیشتر تحقیقات اخیر نیز درباره این روش است. در این روش با یادگیری احتمالات مختلف از پیکره زبانی، جمله خروجی دارای بیشترین احتمال تولید می¬شود. محصول حاضر یک مترجم آماری فارسی به انگلیسی است که با استفاده از پیکره میزان با حدود یک میلیون جمله در دامنه ادبیات کلاسیک آموزش داده شده است. در مدل آماری این مترجم سعی شده است که تفاوت ترتیب کلمات در دو زبان فارسی و انگلیسی آموزش داده شود.

استپ وان

STeP-1: Standard Text preparation for Persian language
برای بسیاری از برنامه‌های پردازش زبان طبیعی لازم است تا مجموعه‌ای از پیش‌پردازش‌ها بر روی متن ورودی انجام گیرد تا متن به فرمت مناسبی برای پردازش‌های سطح بالاتر تبدیل شود. از جمله‌ی این پیش‌پردازش‌ها می‌توان به قطعه‌بندی، ریشه‌یابی و برچسب‌گذاری مقوله‌ی نحوی اشاره کرد. کاربران پردازش‌های زبان طبیعی به واسطی یکپارچه و ساده برای پردازش‌های پایه بررروی متن نیاز دارند. STeP-1 یک بسته نرم‌افزاری شامل پردازش‌های پایه‌ی برروی زبان فارسی است. این بسته شامل قطعه‌بند و ویرایش‌گر متون فارسی، ریشه‌یاب و تحلیل‌گر ساختواژی و برچسب‌زن مقوله‌ی نحوی است. این نرم‌افزار به زبان C# نوشته شده است.
زیرسیستم قطعه‌بند، متن را به کلمات و جملات تشکیل‌دهنده‌اش تجزیه می‌کند. در این سیستم فاصله‌ها و نیم فاصله‌ها بین کلمات فارسی تصحیح می‌شود. همچنین این سیستم، متن را تا حدی بر اساس اصول نگارشی فرهنگستان زبان و ادب فارسی ویرایش می‌کند.
زیرسیستم ریشه‌یاب قادر به ریشه یابی تمام کلمات تصریفی، تعدادی از کلمات اشتقاقی و تحلیل ساختواژی آن‌هاست.
زیرسیستم برچسب زن مقوله‌ی نحوی، مقوله‌ی نحوی کلمات را در یک جمله مشخص می‌کند. برای انجام این کاری از ابزاری به نام TNT استفاده شده است.
STeP-1 یک API است که در اختیار کاربران تخصصی پردازش زبان فارسی قرار می‌گیرد.

صفحه پروژه

فرهنگ‌یار

فرهنگ‌یار ابزاری است برای تهیه فرهنگ جامع زبان فارسی، که به عنوان یک طرح ملی توسط فرهنگستان زبان و ادب فارسی در حال پیگیری است.
این فرهنگ بر اساس انتخاب گزیده‌هایی از متون منتخب زبان فارسی، از دوران و گونه‌های مختلف، در حال تهیه است. فرهنگ‌یار ضمن ارائه امکان نگهداری این مجموعه عظیم متون منتخب و جستجو در آن، امکان فرهنگ‌نگاری بر اساس شیوه‌نامه مفصل و پیچیده فرهنگ‌نویسی، تدوین‌شده در گروه فرهنگ‌نویسی فرهنگستان زبان و ادب فارسی، را فراهم آورده است؛ که دامنه‌ای از تعریف مدخل‌ها، جریان کاری ویراستاری آنان، مدیریت و جستجو در مدخل‌ها، مدیریت کاربران، و ارائه نسخه قابل‌چاپ از فرهنگ در قالب فایل MS Word را شامل می‌شود.
همچنین از آنجایی که این نرم‌افزار تحت وب می‌باشد؛ امکان مشارکت فرهنگ‌نویسان از هر نقطه‌ای از جهان را برای فرهنگستان ممکن می‌سازد.
برابر برآوردهای صورت گرفته، به نظر می‌رسد این نرم‌افزار با ویژگی‌های پیاده‌سازی شده آن، یک نمونه ابزار بی‌نظیر فرهنگ‌نویسی است که برای زبان فارسی ایجاد شده است.

صفحه پروژه

فارس‌نت

فارس‌نت نخستین و دقیقترین وردنت فارسی است که در دانشگاه شهید بهشتی و با حمایت مرکز تحقیقات مخابرات ایران توسعه یافته است. آخرین نسخه آزادرسانی شده فارس نت نسخه 2 است و نسخه 3 نیز با 100000 مدخل آماده شده است که از آدرس پایین قابل مرور است. نسخه 2 فارس‌نت دارای بیش از 30 هزار مدخل واژگانی (واژه یا عبارت) است که در حدود 20 هزار مجموعه ترادف جا گرفته اند. برای هر مدخل حداقل یک معنی تعریف شده و هر معنی در یک و فقط یک مجموعه ترادف شرکت‌می کند. کلیه مجموعه‌های ترادف یا در سلسله مراتب شرکت‌می کنند و یا به عنوان سرگروه معرفی‌می شوند. درضمن هر مجموعه ترادف یا حداقل یکی از اعضا آن در حداقل یک رابطه غیر سلسله مراتبی شرکت نموده است. همچنین هر مجموعه ترادف در صورت امکان به مجموعه ترادف معادل در وردنت انگلیسی پرینستون نگاشت شده است.

صفحه پروژه