نام پژوهشگر: سیده طاهره میرعمادیان
سیده طاهره میرعمادیان خشایار یغمایی
امروزه با گسترش کاربرد کامپیوتر، نیاز به استفاده از توانایی های غیر قابل چشم پوشی آن، در حوزه زبان شناسی به شدت احساس می شود.حوزه های پردازش زبان طبیعی و زبان شناسی رایانه ای به تلاش برای ماشینی کردن فرآیند زبان شناسی سنتی می پردازند.هدف اصلی در پردازش زبان طبیعی، ایجاد تئوری های محاسباتی از زبان،با استفاده از الگوریتم ها و ساختارهای داده ای موجود در علوم کامپیوتر است. بدیهی است که در راستای تحقق این هدف، نیاز به دانشی وسیع از زبان است و علاوه بر محققان علوم کامپیوتر ، نیاز به دانش زبان شناسان نیز در این حوزه می باشد. این پایان نامه به کمک ابزارهای زبانی دستور فارسی و اطلاعات آماری و نیز به کارگیری درخت تصمیم گیری سعی در ارائه روشی دارد که به کمک آن بخشی از نیازهای حوزه پردازش زبان طبیعی را پاسخ دهد.از جمله تحقیقاتی که با بکارگیری این ابزار در این پایان نامه انجام شده است، تعیین محدوده جملات فارسی می باشد که در آن، محدوده جملات که شامل ابتدا، انتها، وسط و ابتدا/ انتها می باشد به صورت خودکار شناسایی می شوند. هم چنین از این ابزار در شناسایی انواعی از کلمات مرکب که شامل اسم و صفت مرکب می باشنداستفاده شده است. زیرا وجود کلمات مرکب در جملات و پایین بودن دقت شناسایی این کلمات منجر به تولید جملاتی می شود که گاه به لحاظ دستوری و گاه به لحاظ معنایی نادرست می باشند. بنابراین یکی از راه حل های استخراج جملات بامعنی ، برطرف کردن این معضل می باشد. کلماتمرکب به صورت ترکیبی از دو یا چند کلمه با معنی مجزا در متن ظاهر می شوند و همین امر شناسایی آنها را به عنوان یک کلمه واحد، کمی مشکل می سازد. این روش قابل تعمیم به انواع دیگر کلمات مرکب از جمله حروف ربط و قید نیز می باشد. نتایج بدست آمده در هر دو تحقیق نشان دهنده کارا بودن این روش می باشد.