نام پژوهشگر: محمدمهدی میردامادی
محمدمهدی میردامادی علی محمد زارع بیدکی
با گسترش روزافزون رسانه های ذخیره سازی الکترونیکی و رسانه های ارتباطی، و همچنین پیشرفت سریع علم کامپیوتر و فراگیر شدن آن، امروزه با حجم عظیمی از متون نوشتاری دیجیتال و اسناد الکترونیکی مواجه هستیم. با گسترش اینگونه اسناد، پردازش اسناد و متون مورد نظر از بین حجم عظیمی از اطلاعات متنی به صورت دستی کاری دشوار و در عمل غیرممکن خواهد بود. از این رو پردازش خودکار متون نوشتاری مورد توجه قرار می گیرد. برای انجام پردازش خودکار متون نوشتاری به کوچکترین واحد معنی دار متن یا کلمات بامفهوم نیاز داریم. از این روست که نشانه گذاری به معنی تشخیص و استخراج این کلمات بامفهوم یا نشانه ها از متون نوشتاری، به یکی از مسائل اساسی در پردازش زبان های طبیعی تبدیل شده است. از جمله کاربردهای نشانه گذاری در موتورهای جستجو هست. با توجه به ساختار زبان فارسی، در این زبان با مشکلات خاص خود مواجه هستیم. وجود رسم الخط های مختلف و سبک های نگارش متفاوت در زبان فارسی، باعث شده فاصله، معیار قطعی و دقیقی برای تشخیص مرز کلمه نباشد. ابهام یونیکد برای حروف "ک" و "ی"، افعال و کلمات مرکب، تولید کلمات جدید و همچنین ورود واژه ها از زبان های دیگر که در بکارگیری حروف برای نوشتن این کلمات ابهام ایجاد می کند، از دیگر مشکلاتی هستند که برای نشانه گذاری، با آن ها روبه رو هستیم. در فصل دوم با بررسی اهم روش های نشانه گذاری، به این نتیجه رسیدیم که تعداد زیادی از الگوریتم های نشانه گذاری، زیر مجموعه یکی از چهار دسته کلی تر روش های مبتنی بر قواعد، آماری، مبتنی بر فرهنگ واژگان و یادگیری بوده، که هرکدام مزایا و معایب خود را دارند. با بررسی روش های انجام شده برای زبان فارسی، مشخص شد اکثر این روش ها با استفاده از روش های مبتنی بر قواعد و مبتنی بر فرهنگ واژگان به نشانه گذاری می پردازند. از جمله مشکلات این روش ها می توان به نیاز داشتن دانش زبان شناسی اعم از معنایی و نحوی، کاربردی نبودن برای زبان هایی با استثنائات زیاد و شکست خوردن در مواجه با کلمات جدید اشاره کرد. با توجه به محدود بودن این روش ها، جواب حاصل از آن ها، در مقایسه با روش های آماری و یادگیری از اطمینان کمتری برخوردار است. برای استفاده از روش های آماری و یا یادگیری نیاز به یک پیکره متنی است. پیکره ای که بتوان با استفاده از آن، اطلاعات آماری را برای روش های آماری استخراج کرد و یا پیکره ای برچسب خورده با مقوله نحوی که نشانه گذاری شده اند و یکی از مناسب ترین منابع زبانی برای یادگیری قواعد نشانه گذاری در روش های یادگیری می باشند. توجه به این نکته ضروری به نظر می رسد که نشانه گذاری برای موضوعات گوناگون، روند متفاوتی را می طلبد، و ممکن است نشانه گذاری که برای سیستم تشخیص گفتار طراحی شده باشد، برای یک سیستم ترجمه ماشینی نتیجه مطلوبی نداشته باشد. از این روست که برای هر هدفی باید نشانه گذار متناسب با آن هدف طراحی کرد. از طرف دیگر هیچ یک از روش های ارائه شده برای زبان فارسی به جهت استفاده در موتورهای جستجو طراحی نشده اند و با توجه به اینکه در موتورهای جستجو مطلوب آنست که علاوه بر افعال مرکب و اسامی جمع، کلمات همسایه ای که به هم وابستگی معنایی دارند از جمله صفت وموصوف و مضاف ومضاف الیه نیز به عنوان یک نشانه در نظر گرفته شوند، بنابراین روش های موجود برای استفاده در موتورهای جستجو کارائی لازم را از خود نشان نمی دهند. هدف از انجام این پایان نامه، پیشنهاد سیستمی برای نشانه گذاری کلمات متون و نوشته ها جهت استفاده در موتورهای جستجو بود. برای این منظور با استفاده از روش های آماری و شبکه های عصبی، سعی بر طراحی سیستمی شد که بتواند اهداف ذکر شده را تحقق بخشد. در فصل سوم ایده ی اصلی برای نشانه گذاری کلمات مطرح گردید. در فصل مذکور روش آماری پیشنهادی ارائه گردید. در روش پیشنهادی که شامل 4 فاز بود، متن نوشتاری به عنوان ورودی به فاز اول داده می شد و نشانه ها از فاز آخر دریافت می گردید. با استفاده از فراوانی تکرار دوکلمه ای ها و فاصله فراوانی تکرار دوکلمه ای های همسایه، عبارات نشانه گذاری شدند. سپس ایده استفاده از شبکه های عصبی ارائه گردید که کارائی روش آماری پیشنهادی را بهبود بخشید. این روش با استفاده از شبکه های عصبی به دسته بندی عباراتی که از فاز 3 به فاز 4 آمده بودند، پرداخت. شبکه طراحی شده با بهره گرفتن از ویژگی هایی چون فراوانی تکرار تک کلمات، فراوانی تکرار دوکلمه ای ها و تعداد کلمات عبارات، عبارات فاز چهارم را به یکی از دو دسته نشانه یا غیرنشانه تخصیص می داد. نتایج حاصل از پیاده سازی نشان دادند روش های آماری پیشنهادی و بهبودیافته، باعث بهبود قابل توجهی در روش معمول شده اند. روش معمول می توانست در حدود 62/3? از کلمات متون مختلف را به درستی نشانه گذاری کند که با اعمال روش های آماری پیشنهادی و بهبودیافته، میانگین بازدهی سیستم به ترتیب به 81/4? و 89/6? افزایش یافت.