نام پژوهشگر: علی دهقانی محمدی
علی دهقانی محمدی رضا جاویدان
هدف از استخراج خودکار عبارات کلیدی، انتخاب مجموعه ای از کلمات موجود در متن است که میتوانند موضوع اصلی متن مورد نظر را بیان کنند. استخراج خودکار عبارات کلیدی می تواند به یک کاربر کمک کند تا در میان تعداد زیادی از اسناد متنی کاوش کند، در حالی که کمترین زمان ممکن را سپری می کند. این فعالیت همچنین برای موتورهای جستجو و در وب معنایی به عنوان تولید متادیتا برای صفحات متنی مورد استفاده می باشد. در دهه اخیر، فعالیت های زیادی در زمینه استخراج خودکار عبارات کلیدی صورت گرفته است. کارهای ارائه شده را می توان از جنبه های مختلفی با هم مقایسه کرد، در اینجا بمنظور تشریح هدف این تحقیق، کارها را به دو دسته تقسیم می کنیم. دسته اول روشهایی هستند که برای شناسایی عبارات کلیدی موجود در یک متن به مجموعه ای از اسناد مرتبط با سند مورد پردازش نیاز دارند تا بتوانند با اطلاعاتی که از کل مجموعه اسناد بدست می آورند، عبارات کلیدی متن مورد نظر را شناسایی کنند. این وابستگی به مجموعه اسناد و دامنه ای خاص، دارای دو ایراد می باشد: اول اینکه، دسترسی به مجموعه ای از اسناد مرتبط با سند مورد پردازش در همه جا مقدور نیست. دوم اینکه، از آنجا که تمام اسناد موجود در یک مجموعه باید پردازش شوند، زمان زیادی طول می کشد تا عبارات کلیدی یک متن شناسایی شوند. دسته دوم از سیستمهای ارائه شده سیستمهایی هستند که با استفاده از خود سند اقدام به شناسایی و استخراج عبارات کلیدی می کنند. این سیستمها و روشها را اصطلاحا مستقل از مجموعه اسناد و مستقل از دامنه می نامند. تعداد کارهای ارائه شده در دسته دوم به مراتب کمتر از دسته اول می باشد. روش ارائه شده در این رساله نیز جزء روشهای مستقل از مجموعه اسناد و دامنه میباشد.مشکلی که روشهای دسته دوم با آن روبرو هستند کمبود اطلاعات موجود می باشد. این روشها عمدتاً با روشهای آماری مثل فراوانی کلمات و تعداد همرخدادی کلمات با همدیگر و یا بازنمایی متن به صورت گراف سعی در شناسایی کلمات مهم موجود در متن دارند. به دلیل کمبود اطلاعات، عملکرد سیستمهایی که تنها با استفاده از سند تکی عبارات کلیدی را شناسایی می کنند پایین تر از سیستمهای مبتنی بر مجموعه اسناد می باشد. در این رساله برای جبران کمبود اطلاعات از هستان شناسی وردنت استفاده شده است و سیستم در حالی که روی تک سند بکارگرفته می شود، کارایی قابل قبولی دارد. وردنت یک پایگاه لغت می باشد که در آن رابطه های مختلفی بین اسامی مثل تعمیم به خوبی بازنمایی شده است. بکارگیری وردنت هیچ محدودیتی را برای سیستم ایجاد نمیکند و تنها زمان پردازش را نسبت به حالتی که فقط از داده های آماری استفاده می شود، افزایش می دهد و در مقابل دقت و کارایی سیستم را افزایش می دهد. در این رساله برای بدست آوردن اطلاعات بیشتر از متن، از تشابه بین اسامی استفاده شده است و بمنظور محاسبه میزان تشابه بین دو اسم فرمولی ارائه شده است که فرمولی اقتباسی از محاسبه فاصله در گراف می باشد. برای آموزش ماشین از یک ویژگی آماری و دو ویژگی مبتنی بر وردنت استفاده شده است.