نام پژوهشگر: احمد قلیچی
احمد قلیچی جمال شهرابی
یکی از زمینه هایی که در طی چند سال اخیر مطرح شده، بحث جستجو و استخراج داده ها از متون مختلف می باشد. از جمله این متون، متون زیست پزشکی (بیومدیکال) می باشند که به صورت مقاله ها و نوشته هایی در اینترنت موجود می باشند. اندازه و نرخ رشد منابع زیست پزشکی باعث ایجاد چالش های جدیدی برای محققان و پژوهشگرانی که نیاز به بروز شدن دارند، شده است. تکنیک های متن کاوی که شامل فرآیندهای بازیابی اطلاعات، استخراج اطلاعات و داده کاوی است، راه های پاسخ به این مسأله را هموار می کند. این تکنیک ها با افزودن معنی به متن، در مقایسه با جستجوی ساده ی لغات، تحلیل معتبرتری از اطلاعات متنی ارائه می دهد. استخراج درست مخفف ها و تعاریفشان برای زیست شناسی خیلی مهم و مفید می باشد. یکی از موارد مرتبط با این زمینه، نرخ بالای مخفف های جدیدی است که در متون زیست پزشکی معرفی، ایجاد و رخ می دهند. پایگاه داده ها، آنتولوژی ها و فرهنگ لغت های موجود باید با مخفف های جدید و تعاریفشان به طور پیوسته بروز باشند. در تلاشی که برای حل این مشکل انجام شده است تکنیک های جدیدی معرفی شده اند که به صورت خودکار، مخفف ها را به همراه تعاریف آن ها از چکیده های مدلاین استخراج می کنند. چهار روش برای این کار وجود دارد: روش های مبتنی بر آمار، قانونمند، یادگیری ماشین و ترازبندی متن. سه روش اول در یافتن مخفف های بی قاعده به مشکل برخوردند ولی روش ترازبندی متن با طرح امتیازدهی و ترکیبی از تکنیک ها و الگوریتم ها می تواند تا حدودی بر این مشکل غلبه کند. در این تحقیق ما یک الگوریتم ترازبندی ترکیبی را برای استخراج مخفف ها از متون زیست پزشکی پیشنهاد کرده ایم. روش کار شناسایی زوج های فرم کوتاه و فرم بلند می باشد که در آن از هر نوعی از کاراکترهای فرم کوتاه یک نگاشت به فرم بلند انجام می شود. در این الگوریتم بعضی مخفف های بی قاعده ایی که با روش های پیشین یافت نمی شد، پیدا می شود. با ارزیابی این الگوریتم مشخص شد الگوریتم دقت بالایی را نسبت به الگوریتم های قبلی نشان می دهد.