نام پژوهشگر: حسین کامیار

روش جدید وزن دهی معنایی به کلمات در کاربردهای پردازش متن
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده فنی و مهندسی 1390
  حسین کامیار   محسن کاهانی

امروزه استفاده از وب به یکی از عناصر حیاتی زندگی انسانی تبدیل شده است. حتی در بسیاری از جوامع زندگی روزمره آدمی در صورت اختلال در وب دچار مشکلات اساسی می شود. به همین دلیل حجم اطلاعاتی متنی در وب به طرز چشمگیری افزایش یافته است. حتی به صورت شهودی نیز می توان ادعا نمود که نرخ رشد اطلاعات متنی در دنیای امروزه از نرخ رشد داده به هر شکل دیگری مانند صوت، تصویر و ... بالاتر است. کاربران در میان این دریای داده های خام، همیشه به دنبال اطلاعات خاصی هستند. به این منظور احتیاج به پردازش متن و زبان که در حقیقت لایه بالایی متن می باشد، شدیداً وجود دارد. از این رو، در حال حاضر بیش از هر زمان دیگری نیاز به سیستم های پردازشگر زبان مانند، بازیابی کننده های اطلاعات، خلاصه سازها، مترجم ها و ...احساس می شود. یکی از اولین گام ها در پردازش زبان وزن دهی به کلمات به عنوان ویژگی های قابل پردازش از یک متن می باشد. به همین دلیل تحقیقات فراوانی بر روی وزن دهی به کلمات به عنوان ابزار پیش خوشه بندی متون انجام می شود. هر چه دقت روش وزن دهی بالاتر باشد دسته بندی اولیه متون بهتر انجام شده و در نهایت دسته بندی اصلی آنها از دقت بهتری برخوردار خواهد بود. روش های مشهور فعلی وزن دهی به کلمات، معمولاً روش های آماری قرضی از دیگر کاربردهای خوشه بندی هستند، که مبتنی بر شمارش فرکانس کلمات می باشند. اما ویژگی های اصلی زبان، معنا و گرامر می باشد که توسط این روش ها قابل شمارش نمی باشند. در این تحقیق یک روش جدید با رویکرد توجه به ویژگی های اصلی زبان برای وزن دهی به کلمات ارائه شده است. این روش با مبنا قرار دادن یک روش مشهور وزن دهی آماری به نام tf-idf به تغییر پارامتر tf که یک پارامتر اندازه گیری فرکانس در سطح یک متن می باشد، می پردازد. این تغییرات از دو جنبه معنا توسط پایه قرار دادن یک تئوری زبانی به نام نظریه مرکزیت و گرامر با توجه به نقش گرامری کلمات در متن و توزیع آنها، انجام می گردند. همچنین جهت پر کردن خلاً توجه به تأثیر سراسری کلمات در مجموعه ای از متون در تغییر پارامتر tf به نقش گرامری کلمات در سطح کلیه متون نیز توجه شده است. نتایج بدست آمده در پایان نامه به خوبی تأثیر روش پیشنهادی بر روش های پردازش زبان را نشان می دهد. یک چنین روشی تا میانگین 11% نسبت به یک روش مشهور وزن دهی مانند tf-idf، بهبود دقت در کاربردی مانند بازیابی اطلاعات رانشان می دهد.