نام پژوهشگر: احسان اله کوزه گر
محمد باقرلو رضا طاولی
امروزه مدیریت مبتنی بر محتوای متون، به علت رشد سریع و در دسترس قرار گرفتن متون به شکل دیجیتالی، از اهمیت زیادی برخوردار است. از طرفی دیگر یکی از روش های مهم در سازمان دهی اطلاعات، دسته بندی اسناد زبان طبیعی در دسته های از قبل مشخص شده است. با توجه به اهمیت موضوع و کاری که در این زمینه برای زبان های دیگر دنیا انجام شده است، نیاز به دسته بندی متون فارسی به خوبی احساس می شود. در سال های اخیر، الگوریتم های زیادی برای دسته بندی اسناد، پیشنهاد شده است. اغلب کارهای انجام شده بر روی اسناد انگلیسی بوده و در چند مورد برای زبان های عربی و چینی نیز کارهایی انجام شده است. یکی از جدیدترین و کاراترین روش هایی که در دهه ی اخیر جهت دسته بندی معرفی شده است دسته بندی با استفاده از قواعد انجمنی است که به دسته بندی انجمنی معروف است. دسته بندی انجمنی یکی از روش های کاوش داده ها است که قواعد انجمنی و دسته بندی را جهت ساخت مدل های دسته بندی کارا، باهم ترکیب می کند. موضوع دسته بندی انجمنی، در سال های اخیر توجه خاصی را از سوی پژوهشگران مختلف جلب خود کرده است، بخصوص که با استفاده از آن می توان دسته بندهایی که دارای دقت بالا و قوانین ساده و کارآمد هستند را تولید کرد. یکی از چالش های اصلی الگوریتم های دسته بندی انجمنی موجود، انبوه بسیار زیاد قوانین تولید شده توسط این الگوریتم ها است. بسیاری از این قوانین تولید شده افزونه و گمراه کننده هستند و اگر در مدل دسته بندی گنجانده شوند دقت مدل را تا حد زیادی کاهش می دهند. در این پژوهش، یک روش جدید برای فیلتر کردن این قوانین افزونه و افزایش دقت دسته بند مبتنی بر قواعد انجمنی، ارائه شده است. در پژوهش پیش رو یک روش فیلترینگ پله ای 3 مرحله ای برای فیلتر کردن قوانین انجمنی تولید شده، ارائه شده است که قوانین افروزنه و ضدونقیض را طی 3 مرحله، فیلتر کرده و درنهایت قوانینی را برای ساخت مدل دسته بندی انتخاب می کند که داری بالاترین قدرت تشخیص بوده و در ضمن تعداد زیادی از نمونه های آموزشی را پوشش می دهند. این کار ضمن فیلتر کردن انبوه زیادی از قوانین افزونه که بنا به دلایل مختلف ممکن است باعث دسته بندی نادرست یا ابهام در مدل دسته بندی شوند، باعث افزایش دقت مدل دسته بندی حاضر، نسبت به نمونه های قبلی شده است. درنهایت یک مدل دسته بندی انجمنی برای دسته-بندی اسناد فارسی طراحی و پیاده سازی شده است که می تواند دسته ی اسناد آزمایشی را با دقت بالایی پیش بینی کند. آزمایش ها روی پیکره متنی همشهری2، به منظور ارزیابی تأثیر روش پیشنهادی بر روی دقت مدل دسته بندی انجام پذیرفته است. نتایج نشان می دهد که مدل دسته بندی به دست آمده عملکرد قابل قبول و دقت بسیار بالایی دارد.