نام پژوهشگر: سید محمد حسین احمدی
سید محمد حسین احمدی سید امیر حسن منجمی
برای دسته بندی متن از تکنیک های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود. به طور کلی هدف یک دسته بند متون، دسته بندی اسناد در قالب تعداد معینی از دسته های از پیش تعیین شده می باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سوال پاسخ داده خواهد شد که این سند در کدام یک از دسته ها قرار می گیرد. این موضوع می تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دسته ای نسبت داد. در این تحقیق، از روش دسته بندی بر مبنای قواعد انجمنی که از روی فرایند کاوش الگوهای مکرر مجموعه داده های آموزشی تولید شده اند، برای دسته بندی متون فارسی استفاده می شود. این فرآیند با فرآیندی که در داده کاوی داده های بزرگ پایگاه داده ها استفاده می شود یکسان می باشد. یکی از مهم ترین الگوریتم هایی که برای تولید قواعد انجمنی بکار می رود الگوریتم apriori می باشد. در این تحقیق از الگوریتم cba که برای این کاربرد مناسب تشخیص داده شد، استفاده شده است. پیکره ی مورد استفاده برای انجام آزمایشات، پیکره متون فارسی همشهری 2 می باشد، که مقالات آن کامل و حجیم بوده و به 8 دسته خبری تقسیم شده اند. پس از انجام پیش پردازش های لازم بر روی پیکره همشهری 2 و تبدیل آن به فرمت مناسب، کلمات کلیدی متون آموزشی با استفاده از تکنیک tfidf و نرم افزار قدرتمند weka استخراج می شوند. سپس قواعد انجمنی دسته بندی از روی داده های آموزشی (کلمات کلیدی بدست آمده از مرحله قبل)، با استفاده از نرم افزار dmii cba که الگوریتم cba را پیاده سازی کرده است استخراج شده و دسته بند نهایی تولید و ذخیره می شود. در ادامه از این دسته بند برای دسته بندی متون آزمایشی استفاده می شود. آزمایشات انجام شده و ارزیابی آن ها نشان می دهد با افزایش تعداد متون آزمایشی و انتخاب مناسب کلمات کلیدی مرتبط با موضوع متن، دقت دسته بند به طور چشمگیری افزایش می یابد.