نام پژوهشگر: محسن پیرحیاتی
محسن پیرحیاتی محسن رحمانی
متن کاوی به دلیل حجم وسیعی از اطلاعات که به صورت متنی ذخیره شده، پتانسیل کاربردی بسیار بالایی دارد. یکی از مهمترین کاربردهای متن کاوی طبقه بندی متون به لحاظ موضوعی میباشد. در این مقاله سعی بر آن داشته ایم تا با توجه به روشهای مختلف طبقه بندی متون فارسی، روشی نوین در جهت افزایش دقت و کارآیی طبقه بندی متون ارائه دهیم. برای طبقه بندی متون یک روال پنج مرحله ای را در نظر گرفته ایم.مرحله جداسازی کلمات از خبر متن خبر به توکن هایی از کلمات شکسته می شود. در پیش پردازش، داده هایی که هیچ اطلاعات مفیدی درباره کلاس یک خبر ندارند حذف می شوند. گام های مورد نیاز برای پیش پردازش به ریشه یابی و حذف کلمات stop word تقسیم می شوند. برای استخراج ویژگی، روشهای تکرار سند و icf-uni بکار گرفته شده است. برای نمایش بردار ویژگی برای هر خبر از tfو tf-idf استفاده شده است.برای وزن دهی مجدد به بردار ویژگی روش جدیدی با استفاده از ارتباط بین ویژگی ها و موضوع خبر ارائه شده است. برای طبقه بندی متون نیز از الگوریتم های k نزدیک ترین همسایه و رده بندی بیزین چند متغیره با tf استفاده شده است. در این پایان نامه از مجموعه داده های همشهری که شامل بیش از 318 هزار مقاله در زمینه های مختلف (علمی ،اقتصادی ،سیاسی ،ادبی،ورزشی و غیره ) می باشد برای ارزیابی نتایج استفاده شده است. پیاده سازی روش پیشنهادی با ارائه آنتروپی در پیش پردازش برای حذف کلمات حشو و همچنین وزن دهی مجدد ویژگی ها موجب بهبود در نتایج کلی شده است و در بهترین حالت بازشناسی، اخبار اقتصادی با 30 درصد بوده است.