روشی نوین برای دسته بندی متون فارسی با استفاده از قواعد انجمنی

پایان نامه
چکیده

امروزه مدیریت مبتنی بر محتوای متون، به علت رشد سریع و در دسترس قرار گرفتن متون به شکل دیجیتالی، از اهمیت زیادی برخوردار است. از طرفی دیگر یکی از روش های مهم در سازمان دهی اطلاعات، دسته بندی اسناد زبان طبیعی در دسته های از قبل مشخص شده است. با توجه به اهمیت موضوع و کاری که در این زمینه برای زبان های دیگر دنیا انجام شده است، نیاز به دسته بندی متون فارسی به خوبی احساس می شود. در سال های اخیر، الگوریتم های زیادی برای دسته بندی اسناد، پیشنهاد شده است. اغلب کارهای انجام شده بر روی اسناد انگلیسی بوده و در چند مورد برای زبان های عربی و چینی نیز کارهایی انجام شده است. یکی از جدیدترین و کاراترین روش هایی که در دهه ی اخیر جهت دسته بندی معرفی شده است دسته بندی با استفاده از قواعد انجمنی است که به دسته بندی انجمنی معروف است. دسته بندی انجمنی یکی از روش های کاوش داده ها است که قواعد انجمنی و دسته بندی را جهت ساخت مدل های دسته بندی کارا، باهم ترکیب می کند. موضوع دسته بندی انجمنی، در سال های اخیر توجه خاصی را از سوی پژوهشگران مختلف جلب خود کرده است، بخصوص که با استفاده از آن می توان دسته بندهایی که دارای دقت بالا و قوانین ساده و کارآمد هستند را تولید کرد. یکی از چالش های اصلی الگوریتم های دسته بندی انجمنی موجود، انبوه بسیار زیاد قوانین تولید شده توسط این الگوریتم ها است. بسیاری از این قوانین تولید شده افزونه و گمراه کننده هستند و اگر در مدل دسته بندی گنجانده شوند دقت مدل را تا حد زیادی کاهش می دهند. در این پژوهش، یک روش جدید برای فیلتر کردن این قوانین افزونه و افزایش دقت دسته بند مبتنی بر قواعد انجمنی، ارائه شده است. در پژوهش پیش رو یک روش فیلترینگ پله ای 3 مرحله ای برای فیلتر کردن قوانین انجمنی تولید شده، ارائه شده است که قوانین افروزنه و ضدونقیض را طی 3 مرحله، فیلتر کرده و درنهایت قوانینی را برای ساخت مدل دسته بندی انتخاب می کند که داری بالاترین قدرت تشخیص بوده و در ضمن تعداد زیادی از نمونه های آموزشی را پوشش می دهند. این کار ضمن فیلتر کردن انبوه زیادی از قوانین افزونه که بنا به دلایل مختلف ممکن است باعث دسته بندی نادرست یا ابهام در مدل دسته بندی شوند، باعث افزایش دقت مدل دسته بندی حاضر، نسبت به نمونه های قبلی شده است. درنهایت یک مدل دسته بندی انجمنی برای دسته-بندی اسناد فارسی طراحی و پیاده سازی شده است که می تواند دسته ی اسناد آزمایشی را با دقت بالایی پیش بینی کند. آزمایش ها روی پیکره متنی همشهری2، به منظور ارزیابی تأثیر روش پیشنهادی بر روی دقت مدل دسته بندی انجام پذیرفته است. نتایج نشان می دهد که مدل دسته بندی به دست آمده عملکرد قابل قبول و دقت بسیار بالایی دارد.

منابع مشابه

دسته بندی موضوعی متون فارسی بر اساس روش قواعد انجمنی

برای دسته بندی متن از تکنیک های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود. به طور کلی هدف یک دسته بند متون، دسته بندی اسناد در قالب تعداد معینی از دسته های از پیش تعیین شده می باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سوال پاسخ داده خواهد شد که این سند در کدام یک از دسته ها قرار می گیرد. این موضوع می تواند در قالب یک ...

15 صفحه اول

روشی نوین برای توصیف و دسته بندی تصاویر بافتی رنگی با استفاده از کُدگذاری تُنُک ویژگی‌های چهارگانی

رنگ و بافت دو مولفه بسیار مهم در تشخیص و تمایز بین اشیاء مختلف در دنیای واقعی می باشند. اخیرا، نمایش چهارگانی (کواترنیونی) تصاویر تبدیل به یک شیوه کارآمد برای توصیف تصاویر رنگی شده است. با استفاده از نمایش چهارگانی تصاویر رنگی، امکان پردازش و در نظر گرفتن اطلاعات متقابل بین کانال های رنگی تصاویر به صورت توامان فراهم می شود. تاکنون عملگرهای چهارگانی ساده ای همچون عملگرهای چرخش، انعکاس و انتقال ک...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می‌شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می‌تواند در یک، چند و یا هیچ دسته‌ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می‌گیرد. این موضوع می‌تواند در قالب یک ی...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می گیرد. این موضوع می تواند در قالب یک ی...

متن کامل

ارئه روشی نوین جهت طبقه بندی متون فارسی

متن کاوی به دلیل حجم وسیعی از اطلاعات که به صورت متنی ذخیره شده، پتانسیل کاربردی بسیار بالایی دارد. یکی از مهمترین کاربردهای متن کاوی طبقه بندی متون به لحاظ موضوعی میباشد. در این مقاله سعی بر آن داشته ایم تا با توجه به روشهای مختلف طبقه بندی متون فارسی، روشی نوین در جهت افزایش دقت و کارآیی طبقه بندی متون ارائه دهیم. برای طبقه بندی متون یک روال پنج مرحله ای را در نظر گرفته ایم.مرحله جداسازی کلما...

ارتقای کیفیت دسته بندی متون با استفاده از کمیته دسته بند دو سطحی

امروزه با توجه به رشد روز افزون دسترسی به اسناد الکترونیکی، دسته بندی خودکار اهمیت وی‍‍ژه ای یافته است. روش های معمول در این زمینه، روش های یادگیری ماشین هستند. روش های بر اساس کمیته کارایی بهتری نسبت به سایر روش ها از خود نشان داده اند. در این مقاله، دو ایده در زمینه کمیته های دسته بند ارائه شده است. ایده اول برمبنای کمیته bagging که در آن هرکدام از اعضای کمیته روی زیرمجموعه ای از مجموعه سندها...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

موسسه آموزش عالی غیردولتی و غیرانتفاعی پویندگان دانش - دانشکده فنی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023