متن کاوی متون فارسی : در راستای پیش پردازش و دسته بندی مقالات خبری فارسی

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر
  • نویسنده نوید شیدایی
  • استاد راهنما محمد حسین سرایی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1391
چکیده

امروزه میزان اطلاعات و مستندات متنی روز به روز در حال گسترش است. نامه های الکترونیکی، صفحات وب، متون خبری، مقالات علمی و ... تنها بخشی از این اطلاعات رو به افزایش است. این اطلاعات گسترده دربردارنده یک دانش پنهان می باشند. فراهم کردن ابزاری که بتواند به طور موثر و کارا این اطلاعات گسترده و دانش پنهان درون آن را شناسایی، استخراج و مدیریت کند امری مهم و ضروری است. یکی از روش های مهم در راستای براورده کردن این نیاز کاربران، استفاده از تکنیک های متن کاوی همانند روش-های دسته بندی خودکار متون است. با کمک دسته بندی متون می توان اسناد را به یک یا چند دسته ی از پیش معرفی شده، منتسب کرد. از جمله کاربردهای دسته بندی می توان به رده بندی اسناد خبری، صفحات وب، پیام های الکترونیکی، فیلترینگ و ... اشاره کرد. با توجه به اهمیت موضوع و کارهایی که در این زمینه برای زبانهای دیگر دنیا انجام شده است، نیاز به رده بندی متون پارسی به خوبی احساس می شود. در این پایان نامه به ابعاد مختلف رده بندی متون پارسی پرداخته شده است. در ابتدا مسئله پیش پردازش و ریشه یابی کلمات مورد بررسی قرار گرفته است و با ارائه راهکارهایی سعی در بهبود فرایند پیش پردازش متون پارسی شده است. در روش ارائه شده با مطالعه ساختار ریخت شناسی زبان پارسی و با کمک گیری از جداول جستجو، سعی می شود ریشه یکسانی برای کلمات همگون یافته و نتایج را در قالب لیستی از کلمات ریشه یابی شده ذخیره کند. در ادامه الگوریتمی برای رده بندی متون ارائه شده است. این الگوریتم در رده الگوریتم های رده بندی انجمنی قرار می گیرد و به این صورت کار می کند که ابتدا آیتم های پرتکرار مرتبط به هر برچسب کلاس را پیدا می کند. با این کار کلماتی که از لحاظ معنایی در متون مختلف تاثیر گذارترند یافته می شوند. سپس به جای بررسی کلیه آیتم ها در تولید قوانین، تنها به بررسی آن آیتم های پر تکرار برای هر برچسب کلاس پرداخته می شود. در یافتن آیتم های پرتکرار از گونه ای از الگوریتم apriori استفاده شده است. که ابتدا آیتم های پایگاه داده را به صورت بیتی ذخیره می کنید و سپس با اعمال عملگر های بیتی به یافتن آیتم های پرتکرار می پردازد. الگوریتم ارائه شده توانایی پیشنهاد چند برچسب برای یک سند ناشناخته را نیز دارا می باشد، بنابر این می توان آن را در رده الگوریتم های رده بندی چند برچسبه نیز در نظر گرفت. به این معنی که در هنگام رده بندی اسناد، می توان سند ناشناخته را به چندین رده منتسب نمود. به منظور بررسی میزان کارایی روش های ارائه شده، آنها را با الگوریتم های شناخته شده هر بخش، با ثابت نگه داشتن سایر بخش ها، مقایسه نموده ایم. پس از بررسی نتایج و مقایسه معیارهای گوناگون ارزیابی کارایی، به این نکته رسیدیم که در مقایسه ها روش های پیشنهادی کارایی بسیار خوبی نسبت به روش های موجود دارند

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ایجاز:یک سامانه عملیاتی برای خلاصه‌سازی تک‌سندی متون خبری فارسی

The rapid growth of published documents on the web has created some new requests for processing, classification and information retrieval. So, the use of natural language processing tools has increased around the world. Automatic summarization known as the core of a wide range of text-processing tools such as decision systems, accountability systems, search engines, etc. And always has been inv...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می‌شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می‌تواند در یک، چند و یا هیچ دسته‌ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می‌گیرد. این موضوع می‌تواند در قالب یک ی...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می گیرد. این موضوع می تواند در قالب یک ی...

متن کامل

سیستم شناسایی و طبقه بندی اسامی در متون فارسی

Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in ...

متن کامل

میزان رازگونگی متون خبری فارسی و انگلیسی: بررسی موردی انتخابات 2016 ریاست جمهوری آمریکا

تحلیل گفتمان انتقادی شاخه‌ای جدید از تحلیل گفتمان می‌باشد که به بررسی چرایی و توجیه مطالب و به عبارتی رونمایی اطلاعات می‌پردازد. پژوهش حاضر در چارچوب گفتمان‌شناسی انتقادی انجام گرفته است. در این پژوهش هدف آن بود که متون روزنامة انگلیسی و فارسی از لحاظ به کارگیری مؤلفه‌های گفتمان‌مدار جامعه‌شناختی–معنایی بررسی شود و در نهایت میزان رازگونگی هرکدام بدست آید. به منظور انجام پژوهش حاضر از الگوی یارم...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023