ارائه روشی ترکیبی برای دسته بندی موضوعی صفحات وب به صورت خودکار
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شیراز - دانشکده کامپیوتر و فناوری اطلاعات
- نویسنده یوشا مندنی پور
- استاد راهنما رضا اکبری مرضیه احمد زاده
- سال انتشار 1393
چکیده
اهمیت دسته بندی موضوعی صفحات وب باعث شده با پیدایش اولین سایت های اینترنتی شرکت های بزرگی مانند یاهو و aol به فکر ارائه سرویس های فهرست وب که وب سایت های مختلف را با کمک نیروی انسانی بر اساس موضوع دسته بندی می کند بیفتند. با افزایش روز افزون تعداد صفحات وب و عدم امکان دسته بندی صفحات وب به صورت دستی و همچنین پیدایش کاربرد های دیگری برای دسته بندی خودکار صفحات وب از قبیل فیلترینگ هوشمند و ایجاد نسل آینده موتور های جستجو گر، تحقیقاتی در این زمینه صورت گرفته که متاسفانه تا کنون نتیجه ای مطلوب و کاربردی حاصل نشده است. در اکثر تحقیقات پیشین در زمینه دسته بندی خودکار صفحات وب تنها از یک، دو و یا نهایتا سه مورد از ویژگی های قابل استخراج از صفحات وب استفاده گردیده است. از جمله این ویژگی ها می توان به استفاده از خواص تگ های html از قبیل تگ های متا،عنوان صفحات، تگ های تاکید، پیوند ها و صفحات همسایه، آدرس صفحات ، موقعیت مکانی کلمات و فرکانس تکرار آنها و نیز استفاده از تکنیک های آنتالوژی اشاره کرد. در روش پیشنهادی که در این پایان نامه ارائه شده است بر روی ترکیب این موارد تمرکز شده و نشان داده شده است که استفاده همزمان از ویژگی های مختلف می تواند به افزایش دقت دسته بندی صفحات وب کمک کند.
منابع مشابه
دسته بندی صفحات وب برای پالایش
مسئل? حفاظت از اقشار آسیب پذیر جامعه در مقابل موارد ناهنجار در صفحات وب، موجب احساس نیاز به پالایش صفحات وب شده است. یکی از جنبه های پالایش صفحات وب که امروزه بیش از پیش مورد توجه قرار گرفته است، طبقه بندی صفحات بر اساس میزان خشونت آمیز بودن آن ها است. طبقه بندی در واقع نسبت دادن یک صفحه به یک یا چند موضوع از پیش تعیین شده با استفاده از الگوهای آموزش داده شده می باشد. سیستم با استفاده از یک سری...
15 صفحه اولارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی
دادگان متنی و از آن جمله متون خبری از حوزههای مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت میگیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوههای زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوههای آماری ارائه میشود....
متن کاملارائه روشی مناسب برای دسته بندی نامه های الکترونیکی تبلیغاتی بر مبنای پروفایل کاربران
In general, Spam is related to satisfy or not satisfy the client and isn’t related to the content of the client’s email. According to this definition, problems arise in the field of marketing and advertising for example, it is possible that some of the advertising emails become spam for some users, and not spam for others. To deal with this problem, many researchers design an anti-s...
متن کاملارائه روشی کارا برای دسته بندی مسائل چنددسته ای با رویکرد انتخاب دسته بند
سیستمهای دسته بندی شورایی، رویکردی مؤثر در یادگیری ماشین است که در آن با ترکیب نتایج چند دسته بند سعی می شود تقریب بهتری از یک دسته بند بهینه فراهم شود. در حوزه ترکیب خروجی شورای دستهبندها، رویکرد «انتخاب دستهبند» توجه کمتری را در مقایسه با رویکرد «ادغام دسته بند» به خود جلب کرده است. همچنین، اغلب روشهای موجود در این حوزه، هزینه محاسباتی بالایی دارند. در این مقاله، روشی مؤثر در دسته بندی مسائل ...
متن کاملارائه روشی جدید برای شاخصگذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشهبندی متون
Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...
متن کاملروشی کارا برای پیادهسازی موازی الگوریتم دسته بندی بسته درخت سلسلهمراتبی بر روی واحد پردازش گرافیکی
چکیده: دستهبندی بستهها، پردازشی اساسی در پردازندههای شبکهای است. در این فرآیند، بستههای ورودی از طریق تطبیق با مجموعهای از فیلترها به جریانهای مشخص طبقهبندی میشوند. پیادهسازیهای نرمافزاری الگوریتمهای دستهبندی با وجود هزینه کمتر و توسعهپذیری بیشتر نسبت به پیادهسازیهای سختافزاری، سرعت پایینتری دارند. در این مقاله، از قابلیت پردازش موازی پردازندههای گرافیکی برای تسریع الگوری...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شیراز - دانشکده کامپیوتر و فناوری اطلاعات
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023