ارائه روشی ترکیبی برای دسته بندی موضوعی صفحات وب به صورت خودکار

پایان نامه
چکیده

اهمیت دسته بندی موضوعی صفحات وب باعث شده با پیدایش اولین سایت های اینترنتی شرکت های بزرگی مانند یاهو و aol به فکر ارائه سرویس های فهرست وب که وب سایت های مختلف را با کمک نیروی انسانی بر اساس موضوع دسته بندی می کند بیفتند. با افزایش روز افزون تعداد صفحات وب و عدم امکان دسته بندی صفحات وب به صورت دستی و همچنین پیدایش کاربرد های دیگری برای دسته بندی خودکار صفحات وب از قبیل فیلترینگ هوشمند و ایجاد نسل آینده موتور های جستجو گر، تحقیقاتی در این زمینه صورت گرفته که متاسفانه تا کنون نتیجه ای مطلوب و کاربردی حاصل نشده است. در اکثر تحقیقات پیشین در زمینه دسته بندی خودکار صفحات وب تنها از یک، دو و یا نهایتا سه مورد از ویژگی های قابل استخراج از صفحات وب استفاده گردیده است. از جمله این ویژگی ها می توان به استفاده از خواص تگ های html از قبیل تگ های متا،عنوان صفحات، تگ های تاکید، پیوند ها و صفحات همسایه، آدرس صفحات ، موقعیت مکانی کلمات و فرکانس تکرار آنها و نیز استفاده از تکنیک های آنتالوژی اشاره کرد. در روش پیشنهادی که در این پایان نامه ارائه شده است بر روی ترکیب این موارد تمرکز شده و نشان داده شده است که استفاده همزمان از ویژگی های مختلف می تواند به افزایش دقت دسته بندی صفحات وب کمک کند.

منابع مشابه

دسته بندی صفحات وب برای پالایش

مسئل? حفاظت از اقشار آسیب پذیر جامعه در مقابل موارد ناهنجار در صفحات وب، موجب احساس نیاز به پالایش صفحات وب شده است. یکی از جنبه های پالایش صفحات وب که امروزه بیش از پیش مورد توجه قرار گرفته است، طبقه بندی صفحات بر اساس میزان خشونت آمیز بودن آن ها است. طبقه بندی در واقع نسبت دادن یک صفحه به یک یا چند موضوع از پیش تعیین شده با استفاده از الگوهای آموزش داده شده می باشد. سیستم با استفاده از یک سری...

15 صفحه اول

ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی

دادگان متنی و از آن جمله متون خبری از حوزه‌های مهم بازیابی اطلاعات به شمار می‌رود و استخراج اطلاعات از آن‌ها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت می‌گیرد. در این پژوهش، راهکاری سه مرحله‌ای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوه‌های زبان‌شناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوه‌های آماری ارائه می‌شود....

متن کامل

ارائه روشی مناسب برای دسته بندی نامه های الکترونیکی تبلیغاتی بر مبنای پروفایل کاربران

In general, Spam is related to satisfy or not satisfy the client and isn’t related to the content of the client’s email. According to this definition, problems arise in the field of marketing and advertising for example, it is possible that some of the advertising emails become spam for some users, and not spam for others. To deal with this problem, many researchers design an anti-s...

متن کامل

ارائه روشی کارا برای دسته بندی مسائل چنددسته ای با رویکرد انتخاب دسته بند

سیستمهای دسته بندی شورایی، رویکردی مؤثر در یادگیری ماشین است که در آن با ترکیب نتایج چند دسته بند سعی می شود تقریب بهتری از یک دسته بند بهینه فراهم شود. در حوزه ترکیب خروجی شورای دستهبندها، رویکرد «انتخاب دستهبند» توجه کمتری را در مقایسه با رویکرد «ادغام دسته بند» به خود جلب کرده است. همچنین، اغلب روشهای موجود در این حوزه، هزینه محاسباتی بالایی دارند. در این مقاله، روشی مؤثر در دسته بندی مسائل ...

متن کامل

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

روشی کارا برای پیاده‌سازی موازی الگوریتم دسته بندی بسته درخت سلسله‌مراتبی بر روی واحد پردازش گرافیکی

چکیده: دسته­بندی بسته­ها، پردازشی اساسی در پردازنده­های شبکه­ای است. در این فرآیند، بسته­ها­ی ورودی از طریق تطبیق با مجموعه­ای از فیلترها به جریان­های مشخص طبقه­بندی می­شوند. پیاده‌سازی‌های نرم‌افزاری الگوریتم­های دسته­بندی با وجود هزینه کم‌تر و توسعه‌پذیری بیش‌تر نسبت به پیاده‌سازی­های سخت‌افزاری، سرعت پایین‌تری دارند. در این مقاله، از قابلیت پردازش موازی پردازنده‌های گرافیکی برای تسریع الگوری...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شیراز - دانشکده کامپیوتر و فناوری اطلاعات

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023