نام پژوهشگر: سعید سارنچه

استخراج خودکار اطلاعات از تالارهای گفتمان
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تحصیلات تکمیلی علوم پایه زنجان - دانشکده ریاضی و کامپیوتر 1390
  سعید سارنچه   بهرام صادقی بی غم

با همه گیرشدن استفاده از اینترنت و افزایش توان تولید اطلاعات و نرخ بارگزاری آن به شبکه جهانی اطلاعات، دسترسی به اطلاعات در این شبکه با مشکلاتی مواجه کرده است که نیاز به استفاده از ابزار های کمکی جهت دسترسی سریع به اطلاعات مفید می باشد. امروزه موتورهای جستجو از علم داده کاوی برای ارائه سرویس های مناسب و مفید برای کاربران خود استفاده می نمایند. از آنجایی که اطلاعات وارد شده اطلاعاتی هستند که به نوعی در زندگی روزمره کاربران تولید می شوند. اطلاعاتی در مورد سلیقه ها، تفریحات، عقاید و سوالات کاربران که توسط ابزارهای دیجتال کاربر بارگزاری می گردند، پس با پردازش این اطلاعات می توان از داده های خام، اطلاعاتی را استخراج کرد که در نگاه اول دور از دسترس می باشند. امروزه بیشتر کاربران از نرم افزار های جدید به عنوان web 2.0 برای ارائه اطلاعات بر روی وب استفاده می کنند. این نوع نرم افزار ها برای ایجاد یک محیط برای اشتراک گذاری اطلاعات ایجاد شده اند و همچنین امکان مدیریت اطلاعات را به کاربران می دهند. یکی از این نرم افزار ها که مورد استقبال کاربران قرار گرفته است نرم افزا تالار گفتمان (forum) می باشد. این نرم افزار تلاش می کند تا محیطی برای بحث و گفتگوی کاربران ایجاد نماید و کاربران نیاز های خود، سوالات، نظرات خود را در مورد بحث های مختلف را ثبت نمایند. امروزه افراد، شرکت ها، سازمانهای دولتی و موسسات آموزشی از این سیستم به عنوان کانال ارتباطی بین خودشان و کاربران استفاده می نمایند. نوکیا، سیستم عامل ubuntu و دانشگاه iasbs از تالار گفتمان برای ایجاد ارتباط مفید و دو سویه از این نرم افزار استفاده می کنند. تالار گفتمان مربوط به ubuntu دارای نزدیک به یک میلیون کاربر می باشد که این کاربران توانسته اند نزدیک به 9.5 میلیون مطلب را در تالار پست نمایند. که به مطالب، سوالات و پاسخ های متفاوتی در باره این سیستم عامل اشاره شده است بطوریکه روزانه تعداد زیادی از کاربران با مراجعه به این سایت مشکل خودشان را حل می کنند. این شهرت و استقبال کاربران مشکلاتی را نیز به همراه داشته است. از جمله این مشکلات افزایش کاربرانی است که داده های هجو در این تالار ها وارد می کنند. امروزه spammer ها با استفاده از ابزارهای مربوط به یادگیری ماشین توانسته اند تا از سد های مختلف عبور کنند و این مطالب را وارد تالار های گفتمان کنند. در عین حال تشخیص این نوع کاربران از کاربران دیگر مشکل می باشد. تنها راه حل بررسی رفتاری این نوع از کاربران می باشد که این هم نیاز به پردازش اطلاعات پست شده در تالارگفتمان را دارد که این کار را میتوان از طریق استخراج اطلاعات انجام داد.