نام پژوهشگر: سید علی حسینی دولت آبادی
سید علی حسینی دولت آبادی محمد مهدی سپهری
با گسترش روز افزون داده ها بر روی اینترنت و نیمه ساختار یافته و بدون ساختار بودن بیشتر این داده ها، استفاده از روش های کشف دانش برای رسیدن به دانش نهفته در آن ضروری به نظر می رسد. یکی از خدمات پرطرف دار ارائه شده در اینترنت وب نوشت است. چنین فضای گسترده ای با چنین حجم بازدید کننده دارای پتانسیل بالای تجاری است که این پژوهش نیز همین موضوع را هدف خود ساخته است. پژوهش حاضر با قرار دادن وب نوشت فارسی به عنوان موضوع پژوهش با معرفی ایده ای نوین به ارائه راهکاری برای خوشه بندی نویسندگان وب نوشت پرداخته است. در این پژوهش یک نمونه آماری 360 تایی از وب نوشت های ارائه دهنده خدمت وب نوشت تبیان، استخراج گردیده است. این تعداد وب نوشت شامل 5،912 مطلب ارسالی است. سپس متون در دست پیش پردازش شده اند. پس از پیش پردازش متون، وب نوشت ها به صورت یک ماتریس فراوانی لغات در مطالب ارائه می شده اند. در مرحله اول خوشه بندی بر روی ورودی با روش k-means و در مقیاس مطلب وب نوشت انجام شده است. بدین معنی که به جای خوشه بندی وب نوشت ها در همان مرحله اول، مطالب وب نوشت خوشه بندی شده اند. در مرحله دوم خوشه بندی به منظور تحلیل شبکه اجتماعی میان نویسندگان و تحلیل میزان هم پوشانی میان موضوعات مطالب، با قراردادن درصد مشارکت وب نوشت ها به عنوان خصیصه خوشه ها، به خوشه بندی خوشه های اولیه پرداخته شده است. در نهایت با تحلیل خوشه بندی دوم به ایجاد اصلاحات در خوشه بندی اولیه پرداخته شده و دسته بندی مناسب جهت ارائه تبلیغات پیشنهاد گردیده است.