نام پژوهشگر: مجید وفایی جهان
عطیه غریب احد هراتی
الگوریتم بهینه سازی اکسترمال یک الگوریتم تکاملی جستجوی محلی است که از طبیعت الهام گرفته است. این الگوریتم دارای رفتار "بهمنی" بوده که موجب همگرایی سریع آن می شود. در این کار، هدف ارزیابی عملکرد الگوریتم بهینه سازی اکسترمال در مسائلی با مجموعه متغیرهای زیاد و فضای جستجوی وسیع همچون مسئله ی تقطیع تصویر مبتنی بر پیکسل بر اساس رنگ است. نوآوری اصلی، اعمال الگوریتم در دو سطح نواحی و پیکسل ها و تعریف تابع انرژی مناسب برای نواحی تصویر است. با اعمال عملیات کاهش رنگ، تصاویر بیش از حد ناحیه بندی شده به عنوان ورودی به الگوریتم داده می شوند و ادامه ی عملیات در دو فاز انجام می شود: در فاز اول نواحی کم ارزش تر با نواحی مشابه همسایه ادغام می شوند. در فاز دوم نیز پیکسل های کم ارزش تر با احتمال بیشتری انتخاب شده و تغییر میکنند. تغییر در برچسب هر ناحیه یا هر پیکسل باعث تغییر در برازندگی همسایگان آنها نیز می شود. این فرایند ادامه می یابد تا آنجا که شبکه ی تصویر به تغییرات حساس شده و تغییر کوچکی در برچسب هر ناحیه یا هر پیکسل باعث تغییرات بزرگی در شبکه ی تصویر می گردد که به این پدیده "بهمن" می گویند. ارزیابی شهودی به همراه ارزیابی عددی (بر اساس روش پیشنهادی هوور) در مقایسه با چند الگوریتم دیگر نشان می دهند که روش پیشنهادی می تواند در جهت کاهش تابع انرژی گام برداشته و به نتایج قابل قبولی نیز دست یابد. هرچند روش پیشنهادی دارای مشکل زمان اجرای بالا می باشد اما قابلیت پیاده سازی موازی الگوریتم آن را قادر می سازد تا در کارهای آینده بتوان زمان اجرا را نیز کاهش داد.
ناصر یوسفی مجید وفایی جهان
در سال های اخیر انواع مختلفی از روبات های وب طراحی شده اند تا به طور خودکار، فعالیت های متنوعی برای کاربران وب انجام دهند. این روبات ها هم زمان با کاربران انسانی به اطلاعات سایت ها دسترسی پیدا می کنند. دسته بندی کاربران و جداسازی انسان ها از روبات ها مسئله ای مهم برای سرورهای ارائه دهنده ی خدمات محسوب می شود. چرا که گاهی خدمت دهی به روبات ها مانع از ارائه ی خدمات کافی برای کاربر انسانی می شود. از طرفی روبات ها خودشان به دسته های خوش رفتار و مخرب تقسیم بندی می شوند و نباید از دسترسی همه ی آن ها جلوگیری به عمل آورد. از جمله روبات های وب خوش رفتار می توان روبات های جست وجوگر وب را نام برد که برای جست وجوگرها اطلاعات جمع آوری کرده و در پایگاه داده ی آن ها ذخیره می کنند و از جمله روبات های وب مخرب روبات های هکر هستند که به دنبال کشف راه های نفوذ و حمله به وب سایت ها و سرور های آن ها می گردند. در این پایان نامه، ما با استفاده از تکنیک های یادگیری ماشین به تفکیک روبات های مخرب از کاربران خوش رفتار پرداخته ایم. ازجمله مهم ترین روبات های مخربی که برای تشخیص آن ها تلاش کرده ایم،spambot ها، روبات های شرکت کننده در حمله ی منع سرویس و روبات های هکر هستند. به این منظور ما یک روش برچسب گذاری برای افزایش دقت برچسب گذاری کاربران وب پیشنهاد داده ایم و ضمن دسته بندی ویژگی ها، 11 ویژگی جدید ارائه کردیم که اکثر آن ها به منظور تمایز قائل شدن هر چه بیشتر میان رفتار های مخرب و قانونی طراحی شده اند. ما با انجام دو آزمایش جداگانه بر روی فایل های ثبت وقایع سرور دو وب سایت متفاوت به این نتیجه رسیدیم که می توان با افزودن ویژگی های جدید به ویژگی های گذشته، به کارایی بیشتری در تشخیص روبات های مخرب وب دست یافت. در آزمایش اول c4.5 به میزان صحت بالای %96 و در آزمایش دوم به میزان صحت بالای%99 دست پیدا کرد که بیشترین میزان صحت در تشخیص روبات های مخرب بوده است. همچنین ما با رتبه بندی تمامی ویژگی ها نشان دادیم که ویژگی های پیشنهادی در جایگاه خوبی نسبت به ویژگی های گذشته قرار دارند.
جواد حاجیان نژاد مجید وفایی جهان
امروزه گسترش ابزار و استانداردهای طراحی و توسعه صفحات وب باعث شده است تا حملات مبتنی بر کدهای مخرب وب افزایش یابد. این کدهای مخرب می توانند با اهداف مختلفی از جمله نصب بد افزارها در کامپیوتر کاربران یا سرقت اطلاعات حساس مرورگر کاربر، در یک صفحه وب جایگذاری شوند. توسعه های اخیر در استانداردهای وب باعث شده است که مهاجمان این کدهای مخرب را به روش های جدیدتری به کار ببرند و آن ها را به شکلی مخفی یا مبهم سازی کنند که بتوانند از فیلتر های امنیتی شناسایی کدهای مخرب، فرار کنند. در این پژوهش به شناسایی صفحات مخرب با استفاده از روش های یادگیری ماشین می پردازیم. اکثر روش های ارائه شده برای شناسایی محتوایی صفحات مخرب وب بر پایه روش های یادگیری ماشین، بازه ی محدودی از حملات و ویژگی های صفحات مخرب را بررسی می کنند و یا ویژگی های ارائه شده توسط آن ها با آخرین ابزار موجود در طراحی و توسعه صفحات وب سازگار نمی باشد و باعث می شود که روش های آن ها ناقص باشد.
مرتضی پولادخای مجید وفایی جهان
هرزصفحات وبییکی از چالش های اساسی دنیای موتورهای جستجو می باشد که از ابتدای پیدایش موتورهای جستجو با آن همراه بوده است. مستقل از نیت ایجاد این قبیل صفحات هدف از آن ها تغییر رتبه یک صفحه در نتایج جستجو است به نحوی که به نسبت شرایط عادی در رتبه بالاتری قرار گرفته و ترجیحاً در میان سایت های برتر نتایج جستجو برای جستارهای مختلف قرار می گیرند. با توجه به اینکه عملکرد سیستم های بهینه ساز جستجو و سیستم های ایجاد هرزصفحه وبی بسیار مشابه است و از اصول مشترکی بهره می برند در نتیجه تشخیص هرزصفحات بسیار کار دشواری بوده و تاکنون هیچ روش مطمئنی برای این موضوع ارایه نشده است. به هر حال معمولاً تکنیک های هرز صفحات وبی برای مغشوش کردن موتور جستجو پیاده سازی خواهند شد، بنابراین مطالعه اینکه چگونه به صورت خودکار بر اساس روش های یادگیری ماشین، هرز صفحات وبی را آشکار کنیم مفید است. در اغلب الگوریتم های آشکار سازی هرز صفحات، تشخیص بر اساس ماشین های یادگیری است، یعنی شناسایی هرز صفحات به عنوان یک مسئله طبقه بندی باینری مورد بحث قرار گرفته می شود، به طوریکه هرز صفحات، هرز نامه یا نرمال بر چسب می¬خوردند. در این پایان نامه در مورد چگونگی آشکار شدن هرزصفحات وبی توسط الگوریتم بهینه ساز مجموع ذرات بحث می¬کنیم. در الگوریتم بهینه ساز مجموع ذرات راه¬حل برای یک مشکل (یعنی یک تابع تشخیص) به عنوان یک ذره در یک جمعیت ارائه شده است. آزمایشات روی دیتاست2011 برای پیدا کردن پارامترهای برتر و محاسبه اعتبار بهینه ساز مجموع ذرات، انجام شده است. نتایج آزمایشات نشان می دهد الگوریتم پیشنهادی نسبت به کارهای گذشته مخصوصا الگوریتم ژنتیک دارای دقت بیشتر بوده و در زمان کمتر به نتیجه خواهد رسید. همچنین این روش در مقایسه با روش های دیگر، مانند روش بهینه سازی هرزصفحات وبی با استفاده از الگوریتم ژنتیک به پارامترهای کمی برای تنظیم احتیاج دارد.
زهرا قزل بیگلو مجید وفایی جهان
بدافزار، نرم افزاری است که نیت خرابکارانه و یا اثراتی تخریبی دارد. این نرم افزارها طیف وسیعی از خطرات و تهدیدات کامپیوتری، از قبیل ویروس ها، کرم ها، تروجان ها و نرم افزارهای جاسوسی را در بر می گیرند. یکی از اصلی ترین میزبانان بدافزارها، فایل های اجرایی هستند، به همین منظور شناسایی و تشریح بدافزارها از فایل های اجرایی، در مباحث امنیت کامپیوتری امری بسیار حیاتی و حائز اهمیت است. یکی از روش های متداول در این زمینه، استفاده از آپکدهای (opcodes) موجود در کد اسمبلی بدافزارها است. در این پایان نامه از روشی جدید مبتنی بر دسته بندی معنایی آپکدها برای تشخیص بدافزارها استفاده شده است. پس از استخراج دنباله نقش-آپکدها مربوط به هر فایل، خواص آماری آن همچون دنباله های n-گرم، خودهمبستگی، نرخ آنتروپی و فاصله محاسبه می شود و به عنوان ویژگی های مربوط به آن فایل مشخص می شود. سپس کارایی و دقت هر گروه از ویژگی ها با استفاده از دسته بندهای مختلف همچون درخت تصمیم، k-نزدیک ترین همسایه و ... مورد ارزیابی قرار گرفته است. پس از این به منظور بررسی توانمندی روش ارائه شده، با همتای خود (دنباله آپکد) از سه جنبه تعداد ویژگی ها، مدت زمان ساخت مدل و صحت داده ها مقایسه شده است. در فاز مقایسه از دو رویکرد مختلف برای استخراج ویژگی مبتنی بر محتوای اسمبلی فایل ها استفاده شده است. روش اول مبتنی بر فراوانی آپکدهای ظاهرشده در متن کد است و روش دوم مبتنی بر فراوانی نقش-آپکدهای متوالی ظاهرشده در متن کد است. پس از آن هر دو روش در شرایط برابر و با استفاده از دسته بندهای مختلف مورد آزمایش قرار گرفته اند. نتایج آزمایشات نشان می دهد که با استفاده از دسته بندی معنایی آپکدها کارایی و صحت دسته بندهای مختلف در تشخیص بدافزارها کاهش نمی یابد، علاوه بر این تعداد ویژگی ها، حجم محاسبات، حافظه و زمان مصرفی به طور قابل توجهی کاهش می یابد.
جواد رجب نیا مجید وفایی جهان
همگام با رشد روز افزون شبکه¬های کامپیوتری و سیستم¬های مبتنی بر وب، به کارگیری سیستم¬های هوشمند جهت تشخیص و جلوگیری از نفوذ عوامل مخرب امری حیاتی به حساب می¬آید. از طرف دیگر با توجه به سیل عظیم طراحی عوامل هوشمندی همچون روبات¬های وب جهت استفاده از منابع اطلاعاتی و به کارگیری آنها در اهداف خاصی از قبیل محروم سازی سرویس¬های مبتنی بر وب، اتخاذ سیستمی کارا وبهینه بیش از پیش احساس می¬شود که می¬تواند نقش به سزایی در بهبود امنیت سیستم¬های اطلاعاتی را ایفا نماید. با توجه به مسائل مطرح در این زمینه از قبیل عدم توازن داده و حجم بالای محاسبات، به کارگیری سیستمی انعطاف پذیر جهت بهبود توانایی تشخیص و دسته بندی درخواست¬های ورودی به یک سرور، که منجر به شناخت نوع بازدیدکنندگان وب می¬گردد امری ضروری محسوب می¬شود. سیستم استنتاج فازی با توجه به توانایی یادگیری از روش¬های کلاس بندی و خوشه بندی توانایی بالایی در تشخیص صحیح بازدیدکنندگان وب را دارا می¬باشد. در این پایان نامه پس از مطرح کردن پیش زمینهای در مورد مساله تشخیص روبات-های وب، سیستم¬های ترکیبی فازی جهت تشخیص بازدیدکنندگان وب ارائه گردیده است. در ادامه جهت بهبود عملکرد سیستم¬های ارائه شده از نظر پیچیدگی محاسباتی از روش¬های کاهش ابعاد استفاده می¬شود که علاوه بر کاهش چشم گیر حجم محاسبات، شاهد دقت بالای سیستم نسبت به سایر روش¬ها معرفی شده در این زمینه هستیم. دقت سیستم فازی ارائه شده دارای نرخ خطای 0.0086 در برابر نرخ خطای ماشین بردار پشتیبان در حالت مشابه برابر 0.01 و شبکه باور بیزین با خطای 0.019 می¬باشد. علاوه بر این در خوشه بندی فازی و سیستم فازی-عصبی پس از اعمال گام بهینه سازی سیستم نرخ خطا برای خوشه بندی فازی از 0.21284 به 0.049822 و در سیستم فازی عصبی به 0.028208 کاهش می¬یابد علاوه براین عمکرد سیستم فازی در مقابل خوشه بندی مبتنی بر چگالی با نرخ خطای 0.05053 و خوشه بندی k-means با نرخ خطای 0.159091 دارای عملکرد بهتری می¬باشد. این امر در حالی رخ می¬دهد که آموزش سیستم فازی بر اساس ویژگی-های استخراجی از مجموعه داده اصلی با 20 ویژگی، فقط به کمک 4 تا 7 ویژگی انتخابی صورت گرفته است.
مهدی میناخانی مجید وفایی جهان
برنامه¬ریزی برای زمان¬بندی پروازها به عنوان یک مسئله چالش برانگیز در فرودگاه¬ها بشمار می¬رود. در حالت عادی، زمان-بندی تمام منابع با در نظر گرفتن برنامه¬ی پروازهای شرکت¬های هواپیمایی و محدودیت¬های باند و خدمه، از قبل انجام می-شود. این زمان¬بندی به نحوی تعیین می¬گردد که پروازها بدون تأخیر انجام شوند. اما زمان¬بندی اولیه ممکن است به دلایل مختلف، مانند شرایط نا مساعد وضعیت هوا، مسائل مربوط به کنترل ترافیک هوایی و اشکالات فنی در هواپیماها، به هم بریزد. حال زمان¬بندی مجدد پروازها به صورت بهینه و در زمانی اندک پس از وقوع اختلات، یکی از چالش¬های پیش رو در شرکت¬های هواپیمایی است. به دلیل ابعاد وسیع مسئله، پیدا کردن جواب بهینه، بسیار زمان¬بر است. بنابراین راه¬حل مورد استفاده توسط پژوهش¬های مشابه، به کار گرفتن الگوریتم¬های تکاملی است. یکی از این الگوریتم¬ها که در سال¬های اخیر بسیار مورد استفاده قرار گرفته، ازدحام ذرات است. در این پایان¬نامه، با تعریف یک ماتریس ابتکاری و استفاده از الگوریتم ازدحام ذرات سیستمی پیاده می¬شود که نسبت به سایر روش¬ها، قادر است سریع¬تر به جواب بهینه برسد و همچنین یک راهکار مناسبی برای زمان¬بندی مجدد ارائه می¬دهد.
حسن صفری نادری مجید وفایی جهان
پیشرفت های تکنولوژی به همراه گسترش ابزارهای هوشمند، موجب گردیده که تحقیقات وسیعی در زمینه یادگیری ماشین انجام گیرد. توقع استفاده کنندگان از این ابزارهای هوشمند به گونه ای است که انتظار دارند این ابزارها بتوانند همپای هوش انسانی عمل کنند. گرچه هنوز الگوریتم های یادگیری ماشین با این آرمان فاصله زیادی دارند ولی در بعضی از شاخه ها مانند پردازش دست خط و تشخیص صوت پیشرفت های خوبی انجام گرفته است. گسترش ابزراهای لمسی و علاقه کاربران به استفاده از نوشتن به جای تایپ کردن موجب گردیده که تولید کنندگان، یک نرم افزار تشخیص دست خط را به همراه محصولاتشان ارائه کنند و برای توسعه و تحقیق در این زمینه سرمایه گذاری ویژه ای انجام دهند. لزوم ارائه الگوریتمهای سریعتر و دقیقتر موجب شده محققان در امر توسعه پردازش دست خط فعالیت کرده و به پیشرفتهای جدیدی در این زمینه نایل گردند. از الگوریتم های رایج که در پردازش دست خط استفاده می شود می توان به شبکه عصبی، ماشین بردار پشتیان، مدل مخفی مارکوف،template matching ،dtw و روشهای ترکیبی اشاره کرد. در این پایان نامه یک روش جدید مقایسه الگوها که برگرفته از زنجیر مارکوف مرتبه یک می باشد ارائه شده و از آن به همراه الگوریتمk - نزدیکترین همسایه، جهت تشخیص دست خط آنلاین استفاده شده و برای ارزیابی، دیتابیس اعداد دست نویس از 44 فرد مورد استفاده قرار گرفته است. بررسی دقت الگوریتم ارائه شده در مقایسه با مدل مارکوف از توانایی و قدرت این روش حکایت دارد و همچنین به دلیل ارائه یک مدل ریاضی پایه ای به همراه بررسی خواص آن، امکان استفاده از این روش در سایر حوزه ها و کاربردهای یادگیری ماشین امکان پذیر است.
محسن صالحی مجید وفایی جهان
در این پژوهش کوشش شده است سیستم تشخیص نفوذی برای ترافیک انتقالی شبکه ارائه شود که با داشتن نرخ تشخیص حمله ی بالا، به نرخ مثبت کاذب پایینی دست یابد. این سیستم با نظارت بر ترافیک شبکه، به تشخیص ناهنجاری¬ها می پردازد. بدین منظور ویژگی¬های استخراج شده از یک ترافیک شبکه به وسیله ی تعدادی hmm، تحت عنوان یک گروه دسته بندی کننده، مدل سازی می شود. سپس با ادغام خروجی های حاصل از hmm های درون یک گروه، مقدار احتمالی تولید می شود. در این سیستم به هر ویژگی وزن داده می¬شود و به جای یک مقدار آستانه، از استنتاج فازی برای تصمیم گیری بین ترافیک شبکه مخرب و غیر مخرب استفاده می شود؛ بنابراین ابتدا قوانین فازی به صورت دستی و بر اساس ارزش امنیتی هر ویژگی قابل استخراج شکل می گیرند. سپس خروجی احتمالی هر یک از گروه های hmm با توجه به قوانین فازی تولیدشده، به مقادیر فازی تبدیل می شود. این مقادیر توسط موتور استنتاج فازی به کار گرفته شده و به خروجی که حاکی از مخرب و غیر مخرب بودن ترافیک انتقالی شبکه می باشد، تبدیل می گردد. آزمایش ها نشان می دهد که سیستم پیشنهادی در تشخیص حملاتی که به عنوان کاندیدای اصلی خطا می باشند به خوبی عمل می کند. همچنین معیارهای recall ,precision و f1-measure را به ترتیب با 100%، 99.38% و 99.69% میگذراند. درنهایت نرخ تشخیص حمله ی نزدیک به ۱۰۰٪ و نرخ مثبت کاذب 0.62٪ نشان می دهد که سیستم پیشنهادی نسبت به سیستم های گذشته بهبودیافته است. با توجه به نتایج این بررسی¬ها، موفقیت روش پیشنهادی بر روی پایگاه دادهkdd cup 1999 ، کاملا مشهود می باشد.
جمال کریمیان مجید وفایی جهان
یکی از اساسی¬ترین معیارهای یک سیستم تشخیص نفوذ ایده آل، به دست آوردن نرخ مثبت کاذب پایین و نرخ تشخیص بالا است. سیستم¬های تشخیص نفوذ مبتنی بر امضا در تشخیص حملات جدید ناتوان می¬باشند و امروزه سیستم های مبتنی بر ناهنجاری استفاده می¬شوند.مهم¬ترین پارامتر در این سیستم ها نرخ مثبت کاذب است که هرچه قدر پایین باشد، سیستم در شناسایی حملات منعطف¬تر عمل می¬کند. هدف از ارائه این پژوهش، بهبود این معیارها تا حد ممکن است به طوری که نسبت به سیستم¬های پیشنهادی گذشته عملکرد بهتری داشته باشد. سیستم پیشنهادی ترکیبی از روش تشخیص مبتنی بر ناهنجاری و روش تشخیص مبتنی بر امضاء می¬باشد و دارای دو بخش تشخیص وجود حمله و تشخیص نوع حمله است ،به ترتیب در هر بخش از روش مبتنی بر ناهنجاری و مبتنی بر امضاء استفاده می¬شود. در این سیستم به کمک استفاده از چندین مدل مخفی مارکوف که به شکل قانونمند باهم همکاری می¬کنند عمل تشخیص به وسیله تعیین آستانه با توجه به ساختارهای نمونه رفتارهای عادی انجام می¬شود.پس از انجام آزمایش ها و ارزیابی توسط سه آزمون دقت، فراخوانی و f1-measure بر روی مجموعه داده firefox که از اجرای هفت نوع برنامه بر روی سیستم¬عامل linux بوجود¬آمده مشاهده شد که سیستم پیشنهادی جدید از نرخ تشخیص بالایی در حدود 100 درصد و نرخ مثبت کاذب 0.3 درصد برخوردار می¬باشد.
مینا رحیم پور مهرداد جلالی
در دنیای امروزی با افزایش سریع حجم اطلاعات در وب، به سیستمی که با دادن پیشنهادات مناسب با خواسته های یک کاربر، او را از مرور تمام آیتم ها بازدارد، احساس نیاز می شود. امروزه سعی در ساخت سیستمی توصیه گر با درصد خطای کم و سرعت بالا در تمام شرایط به یکی از پرطرفدارترین حوزه های تحقیقاتی دانشگاهی تبدیل شده است. به دلیل درصد خطای بالا معمولا یک روش پایه در ساخت این گونه سیستم ها به کار گرفته نمی شود و در اکثر اوقات جهت پیاده سازی آن از ترکیب چندین روش استفاده می شود. با نگاشت اطلاعات تراکنش ها، به یک گراف دوبخشی تعاملات کاربر-آیتم، مسئله توصیه تبدیل به یک مسئله پیش بینی لینک در گراف می شود که در آن ساختار گراف، اطلاعات مناسبی در رابطه با ارتباطات بین کاربران دارد. برای استفاده بهینه از ساختار گراف، یک روش توصیه مبتنی بر هسته را پیشنهاد می کنیم و یک هسته گراف طراحی می کنیم که کاربران و آیتم هایی که با کاربر-آیتم اصلی در ارتباط هستند را جهت پیش بینی لینک، موردبررسی قرار می دهد. در هسته گراف، یک حرکت تصادفی با شروع از جفت کاربر-آیتم اصلی ایجاد می کنیم و میزان شباهت بین جفت کاربر -آیتم ها را بر اساس حرکت تصادفی محاسبه می کنیم. سپس از هسته در یک ماشین بردار پشتیبان تک کلاسه جهت عمل توصیه استفاده می کنیم. پیاده سازی شده و نتایج خوبی نیز حاصل شد. به عنوان مثال این movielens الگوریتم ذکرشده، بر روی دیتاست روش برای 6040 کاربر به 3883 فیلم با گام های تصادفی به طول 3، صحت پیش بینی 83.03 بدست آمد
بصیر پچاز مجید وفایی جهان
در یک تعریف کلی، می توان کلیه ی کدهای مخربی که بالقوه توانایی آسیب رساندن به سیستم های کامپیوتری یا شبکه ای از سیستم های کامپیوتری را دارند، بدافزار نامید. رشد کمی و کیفی بدافزارها در سال های اخیر به مدد افزایش کیفیت و کمیت کیت های تولید ویروس و ظهور تکنولوژی های نوین جهت تولید و گسترش ویروس های دگردیس و همچنین افزایش استفاده ی عمومی از ابزارهای اینترنتی و تحت وب، سرعت چشمگیری داشته است. در حال حاضر، روش عمومی و پرکاربرد جهت مقابله و کشف بدافزارها، روش های مبتنی بر کشف امضا می باشد. علی رغم عمومیت این روش در کشف و شناسایی بدافزارها در نرم افزارهای ضدویروس فعلی، عمده ترین چالش این روش این است که بدافزارها می بایست از قبل شناخته شده باشند تا بتوان با بررسی امضا، آن ها را از دیگر فایل ها تمیز داد. همچنین تعیین امضا نیز، خود فرایندی بسیار پیچیده و زمان بر است.
مهدیه ذبیحی مجید وفایی جهان
روبات ها یا خزنده های وب برنامه هایی برای استخراج دانش از صفحات وب هستند که کار خود را با تعدادی صفحه آغاز کرده و به صورت بازگشتی تمام اسناد قابل دسترسی از این صفحات را بازدید می کنند. روبات های وب با رفتار های متفاوت اعم از مخرب و غیر مخرب، در کنار کاربران انسانی، جزء بازدیدکنندگان وب به حساب می آیند. امروزه، با افزایش استفاده از اینترنت و پیدایش امکانات جدید در وب، نیاز به وجود روبات ها افزایش یافته است. تمایز انسان و روبات از حیث تامین امنیت شبکه های کامپیوتری، باعث طرح مساله تشخیص روبات وب شده است که حل دقیق آن، سایت ها را از دید روبات های مخرب مصون داشته و کارایی سرورها را با کاهش اولویت در پاسخ-دهی به روبات ها افزایش می دهد. در این مقاله می کوشیم؛ با ارائه 2 ویژگی جدید مبتنی بر الگوهای پیمایشی روبات-ها و منابع مورد درخواست آن ها، شباهت کسینوسی بین انسان و روبات را کاهش داده و با ارائه الگوریتمی مبتنی بر خوشه بندی مارکوف، بازدیدکنندگان دو وب سایت دانشگاهی و آموزشی را خوشه بندی نماییم. آزمایش ها نشان می دهد؛ آن چه بیشتر از تعداد ویژگی ها اهمیت دارد؛ مرتبط و مناسب بودن ویژگی های استفاده شده است. علاوه بر این، طبق ارزیابی های باناظر، الگوریتم پیشنهادی به طور متوسط با دقتی برابر 99.7? خوشه هایی تولید می کند که دارای آنتروپی 0.0215 بوده و 97.7? خالص هستند. همچنین متوسط 96.4? روبات ها به درستی تشخیص داده می-شوند. تحلیل نهایی خوشه ها نشان می دهد؛ برخی روبات های مفید اگرچه شناخته شده اند؛ می توانند با تقلید رفتار انسان شناسایی خود را دشوار سازند. علاوه براین، الگوریتم پیشنهادی از نقطه نظر کیفیت خوشه های نهایی و دقت، عملکردی بهتر نسبت به روش های مرز دانش دارد.