نام پژوهشگر: محمد رضا زارع میرک آباد
میلاد زندی محمد رضا زارع میرک آباد
فرآیند داده کاوی بیشتر توجه خود را معطوف به کشف الگوهای عام برای توصیف اکثریت معنادار داده ها کرده است. اما با گذشت زمان مسائلی در حوزه داده کاوی مطرح شد، که نیازمند کشف مواردی بود که از الگوی عام داده ها تبعیت نمی کرد. به دلیل تکرار کم این موارد استفاده از روش های معمول کشف الگو کارایی خود را از دست می دهند. اهمیت بحث کشف موارد نادر نه تنها از کشف الگوهای عام کم اهمیت تر نیست، بلکه در مواردی از اهمیت بیشتری نیز برخوردار است. سری های زمانی یکی از انواع داده های ترتیبی هستند که به فراوانی در تحقیقات علمی، مباحث تجاری و پزشکی کاربرد دارند. یکی از روش هایی که در بحث تجزیه و تحلیل این نوع داده ای مطرح است، گسسته سازی سری زمانی و اعمال روش های معمول داده کاوی است. در این پایان نامه پس از بررسی روش های گسسته سازی سری زمانی و انتخاب روش sax به عنوان روشی که گسسته سازی را به خوبی انجام می دهد، از دنباله های بدست آمده از این روش برای آموزش مدل مخفی مارکف و پیش بینی موارد نادر استفاده می شود. پیاده سازی اولیه منجر به دقت پایین 67% و 5% گردید که با استفاده از مدل مخفی مارکف مبتنی بر حدآستانه دقت مدل به 96% و 99% افزایش یافت، که در نوع خود بی نظیر است. همچنین پس از بررسی های انجام شده برای حل چالش تعیین مناسب طول کلمه سری زمانی در روش sax، راه حل جدیدی برای تعیین طول این پارامتر به جای روش تجربی ارائه می شود.
صفورا طلیمیان محمد رضا زارع میرک آباد
ا توجه به حجم عظیم اطلاعات پراکنده در پهنه وب و عدم توانایی سیستم¬های بازیابی اطلاعات در استخراج پاسخ مختصر و جامع به کاربر، سیستم¬های پرسش و پاسخ مطرح شدند. این سیستم¬ها در ابتدا تنها به حضور یا عدم حضور لغات برای استخراج پاسخ توجه می¬کردند. اما در توسعه¬های بعدی نقش نحوی و معنایی لغات نیز در نظر گرفته شد. از طرف دیگر ذهن بشر، به عنوان مهم¬ترین الگو، در استخراج پاسخ مبتنی بر تفکر شی گرایی عمل می¬کند. در این پژوهش با استفاده از روابط مفهومی بین لغات و با استناد به دو رابطه has-operation و has-attribute ایده شی¬گرایی در دنیای واقعی مدل می¬شود. با استفاده از این ایده می¬توان تفکر انسانی را در پاسخ¬گویی به سوالات شبیه¬سازی کرد. از سوی دیگر انسان در پاسخ به سوالات ابتدا به دنبال تعریف مفاهیم می¬گردد. بر این اساس، سوالات پاسخ کوتاه به چند سوال تعریفی تبدیل شده و پاسخ آنها از بین این تعاریف استخراج می¬شود. بنابراین در روش پیشنهادی ابتدا مفاهیم و روابط به سیستم ارائه شده و سیستم با استفاده از این روابط به دنبال پاسخ سوال می¬گردد. نهایتا سیستم، پس از ارائه پاسخ و دریافت بازخورد از کاربر، به تحلیل روابط مفهومی پرداخته¬ و بر اساس امتیاز روابط، روابط پر اهمیت را شناسایی می¬کند. روش پیشنهادی روی متون دریافتی از موتورهای جستجو در حوزه¬ی فناوری اطلاعات و ارتباطات و با داده¬های واقعی تست شد. نتیجه این بررسی ها بیانگر توانایی روابط معنایی مبتنی بر شی¬گرایی در مدل¬سازی مفاهیم است. این روش به دلیل تکیه بر اشیاء، به عنوان بخش اصلی سخن، و تعریف رفتار، به عنوان وابستگان به اشیاء، در مواجهه با سوالات فاقد فعل بخوبی عمل می¬کند.
هادی مقدر محمد رضا زارع میرک آباد
امروزه با افزایش حجم داده ها امکان جمع آوری و دسته بندی سریع داده ها توسط انسان غیرممکن شده است و نیاز به دسته بندی و تحلیل دادها به صورت خودکار از جایگاه ویژه ای برخوردار است. دسته بندی داده ها عملیاتی است که ابتدا، طی یک فرایند ، نمونه های آموزشی به همراه برچسب آن ها به یک عامل یادگیر داده می شود تا ارتباط بین نمونه ها و برچسب ها را یاد بگیرد و سپس برچسب داده های آموزشی را پیش بینی کند. از طرفی، داده های چند برچسبی داده هایی هستند که هر نمونه در هرلحظه می تواند بیش از یک برچسب داشته باشد. به عبارت دیگر هر نمونه همراه با یک بردار از برچسب ها نمایش داده می شود. روش های دسته بندی چندبرچسبی برحسب ماهیت عملکردشان به دودسته کلی تقسیم می شوند: روش های تبدیل مسئله، که در ابتدا مسئله را به یک یا چند مسئله با ماهیت تک برچسبی تبدیل می کنند و سپس از روش-های کلاسیک دسته بندی استفاده می کنند، و روش های تطبیقی، که توسعه ای بر روش های کلاسیک دسته-بندی می باشند به طوری که مستقیماً می توانند داده ها چند برچسبی را دسته بندی نمایند. در این پژوهش ضمن معرفی روش ها و رویکرد های دسته بندی چندبرچسبی، یک روش تطبیقی مبتنی بر شبکه نروفازی را برای دسته بندی داده های چندبرچسبی ارائه می دهیم. آزمایش های صورت گرفته بروی سه تا از مهمترین مجموعه داده های چندبرچسبی، حاکی از کارایی بالاتر روش پیشنهادی در دسته بندی داده ها و زمان آموزش کمتر نسبت به سایر روش های مبتنی بر شبکه عصبی می باشد.