نام پژوهشگر: منیژه قایمی دیزجی
منیژه قایمی دیزجی محمدرضا فیضی درخشی
دادهکاوی یکی از مراحل کشف دانش است و دانش حاصل از دادهکاوی در زمینههای گوناگون از جمله تجارت و پزشکی مورد استفاده قرار میگیرد. امروزه با پیشرفت علم و دانش، اطلاعات ذخیره شده در مورد موجودیتها در پایگاهدادهها نیز در حال افزایش است. مطالعات نشان دادهاند که بیشتر مواقع همهی اطلاعات در مورد موجودیتها نه تنها برای دادهکاوی مفید نیستند، بلکه مشکلاتی را برای دادهکاوی ایجاد میکنند. بنابراین سعی میشود با استفاده از فرایند انتخاب مولفه، مولفههای مفید و مربوط برای یادگیری انتخاب شده و مولفههای زاید و نامربوط کنار گذاشته شوند. ولی همیشه کنار گذاشتن قطعی برخی مولفهها قبل از دادهکاوی مطلوب نیست. در این مواقع سعی میشود اهمیت مولفهها برای دادهکاوی مشخص شود که این روند توسط الگوریتمهای وزندهی مولفه صورت میگیرد. انتخاب و وزندهی مولفه از جمله مسائل غیر چندجملهای سخت هستند که اخیراً استفاده از الگوریتمهای تکاملی برای حل این مسائل نتایج قابل قبولی را نشان داده است. طبیعت همواره مورد الهام بسیاری از افراد بوده است؛ بهطوریکه افراد مختلف سعی کردهاند با استفاده از روندهای موجود در طبیعت به حل مشکلات موجود بپردازند. از جمله الگوریتمهای تکاملی مبتنی بر طبیعت میتوان به الگوریتم ژنتیک و مورچهها اشاره کرد. در این راستا در این پایاننامه با توجه دقیق به روند موجود در جنگل، الگوریتم تکاملی جدیدی به نام الگوریتم جنگل ارائه شده است. به منظور بررسی کارایی الگوریتم پیشنهادی جنگل، 3 تابع آزمون در حالت 5 و 10 بعدی مورد بررسی قرار گرفته است. نتایج بدست آمده نشان دهندهی برتری قاطع الگوریتم جنگل از نظر زمان و تعداد نسل رسیدن به جواب نزدیک به بهینه نسبت به الگوریتم ژنتیک است. در این پایاننامه مسالهی وزندهی مولفه با استفاده از الگوریتم پیشنهادی جنگل حل شده است. نتایج آزمایشها بر روی مجموعه دادههایی با اندازههای مختلف نشان دادند که الگوریتم جنگل میتواند کارایی الگوریتم یادگیری نزدیکترین همسایگی را با استفاده از وزندهی مولفه، در 4 مجموعه داده از 7 مجموعه دادهی انتخابی به خوبی بهبود ببخشد. به منظور بررسی بیشتر کارایی الگوریتم جنگل، مسالهی انتخاب مولفه نیز با استفاده از الگوریتم جنگل حل شده است. نتایج آزمایشها بر روی 6 مجموعه داده نشان دادند که الگوریتم جنگل میتواند کارایی الگوریتم نزدیکترین همسایگی را در 4 مجموعه داده به خوبی بهبود ببخشد. در 2 مجموعه دادهای که الگوریتم جنگل نتوانسته است بهتر از روشهای موجود عمل کند، دارای رتبهی دو است.