نام پژوهشگر: یاسر تابنده
یاسر تابنده اشکان سامی
انتخاب ویژگییکی از مهم ترین اقدامات پیش پردازش در عملیات داده کاوی می باشد. با انجام این مرحله از فرایند، حجم داده های پردازشی کمتر می شود، عملیات داده کاوی سریع تر و دقت الگوریتم هاییادگیری بیشتر می شود. روش های انتخاب خصیصه از لحاظ نحوه انتخاب به دو نوع انتخاب مجموعه ای و رتبه بندی خصیصه ها طبقه بندی می شوند. در این پژوهش مساله انتخاب ویژگی و مهم ترین روش های ارائه شده که از طریق رتبه بندی خصیصه ها به انتخاب خصیصه می پردازند مورد بررسی قرار می گیرد و همچنین چند روش جدید برای وزن دهیو رتبه بندیویژگی ها ارائه می شود. مهم ترین کارهایارائه شده در این پژوهش عبارتند از: • روشی جدید برای محاسبه فاصله بین دو ویژگی غیر عددی • روشی سریع برای محاسبه سریع تر فاصله بین نمونه های داده • بهبود الگوریتم relieff برای داده های چند کلاسه • روشی ترکیبی برای بهبود الگوریتم های relieff وgain ratio • بهبود روش chi-square برای ویژگی های غیر عددی با تعداد مقادیر زیاد • ارائه الگوریتم وزن دهی جدید مبتنی بر فاصله برای ویژگی های عددی • ارائه یک الگوریتمwrapper تصادفی برای انجام رتبه بندیشامل دو روش وزن دهی • ارائه روشیwrapper برای انجام همزمان انتخاب مجموعه ای و وزن دهی ویژگی بر اساس الگوریتم زنبورها روش های ارائه شده در این پژوهش برروی داده های استانداردuci آزمایش و با سایرالگوریتم ها و روش های مطرح مقایسه شده اند، همچنین برخی روش ها در مسابقات داده کاوی به عنوان پیش پردازش استفاده شده اند که نتیجه آن کسب رتبه های بالا در این مسابقات می باشد.