نام پژوهشگر: عاطفه ملک خطابی
عاطفه ملک خطابی محسن کمپانی زارع
بخش اوّل در این رساله برای رویارویی با داده های غیرخطی در مدلسازی qsar از دسته ای از شبکه های عصبی تحت عنوان شبکه های تابع شعاعی استفاده شده است. در بخش اول از یک روش بهینه سازی تحت عنوان روش جایگزینی در تلفیق با شبکه ی تابع شعاعی برای بهینه کردن تعداد و محل مراکز استفاده شده است. در این مطالعه تعداد مراکز و مقدار پهنا به صورت همزمان مورد جستجو قرار گرفته اند. در اغلب مطالعاتی که تا کنون در این زمینه صورت گرفته است، قبل از ورود داده به شبکه یک سری از متغیرهای اضافی حذف می شوند. اما در این مطالعه هیچ انتخاب متغیری روی داده ها صورت نگرفته است. بر اساس تئوری های rbfn یک ایده، استفاده از تعدادی از نمونه ها به عنوان مراکز توابع شعاعی است. در حالیکه ایده های دیگری مبنی بر استفاده از نقاط میانی کلاس های نمونه ها وجود دارد. برای مقایسه ی این دو حالت، دو روش طبقه بندی تحت عنوان طبقه بندی سلسله مراتبی و طبقه بندی نزدیک ترین همسایه k نیز در تلفیق با شبکه تابع شعاعی در مقایسه با روش جایگزینی مورد ستفاده قرار گرفته اند. نتایج بر روی سه سری داده ی بیولژیکی-دارویی تکرار شده است. یک دسته از این داده ها، داده ی دارویی مربوط به یکی از مشتقات 1-[2-هیدروکسی اتوکسی- متیل]-6-(تیو فنیل)تیمین] hept که خاصیت ضد ایدز دارد. تلفیق روش جایگزینی با شبکه ی تابع شعاعی بر روی این داده ی ضد ایدز منجر به بهینه شدن یک سری 12 تایی از سری کالیبراسیون به عنوان سری مراکز با قدرت پیش بینی معادل 9206/0 می شود. نتایج برای داده های gaba و selwood به ترتیب 8 و 12 مرکز با قدرت پیش بینی 8623/0 و 8340/0 گزارش شده است. با توجه به تعداد مراکز و قدرت پیش بینی که توسط دو روش طبقه بندی دیگر بدست آمده، به ترتیب برای داده های hept، gaba، selwood تعداد مراکز 25، 15 و 15 و مقادیرقدرت پیش بینی 7894/0، 7303/0 و 7250/0 مربوط به روش طبقه بندی نزدیک ترین همسایه ی k و تعداد مراکز 24، 35 و 17 با مقادیرقدرت پیش بینی 7084/0، 6974/0 و 3089/0 مربوط به روش طبقه بندی سلسله مراتبی، نشان داده شده است که انتخاب خود نمونه ها به عنوان سری مراکز منجر به انتخاب تعداد مراکز کم تر و با قدرت پیش بینی بیشتری نسبت به انتخاب میانه ی کلاس ها به عنوان مراکز توابع شعاعی خواهد شد. در بخش اول سری داده به دوقسمت تقسیم شده و قدرت پیش بینی گزارش شده مربوط به سری معتبرسازی ای است که خود در ساخت مدل شرکت داشته است. بخش دوم در بخش اول چنین نتیجه گرفتیم که انتخاب خود نمونه ها به عنوان مراکز خیلی بهتر از انتخاب میانه ی کلاس ها است. حال این ایده به نظر می آید که آیا می توان نقاط دیگری را در فضای داده ها به عنوان سری مراکز معرفی کرد که نتیجه بهتری نسبت به انتخاب خود نمونه ها به عنوان مراکز نشان دهد؟ در این بخش برای پاسخ به این سوال با استفاده از فرم اصلاح شده ای از روش جایگزینی کل فضای داده مورد جستجو قرار گرفته است. قابل ذکر است که در این بخش داده ها به سه دسته ی کالیبراسیون، معتبرسازی و تست تقسیم شده اند و داده ی ورودی به شبکه ماتریس امتیاز است. قدرت پیش-بینی مدل ساخته شده توسط یک سری خارجی تحت عنوان سری تست مورد ارزیابی قرار گرفته است که در ساخت مدل شرکت نکرده است. این روش روی سه سری داده ی ذکر شده در بخش اول اعمال شده است. که برای سه سری داده ی hept، gaba و selwood 7 نمونه به عنوان سری مراکز و به ترتیب مقادیر قدرت پیش بینی معادل 7234/0، 8441/0 و 9804/0 را برای سری تست نشان داده است. این روش برای سری معتبرسازی نیز برای هر سه سری داده ها 7 نمونه به عنوان سری بهینه شده ی مراکز و به ترتیب مقادیر قدرت پیش بینی معادل 9812/0، 9902/0 و 9991/0 را نشان داده است. نتایج بدست آمده حاکی از آن است که می توان با جستجوی کل فضای داده، نقاطی از فضای داده را می توان به عنوان مراکز معرفی کرد که نسبت به انتخاب خود نمونه ها هم تعداد مراکز بسیار کمتر هستند و هم قدرت پیش بینی فوق العاده ای را از خود نشان می دهند. انتخاب سری مراکز از فضای داده ها اولین بار است که مورد مطالعه قرار گرفته است.