نام پژوهشگر: اصغر رحمانی
اصغر رحمانی سروش علیمرادی
شناسایی نقاط پرت به عنوان نقاط مورد علاقه در بسیاری از زمینه های تحقیقاتی و نقاط تأثیرگذار بر روش های کلاسیک آماری از اهمیت بالایی برخوردار است. به ویژه در ابعاد بزرگ که حضور این نقاط شانس بیشتری دارند و تشخیص آن ها به کمک معیارهای ساده آماری امکان پذیر نیست. استفاده از روش های استوار به منظور ارائه نتایج واقعی از برآوردگرهای پارامتر مکان و مقیاس با تأثیر پذیری بسیار اندک نسبت به نقاط پرت در این خصوص مناسب است. امروزه پیدایش مجموعه داده های واقعی با تعداد مشخصه های فراوان در برخی از شاخه های مهم علمی مانند پزشکی به چشم می خورد که شناسایی نقاط پرت در آن ها از اهداف مهم مطالعاتی محسوب می شود. به این ترتیب تلاش برای بررسی و توسعه شیوه های استوار کارآمد در چنین مجموعه داده هایی گسترش یافته است و دو عامل دقت در شناسایی و زمان محاسبه روش ها همواره مدنظر بوده است. در این پایان نامه اکثر برآوردگرها و روش های استوار خصوصاً روش های کارآمد در مجموعه داده های با ابعاد بزرگ بیان شده است و سپس با به کارگیری برخی از ویژگی های این روش ها یک الگوریتم محاسباتی سریع در خصوص شناسایی نقاط پرت معرفی شده است. این الگوریتم با استفاده از مولفه های اصلی در فضای تبدیل یافته، نتایج قابل ملاحظه ای برای داده های با بعد بالا نشان می دهد. همچنین قابلیت تحلیل وضعیت های موجود در کاربردهای خاص زیستی را دارد که در آنها تعداد ابعاد (مشخصه ها) به مراتب بزرگتر از تعداد مشاهدات هستند. علاوه بر این، مقایسه ای از عملکرد الگوریتم مذکور با دیگر روش های شناسایی نقاط پرت در ابعاد کم و نتایج حاصل از آن روی داده های واقعی و شبیه سازی شده با چندین هزار بعد، ارائه شده است.