نام پژوهشگر: علیرضا اسودی
علیرضا اسودی محمدرضا کرمی
بینایی ماشین با ترکیب روش های مربوط به پردازش تصویر و ابزارهای یادگیری ماشینی، رایانه را قادر به درک هوشمند معنا و محتوای تصاویر می کند. ردیابی شی یک عمل اساسی برای بسیاری از کاربردهای سطح بالای بینایی ماشین مانند بازشناسی براساس حرکت، نظارت خودکار، نمایه گذاری فایل های ویدیویی، ارتباطات متقابل انسان و رایانه، نظارت ترافیکی و هدایت وسایل نقلیه است که امروزه در بالاترین سطح توجه خود قرار دارد. در این پایان نامه الگوریتمی کارا جهت ردیابی شی در تصاویر ویدیویی با استفاده از ویژگی های رنگ و بافت و به کمک دو شبکه عصبی توابع اساسی شعاعی ارائه شده است. در روش پیشنهادی ابتدا ناحیه ی شی توسط کاربر در فریم اول مشخص می گردد. سپس ناحیه ای هم مساحت با آن و در اطراف آن بعنوان زمینه در نظر گرفته می شود. پس از آن ویژگی های رنگ و بافت از نواحی شی و زمینه استخراج شده و به شبکه عصبی توابع اساسی شعاعی اول آموزش داده شده و آزمایش می شود. خروجی شبکه عصبی اول تصویر دودویی خواهد بود که در آن شی از زمینه ی اطرافش بطور دقیقی جدا شده است. سپس ویژگی های رنگ و بافت ناحیه ی دقیق زمینه ی بدست آمده از مرحله ی قبل گسترش داده می شود تا بتواند در برابر تغییرات زمینه در فریم های بعدی مقاوم گردد. در ادامه از ویژگی های شی و زمینه ی گسترش داده شده برای آموزش شبکه ی عصبی توابع اساسی شعاعی دوم استفاده می گردد. از شبکه عصبی توابع اساسی شعاعی آموزش داده شده ی دوم بعنوان یک تابع امتیاز دهی استفاده می گردد که مقادیر بیشتر در آن بیانگر بالاتر بودن احتمال تعلق آن پیکسل به شی است و از آن برای تشخیص پیکسل های شی در فریم بعد استفاده شده است. در روش پیشنهادی از مرکز ثقل شی و پروسه ی جابجایی میانگین برای مکان یابی شی استفاده شده است. از آنجا که بافت و رنگ شی و پس زمینه در طول ردیابی و در فریم های بعدی یکسان باقی نخواهد ماند با معرفی و سنجش معیارهایی تغییرات در مدل و اندازه ی شی بروز رسانی می گردد. نتایج بدست آمده بیانگر این است که روش پیشنهادی قابلیت ردیابی مطمئن شی را با دوربین متحرک و با وجود پوشیدگی های جزئی شی و تغییرات تدریجی در رنگ و بافت شی و زمینه خواهد داشت و تغییرات در اندازه ی شی را نیز بخوبی جبران می کند. همچنین نتایج بیانگر این است که روش پیشنهادی عملکرد بهتری در مقایسه با روش های جابجایی میانگین و تطابق قالب دارد. علاوه بر این، روش پیشنهادی ناحیه ی اشغال شده در هر فریم توسط شی را فراهم می کند که از آن می توان در پردازش های مرتبه بالاتر مانند تشخیص، تعبیر و تفسیر نوع رفتار شی و نظایر آن استفاده نمود.