نام پژوهشگر: محمد بهروزی فر
محمد بهروزی فر نصراله مقدم چرکری
شناسایی و بازنمایی اعمال انسان یکی از موضوعات مهم و چالش برانگیز در حوزه ی بینایی ماشین می باشد که دارای کاربردهای فراوانی همچون واسط های کاربری پیشرفته، کد کردن ویدئو، آنالیز حرکات بیماران یا ورزشکاران ، سیستم های نظارتی هوشمند و واقعیت مجازی می باشد. تفکیک اعمال مشابه و تشخیص آن ها در بسیاری از کاربردها، دارای اهمیت می باشد. زمان پردازشی نیز ویژگی دیگری است که با توجه به کاربردهای مختلف، از اهمیت ویژه ای برخوردار است. هدف از این پژوهش ارائه ی روشی برای بازنمایی اعمال انسان است که علاوه بر بهبود در نرخ تشخیص اعمال(بویژه اعمال مشابه)، در زمان پردازشی کوتاهی انجام شود. رویکرد پیشنهادی، استفاده از تخمین حالت انسان برای بازنمایی و تشخیص اعمال می باشد. تشخیص عمل در سه فاز مشاهده، بازنمایی و دسته بندی اعمال انجام می شود. مشاهده عمل در دو بخش استخراج شبح و انتخاب فریم های کلیدی انجام می شود. در فاز بازنمایی عمل یا همان استخراج ویژگی، از تخمین حالت استفاده شده است. در این مرحله ، براساس ویژگی های شکلی و هندسی بدن انسان، اعضای بدن شناسایی شده و از نسبت قرار گرفتن آن ها حالت فرد شناسایی می شود. با توجه به موقعیت های پیدا شده از 5 عضو بدن، ویژگی های مورد نیاز برای بازنمایی اعمال، استخراج می شود. بدین منظور ابتدا اطراف بدن انسان، به 8 ناحیه تقسیم شده و سپس بر اساس موقعیت هر کدام از اعضای بدن، تعیین می شود که در کدامیک از این نواحی قرار دارند. در ادامه، ویژگی هایی از نحوه ی تغییرات ناحیه ی این 5 عضو بدن، در طول دنباله ی تصاویر یک عمل، استخراج شده و به عنوان بازنمایی عمل مشاهده شده، در نظر گرفته می شود. بیشترین تکرار اعضای بدن در هر ناحیه، تعداد تغییرات و میانگین زوایای اعضای بدن از جمله این ویژگی ها می باشند. در نهایت ویژگی های استخراج شده از مرحله ی بازنمایی عمل، دسته بندی می شوند. در ادامه ی پژوهش روشی در چند دوربینی ارائه شده که به بهبود کار می انجامد. بر اساس آن، در هر فریم کلیدی دوربین مناسبی که بهترین زاویه دید از شخص را دارد، انتخاب می شود. این کار باعث کاهش مشکل انسداد و افزایش نرخ تشخیص در اعمالی است که در آن ها زاویه شخص نسبت به دوربین تغییر می کند. ارزیابی رویکرد پیشنهادی بر روی دو مجموعه داده ی muhavi و humaneva انجام شده است و نرخ تشخیص بدست-آمده در رویکرد تک دوربینی برای این مجموعه داده ها به ترتیب 8/97 و 25/91 می باشد. نرخ تشخیص بدست آمده در رویکرد چند دوربینی به ترتیب 8/97 و 95 می باشد. این نتایج موفقیت این الگوریتم در تشخیص اعمال مشابه را نشان می دهد. زمان پردازشی برای فاز بازنمایی عمل 30 فریم برثانیه می باشد. این زمان بدون در نظر گرفتن مرحله ی اول یعنی استخراج شبح انسان اندازه گیری شده و دسته بندی اعمال نیز به صورت برخط انجام می شود. این زمان پردازشی در مقایسه با کارهای مشابه بسیار مناسب بوده که موفقیت و کاربردی بودن رویکرد پیشنهادی را نشان می دهد.