نام پژوهشگر: سیدمجید خراشادیزاده
سیدمجید خراشادیزاده علیمحمد لطیف
با گسترش روزافزون داده های ویدئویی، نیاز به الگوریتم های هوشمند به منظور تحلیل و تفسیر این اطلاعات نیز افزایش یافته است. بازشناسی خودکار کنش های انسانی در حال رخداد در یک دنباله ویدئویی، کاربردهای فراوانی در حوزه های مختلف از جمله سیستم های نظارت هوشمند، نمایه گذاری و بازیابی ویدئو بر مبنای محتوا و طراحی واسط های پیشرفته کاربر-رایانه دارد. همین امر توجه بسیاری از پژوهش گران فعال در حوزه بینایی ماشین را به این زمینه جلب کرده است. در این پایان نامه دو رویکرد برای بازشناسی کنش های انسانی بر مبنای ترکیب ویژگی های محلی با ویژگی های سراسری ارائه می شود. به منظور استخراج ویژگی های سراسری، از ممان های هفت گانه lr{hu} و هیستوگرام کد زنجیری برای توصیف تصویر سیاه نما در هر فریم استفاده شد. در نهایت با استفاده از مدل کیسه واژگان یک بازنمایی نهایی از ویدئو بر مبنای ویژگی های سراسری به دست می آید. هم چنین با استفاده از آشکارساز نقاط کلیدی lr{harris3d} و توصیف گر lr{hog/hof} و مدل کیسه واژگان یک بازنمایی نهایی بر مبنای ویژگی های محلی ساخته می شود. در پایان دو بردار ویژگی حاصل با هم الحاق شده و از یک ماشین بردار پشتیبان برای طبقه بندی بردار ویژگی نهایی استفاده می شود. در رویکرد دوم سعی شد تا با استفاده از هیستوگرام های محلی، ضعف مدل کیسه واژگان در ضبط اطلاعات هندسی بین ویژگی ها تا حدودی پوشش داده شود. ابتدا حول هر نقطه ویژگی یک هیستوگرام محلی محاسبه شده و سپس با استفاده از این هیستوگرام ها و مدل کیسه واژگان یک بازنمایی جدید از ویدئو ساخته می شود. در پایان بردار ویژگی حاصل با بردار ویژگی حاصل از رویکرد قبل الحاق می شود تا یک بردار ویژگی با قدرت متمایزکنندگی بالاتر به دست آید. به منظور ارزیابی روش پیشنهادی از دو پایگاه داده lr{kth} و lr{weizmann} استفاده شده است. دقت طبقه بندی برای این دو پایگاه داده به ترتیب 92.1 و 95.2 بدست آمد که قابل مقایسه با نتایج گزارش شده توسط سایر مقالات ارائه شده در زمینه بازشناسی کنش است.