نام پژوهشگر: جعفر منصوری
جعفر منصوری مرتضی خادمی
امروزه با پیشرفت های سریع در سیستم های مخابراتی، داده های چندرسانه ای برای کاربران به آسانی قابل دسترس هستند. در چنین حجم عظیمی از داده ها، تشخیص مفاهیم معنایی در تصاویر ثابت و بخصوص ویدئو یک موضوع بسیار مهم است. مفاهیم معنایی محدوده وسیعی همچون اشیاء، اشخاص، مناظر، رخدادها و غیره را در بر می گیرد. تشخیص مفاهیم معنایی در ویدئو نقش مهمی در کاربردهای جستجو، فیلتر کردن، ویدئوهای نظارتی و غیره دارد. تشخیص خودکار مفاهیم معنایی در ویدئو عموما شامل تعیین شات ها، زیرشات ها و فریم های کلیدی، استخراج ویژگی های سطح پایین، پردازش ویژگی های استخراج شده و در نهایت طبقه بندی است. شات ها، زیرشات ها و فریم های کلیدی به صورت آماده در دسترس کلیه محققین هستند و بنابراین تحقیقات بر روی سایر قسمت ها متمرکز می شود. در این رساله دو سیستم برای تشخیص مفاهیم معنایی پیشنهاد می گردد. در سیستم پیشنهادی اول، یک روش جدید برای ترکیب ویژگی ها و طبقه بندهای مختلف بر اساس درخت تصمیم گیری c4.5 برای تشخیص مفاهیم معنایی در ویدئو پیشنهاد می شود. در این روش برای هر مفهوم، متناسب با شرایط و خصوصیات طبقه بندها و ویژگی ها ترکیب انجام می شود. نتایج شبیه سازی بیانگر برتری روش پیشنهادی نسبت به روش های معمول ترکیب است. در سیستم پیشنهادی دوم، از ویژگی های سطح پایین بینایی جدید (بردارهای ویژگی چپ و راست و مقادیر منفرد) که به وسیله تبدیل مقدار منفرد(svd) بدست می آیند استفاده می شود. نشان داده می شود که این ویژگی ها خصوصیات رنگ، بافت و لبه را همزمان در بر دارند. بعلاوه ویژگی های svd دربردارنده اطلاعات مکانی نیز هستند. همچنین، استخراج و طبقه بندی ویژگی ها به روش تقسیم بندی چنددانه ای انجام می گیرد. در قسمت پردازش ویژگی ها، کاهش بُعد با استفاده از خصوصیاتsvd و انرژی فریم های کلیدی انجام می پذیرد که در آن هر بردار ویژگی (مختص به هر مفهوم) دارای طول خاصی است. به علت اینکه بعد بردارهای ویژگی حتی بعد از کاهش بعد بالا است، طبقه بندی توسط الگوریتم k-nn با استفاده از تابع فاصله پایدار ضرب شونده صورت می گیرد. نتایج شبیه سازی نشان دهنده برتری سیستم پیشنهادی تشخیص مفاهیم معنایی در ویدئو است. اخیرا اثبات شده است که تحت مجموعه وسیعی از حالات، در فضای با ابعاد بالا، فواصل رایج ناپایدار می شوند. یعنی هنگامی که بُعد به سمت بینهایت میل می کند، برای مجموعه وسیعی از توابع فاصله و توزیع های داده، فواصل نزدیک ترین و دورترین همسایه ها تا نقطه هدف به یک عدد میل می کند. با توجه به اینکه در سیستم دوم تشخیص مفاهیم معنایی در ویدئو در این رساله، بعد بردارهای ویژگی بسیار بالا است، این ناپایداری می تواند منجر به کاهش کارآیی سیستم گردد. در این رساله، یک تابع فاصله پایدار در فضای با ابعاد بالا، به نام فاصله ضرب شونده معرفی می شود. این تابع بر اساس ضرب مولفه های فاصله است در مقابل فواصل رایج که بر اساس جمع مولفه های فاصله می باشند. این تابع دارای توان کنترلی بوده که اثر هر مولفه را بر روی تابع فاصله کنترل می کند. به صورت ریاضی اثبات می شود که این تابع برای داده های با ابعاد مستقل در فضای با ابعاد بالا پایدار است. برای داده های با ابعاد وابسته نیز پایداری با شبیه سازی نشان داده می شود. این تابع برای داده های با ابعاد پایین نیز قابل استفاده است.
جعفر منصوری مرتضی خادمی
چکیده ندارد.