نام پژوهشگر: علیرضا بهراد
ملیکه خدامی علیرضا بهراد
امروزه حجم زیادی از اسناد کاغذی موجود، توسط جاروب گر ها یا دوربین ها به اسناد تصویری دیجیتالی تبدیل می شوند. ذخیره سازی، بازیابی و مدیریت کارآمد این شیوه های تصویری، در بسیاری از برنامه ها نظیر اتوماسیون اداری و کتابخانه های دیجیتالی اهمیت فراوانی دارند. برای تبدیل اسناد تصویری به اسناد متنی از سیستم های تشخیص اپتیکی حروف، ocr، استفاده می شود. سیستم های ocr تابع زبان متن بوده و با توجه به زبان از الگوریتم های متفاوتی استفاده می شود. در سال های اخیر، با توجه به گسترش سیستم های ocr چند زبانه نیاز به ابزارهایی که قادر به تشخیص، بررسی و بازیابی منابع گفتاری و نوشتاری چند زبانه باشند، شدیداً افزایش پیدا کرده است. اما در اسناد چند زبانه اولین مرحله قبل از بازشناسی حروف، تشخیص نوع یا زبان متن است. الگوریتم های مختلفی برای تشخیص نوع یا زبان متن ارائه شده است. در این پروژه ضمن مرور انواع روش های شناسایی نوع زبان متن و بررسی تحقیقات صورت گرفته در این زمینه، دو روش جدید برای شناسایی نوع متون فارسی و لاتین در اسناد چاپی دو زبانه پیشنهاد شده است. با توجه به تفاوت های موجود بین رسم الخط، در دو زبان فارسی و لاتین از جمله پیوستگی حروف در کلمات فارسی در مقابل گسستگی آن در لاتین و استفاده فراوان از خطوط منحنی در فارسی در مقابل خطوط شکسته و مورب در لاتین، به نظر می رسد استفاده از ویژگی انحناء در تمایز بین متونی از این دو زبان موثر واقع شود. بر این اساس در اولین روش پیشنهادی به بررسی ویژگی انحنا در دو رسم الخط فارسی و لاتین پرداخته ایم. نتایج به دست آمده از تفاوت انحناء در این دو دست خط حکایت می کند. در روش پیشنهادی دوم با بهره بردن از خواص دیگر انحناء و نیز برخی ویژگی های شکلی و ساختاری دیگر سعی کرده ایم روش پیشنهادی قبل را تکمیل و عیوب و نواقص آن را برطرف نماییم. در هر دو روش پیشنهادی ابتدا شناسایی را در سطحِ اجزاء متصل انجام داده و سپس نشان داده ایم که با استفاده از شناسایی در این سطح می توان آن را به سطوح بالاتر نیز تعمیم داد، که البته در هر دو روش، بیشتر شناسایی در سطح کلمه مد نظر قرار داشته است. نتایج تجربی و مقایسه الگوریتم های پیشنهادی با سایر روش ها نشان دهنده نتایج مناسب روش های پیشنهادی می باشد.
نسیبه رحمانی علیرضا بهراد
سیستم های هدف یاب خودکار (atr) سیستم هایی می باشند که در جنگ افزار های نظامی مورد استفاده قرار می گیرند. مهمترین مزیت استفاده از این سیستم ها در حذف نقش انسان از فرایندهای شناسایی و تعقیب می-باشد. زیرا عکس العمل انسان کند، با درجه اطمینان پائین و وابسته به شرایط روحی اوست. اهدافی که توسط سیستم atr پردازش می شود تانک، خودرو، کشتی، هواپیما و سایر اهداف می باشد. تصویر ورودی سیستم atr توسط یکی از سنسورهای تصویر برداری (رادار امواج میلی متری، رادار لیزری، دوربین ویدئویی، دوربین مادون قرمز) حاصل می شود. از کاربردهای شناسایی خودکار هدف می توان به نظارت، بازرسی صنعتی، بازیابی تصویر مبتنی بر محتوی، رباتیک، تصویربرداری پزشکی، اثر متقابل انسان کامپیوتر، سیستم های وسایل نقلیه هوشمند اشاره کرد. atr یک تکنولوژی با قدرت نفوذ بالا و با قابلیت کمک به انسان برای خودکار کردن سیستم های اتوماسیون است. از دیگر کاربردهای غیرنظامی شناسایی خودکار می توان به شناسایی چهره اشاره کرد که بطور وسیعی برای دهه هاست که مطالعه می شود و تلاش ها در این زمینه همچنان ادامه دارد. بسیاری ماموریت های دفاعی و نظامی به آگاهی خودکار از موقعیت در محیط نیاز دارند. عنصر اصلی این ماموریت ها، آشکارسازی خودکار، ردیابی و شناسایی اهداف است. در شناسایی خودکار هدف، ممکن است از اهداف متعددی استفاده شود که بر حسب کاربرد تعیین می شوند. یکی از اهداف متداول در صنایع نظامی و حمل و نقل کشتی ها هستند که به صورت متداول در دریا و بندر گاهها یافت می شوند بنابراین تشخیص خودکار کشتی در بسیاری از کاربردها حائز اهمیت می باشد. آنچه در این پژوهش به آن پرداخته می شود، شناسایی خودکار کشتی با استفاده از پردازش تصاویر دیجیتال است. پس از بیان مقدمات لازم راجع به اجزای مختلف الگوریتم شناسایی خودکار هدف و روش های مختلفی که در هر مرحله استفاده می شود، دو روش از روش های قبلی شناسایی خودکار هدف پیاده سازی شد. روش اول شناسایی با استفاده از مشخصه های haar و طبقه بندی کننده ی adaboost و روش دوم شناسایی با استفاده از ویژگی های sift می باشد. که روش اول به نرخ تشخیص درست 87.5 درصد منجر شد و روش دوم فقط زمانی نتیجه خوبی ارائه می دهد که تصویر کشتی مورد نظر درون پایگاه داده وجود داشته باشد. که در این صورت نرخ تشخیص درست برای تصاویر تا مقیاس حداکثر یک چهارم و تحت همه ی چرخش ها 100درصد و نرخ هشدار غلط صفر خواهد بود. در نهایت، دو روش کاملاً جدید مبتنی بر بافت تصویر ارائه شد. روش اول پس از ناحیه بندی تصویر به طور دستی و استخراج ناحیه کشتی، ویژگی بافت آن ناحیه با استفاده از تصویر الگوی باینری محلی استخراج گردید و پس از آن هیستوگرام تصویر به عنوان بردار ویژگی کشتی استخراج گردید و از بردارهای به دست آمده برای آموزش دو نوع طبقه بندی کننده ی شبکه عصبی mlp و svm استفاده شد. ماکزیمم نرخ تشخیص درست به دست آمده از این روش در بهترین حالت، ماکزیمم نرخ تشخیص درست (tpr)برای طبقه بند svm برابر 100 درصد و نرخ هشدار غلط(far) متناظر با آن 59.4 درصد و نرخ تشخیص درست مکان کشتی(l) متناظر برابر با آن 77.5 درصد می باشد. مینیمم نرخ هشدار غلط برای طبقه بند svm برابر با 11.5 درصد و نرخ تشخیص درست متناظر با آن برابر با 0.27 می باشد. بیشترین مقدارl برای طبقه بند svm برابر 96.53 به ازای95.8 tpr=و34.88 far= می باشد. در طبقه بند mlp ماکزیمم نرخ تشخیص درست (tpr)99.66 درصد که نرخ هشدار غلط(far) متناظر با آن 51.72 درصد و نرخ تشخیص درست مکان کشتی (l) متناظر برابر با 70.6 درصد می باشد. مینیمم نرخ هشدار غلط برای طبقه بند mlp برابر با 21.5 درصد و نرخ تشخیص درست متناظر با آن برابر با 53.9 می باشد. بیشترین مقدارl برای طبقه بند mlp برابر 92.06به ازای 95.55 tpr=و34.88 far= می باشد. روش دوم، مشابه روش اول انجام می شود با این تفاوت که اندازه بردار ویژگی به وسیله ی اعمال چندین فیلتر گابور بزرگتر می گردد. و از بردارهای به دست آمده برای آموزش دو نوع طبقه بندی-کننده ی شبکه عصبی mlp و svm استفاده شد. ماکزیمم نرخ تشخیص درست برای طبقه بند svm برابر با 100 درصد و نرخ هشدار غلط متناظر با آن برابر با 56.38 و نرخ تشخیص درست مکان کشتی متناظر با آن برابر با 74.44 درصد می باشد. مینیمم نرخ هشدار غلط در این روش برابر با 8.5 درصد و نرخ تشخیص درست متناظر با آن برابر با 0.2 درصد می باشد. ماکزیمم نرخ تشخیص درست برای طبقه بند mlp برابر با 98.7 درصد و نرخ هشدار غلط متناظر با آن برابر با 43.2 و نرخ تشخیص درست مکان کشتی متناظر با آن برابر با 71.9 درصد می باشد. مینیمم نرخ هشدار غلط در این روش برابر با 21.1 درصد و نرخ تشخیص درست متناظر با آن برابر با 68.7 درصد می باشد. بیشترین مقدار l برای طبقه بند svm برابر 93.53 به ازای97.02 tpr= و 35.69 far= و ماکزیمم l برابر طبقه بند mlp برابر 91.39 به ازای92.88= tpr و30.02 far= است.
مهدیه محمدصالحی علیرضا بهراد
هدف از عملیات ثبت تصویر، تطبیق دادن دو یا چند تصویر که با زوایای دید مختلف یا در فواصل مختلف و یا در زمان های مختلف از یک صحنه تهیه شده اند، می باشد. ثبت تصویر به طور گسترده ای در تصویربرداری پزشکی، کاوش زمین با ماهواره، بینایی کامپیوتر و غیره به کار رفته است. روش های بسیاری برای ثبت تصویر به کار رفته است که عموماً هر کدام تنها برای کاربردی خاص قابل استفاده می باشد و اغلب نسبت به تغییر مقیاس حساس هستند. هدف ما در این پژوهش، ثبت تصاویر هوایی است. تغییر مقیاس، یکی از متداول ترین تبدیل هایی است که در تصاویر هوایی مشاهده می شود. در روش پیشنهادی اول ثبت تصاویر هوایی با کمک تطبیق نواحی انجام می شود. مشخصه های به کار رفته در این روش، نواحی با محتوای اطلاعاتی پائین می باشند. این روش نسبت به چرخش حساس نیست و ضریب تغییر مقیاس کمتر از 2.5 را می تواند تحمل کند. با افزایش ضریب تغییر مقیاس، ناحیه همپوشانی دو تصویر کاهش و احتمال ادغام شدن نواحی متمایز افزایش می یابد. بنابراین در روش دوم از مشخصه های محلی تغییرناپذیر با مقیاس برای ثبت تصاویر هوایی استفاده می نماییم. این روش برای ثبت تصاویری با تغییر مقیاس های بالا قابل استفاده می باشد. با استفاده از شباهت بین دو مسئله ثبت تصویر و تطبیق شکل یک روش جستجو ارائه نموده ایم که به طور قابل توجهی نرخ فراخوانی را افزایش می دهد.
عاطفه اسدی علیرضا بهراد
شناسایی چهره انسان توسط رایانه به دلیل کاربرد و نیاز آن در سیستم بینایی ماشین یکی از مسائل چالش برانگیز در دهه های اخیر می باشد که زمینه های علمی مختلفی از جمله بینایی ماشین، هوش محاسباتی، شناسایی الگو و غیره را در بر می گیرد. توانمندی یک سیستم شناسایی چهره با توجه به قابلیت شناسایی افراد در حضور انواع تغییرات در ظاهر چهره افراد سنجیده می شود. اغلب سیستمهای شناسایی چهره از اطلاعات بافت چهره برای شناسایی استفاده میکنند. در برخی از سیستمها دوربینهایی برای کسب اطلاعات سهبعدی نیز بکار گرفته میشود. ترکیب اطلاعات سهبعدی و دوبعدی کیفیت تطبیق را در مرحله شناسایی بالا میبرد. یکی از مشکلاتی که در الگوریتم های مرتبط با شناسایی چهره افراد وجود دارد تعداد محدود ژست های استفاده شده در الگوریتم های شناسایی میباشد. در این پایان نامه دو شیوه نوین شناسایی چهره مورد بررسی قرار گرفته است که در هر کدام سعی شده با تلفیق اطلاعات بافت و عمق یک چهره، تمامی ژست های یک فرد در حالت های متنوع مورد شناسایی قرار گیرد. در هر دو راهکار ابتدا نقاطی حاوی ویژگی کلیدی از تمامی تصاویر دو بعدی در پایگاه داده و تصویر مورد آزمایش که در منابع نور متفاوت برای هر ژست بدست آمدهاند با یک تکنیک کارآمد استخراج می شود و با تطبیق این ویژگیها و تعیین یک معیارتشخیص، تصویری به عنوان نتیجه به خروجی سیستم معرفی می شود. تصاویری که در این مرحله شناسایی نشوند به صورت خودکار به مرحله بعد منتقل میشوند، اطلاعات عمق آنها استخراج شده و بعد از تنظیم دوران و انتقال و دو مرحله هنجارسازی با هم مقایسه میشوند. در راهکار پیشنهادی اول هنجارسازی دوران با تکنیک icp صورت میگیرد و در راهکار پیشنهادی دوم با ارائه یک تکنیک جدید دوران در سه جهت مختلف مختصاتی در سه رویکرد مختلف محاسبه میشوند. نتیجه بدست آمده از آزمایشات برروی پایگاه داده استفاده شده در مقایسه با کارهای قبلی نشان دهنده قابلیت بالای این سیستم می باشد. در راهکار پیشنهادی کسب 96/88 درصد نرخ شناسایی کسب شده است و در راهکار پیشنهادی دوم این مقدار به 82/91 درصد بهبود یافته است.
معراج قادریان علیرضا بهراد
همه ما در زندگی روزانه با حرکتهایی روبرو می شویم که می توان آنرا به دو دسته پریودیک و غیرپریودیک تقسیم کرد. یکی از مهمترین حرکتهای پریودیک حرکتهای انسان است که شامل راه رفتن، دویدن، انواع حرکتهای ورزشی و غیره می باشد. در حوزه بینایی ماشین نیز آنالیز حرکتهای انسان مورد توجه بوده که از آن جمله می توان به واقعیت مجازی، نظارت های هوشمند، واسطه های ادراکی و بسیاری از شاخه های علوم مانند انیمیشن رایانه ای، مهندسی پزشکی، مطالعات زیستی و بیومتریک اشاره کرد. بر اساس مطالعات صورت گرفته روشهای زیادی برای آنالیز حرکتهای پریودیک وجود دارد که به صورت کلی می توان به دو دسته روشهای مبتنی بر فرکانس و روشهای مبتنی بر مکان و زمان اشاره کرد. در این پایان نامه هدف ما تشخیص و آنالیز حرکتهای پریودیک با تمرکز بر روی حرکتهای انسانی است که بر این اساس سه الگوریتم را در این پایان نامه پیشنهاد می دهیم. الگوریتم اول شناسایی حرکتهای پریودیک بر اساس فاصله هاسدورف و خود همبستگی می باشد که شباهت تک تصویرهای مختلف ویدئو محاسبه می شود. نتایج عملی بر روی پایگاه داده ای متشکل از 100 ویدئو تست شده و دقت الگوریتم 93 درصد ارزیابی می شود. بر خلاف الگوریتم اول که بر اساس اطلاعات دو بعدی تصاویر ویدئو صورت می گیرد، الگوریتم دوم و سوم بر اساس یک بعدی سازی تصاویر عمل می کند. بر این اساس الگوریتم دوم مبتنی بر فاصله بدست آمده از جعبه محاطی کانتور هدف تا اضلاع جعبه محاطی آن می باشد که با پیاده سازی این الگوریتم به دقت 97 درصد می رسیم. الگوریتم سوم مبتنی بر تبدیل رادون بوده که در دو زاویه مختلف بر روی نیمرخ هدف محاسبه می شود. این الگوریتم دقت 85 درصدی داشته ولی از لحاظ زمان اجرا سریع می باشد.
مهدی صالح پور علیرضا بهراد
موزائیک سازی فرایندی است که از به هم پیوستن چند تصویر متعلق به قسمت های مختلف یک منظره یا جسم خاصی استفاده کرده و تصویر کلی آن را ایجاد می کند. یکی از حالت های خاص موزائیک سازی، موزائیک سازی استریویی است. به طوری که در بینایی استریویی، از دو دوربینی که در موقعیت های خاصی از تصویر قرار دارند، استفاده کرده و عمق جسم را در تصویر به دست می آورند. در مرحله ی بعدی با استفاده از موزائیک سازی استریویی، ساختار سه بعدی آن را می توان ایجاد کرد. یکی از مهمترین بخش های این پروژه تعیین تطابق استریو است. بر این اساس از دو روش برای به دست آوردن تصویر سه بعدی استفاده کردیم. در روش اول توسط روش klt، ویژگی های متناظر را در دو تصویر پیدا کرده و در چند مرحله تصحیح نقاط تطبیق را انجام می دهیم. سپس توسط الگوریتم خاصی نقاط تطبیق اطراف نقاط مرکزی را یافته و تصویر سه بعدی آن را به دست می آوریم. توسط فیلتر فعال بازگشتی تصویر سه بعدی به دست آمده را هموار می کنیم. در روش دوم برای افزایش سرعت الگوریتم، ابتدا توسط روش خاصی نواحی چهره را استخراج کرده و توسط روش pca-sift نقاط کلیدی را یافته و آنها را تصحیح کردیم. نقاط باقیمانده را به روش دلانوی مثلث بندی می کنیم. با در اختیار داشتن نقاط تطبیق رئوس مثلث، توسط درون یابی مختصات تطبیق سایر نقاط را به دست می آوریم. سپس در داخل هر مثلث به روش فراقطعه بندی، مثلث را به قطعات مشابه تقسیم کرده و از تلفیق اطلاعات فراقطعه ها و درون یابی، مختصات دقیق نقطه ی تطبیق را به دست می آوریم. برای فرایند موزائیک سازی از روش تکرار تطبیق نزدیک ترین نقطه بهره برده و ماتریس چرخش و بردار جابجایی را برای دو مجموعه از داده به دست می آوریم. در نهایت توسط ماتریس چرخش و جابجایی، تصاویر سه بعدی را هم مرجع می کنیم. سپس نواحی همپوشانی را استخراج کرده و با اعمال الگوریتمی، گسستگی احتمالی را بین دو تصویر اصلاح می کنیم. الگوریتم را با دادگان استاندارد دانشگاه middlebury مورد بررسی قرار دادیم. نتایج نشانگر این است که الگوریتم فوق نسبت به الگوریتم های kim و baris از لحاظ سرعت و دقت از جایگاه مناسبی برخوردار است. همچنین توسط تصاویر سه بعدی مربوط به پایگاه داده ی frav3d که از نمای روبرو تهیه شدند، تصویر سه بعدی متوسط را به دست آورده و با استفاده از معیار خاصی، دقت الگوریتم مان را مورد ارزیابی قرار می دهیم. خطای بازسازی برای روش اول 85/10 و برای روش دوم 25/9 درصد به دست آمد.
سید محمد حسن صفوی پور محمد علی دوستاری
شناسایی چهره انسان از دیرباز یکی از مسایل مهم شناسایی بوده است که محققان روش های مختلفی را برای آن بیان نموده اند. به طور کلی شناسایی چهره در سه مرحله ی پیدا کردن چهره در تصویر، استخراج بردارهای ویژگی چهره و طبقه بندی بردارهای ویژگی به دست آمده، صورت می پذیرد. در فاز استخراج بردارهای ویژگی، الگوهای منحصر به فرد موجود در هر تصویر به دست می آید که در این مرحله، روش های شناسایی چهره را به سه دسته ی روش های مبتنی بر دید(ظاهر)، مبتنی بر مدل و مبتنی بر قالب می توان تقسیم نمود که در این پژوهش انواع روشهای شناسایی چهره بر مبنای ظاهر با روش پیشنهادی شناسایی چهره با شبکه عصبی ویولت مقایسه می گردد. در سالهای اخیر، ویولت ها به عنوان یک ابزار نیرومند و کارآمد در بسیاری از زمینه های پژوهشی بکار گرفته شده اند. با استفاده از ویولتها در شبکه عصبی، شبکه های عصبی ویولت پدید می آید که خواص مفید شبکه های عصبی را با خواص مکانیابی و استخراج شاخص ویولتها ترکیب می کند. در شبکه های عصبی ویولت به جای توابع سیگموید از ویولتها استفاده می شود که توانایی شبکه عصبی را در بسیاری از زمینه ها از جمله شناسایی چهره، تقویت می نماید. در روش پیشنهادی در این پژوهش جهت شناسایی چهره با شبکه عصبی ویولت، ابتدا با اعمال تبدیل ویولت دو بعدی بر روی تصاویر ورودی، ضرایب ویولت کلیه تصاویر دیتابیس را بدست آورده، چند مولفه بزرگ ویولتها را به عنوان ویژگی های اصلی هر تصویر به شبکه عصبی آموزش می دهیم. در شبکه عصبی استفاده شده نیز از ویولت ها به جای توابع سیگموید بهره می جوییم. نتایج نشان می دهد که بهترین روش های شناسایی چهره بر مبنای ظاهر برای دیتابیسorl روش غیر خطی klda و روش خطی fuzzy flda به ترتیب با درصد بازشناسی 100% و 95.5% می باشد و برای دیتابیس frav نیز این دو روش با درصد بازشناسی 98% و 95.625% بالانرین شناسایی را دارند. در روش پیشنهادی شناسایی چهره با شبکه عصبی ویولت، این روش دارای درصد بازشناسی 92.5% و 97.5% به ترتیب برای دیتابیس های orl و frav2d می باشد.
محسن عزیزآبادی علیرضا بهراد
امروزه پیاده سازی سخت افزاری الگوریتم های پردازش تصویر بسیار مورد توجه می باشد. نیاز به پردازش سریع و بی درنگ، پیاده سازی سخت افزاری الگوریتم های پردازش تصویر را اجتناب ناپذیر می کند. الگوریتم های ردیاب ستاره از جمله این الگوریتم ها می باشند که امروزه یکی از دقیق ترین روشها برای تعیین جهت (وضعیت) فضاپیماها در ماموریتهای فضایی می-باشند. الگوریتم ردیاب ستاره به روش مثلث سازی یکی از الگوریتم های متداول برای ردیاب ستاره مبتنی بر فاصله زاویه ای است. نیاز به افزایش سرعت در پیاده سازی الگوریتم ردیاب ستاره به روش مثلث سازی که عموما الگوریتم زمانبری است، ما را به سوی پیاده سازی سخت افزاری این الگوریتم سوق می دهد. هدف این پایان نامه طراحی معماری سخت افزاری الگوریتم ردیابی ستاره با استفاده از روش مثلث سازی است. در پیاده سازی سخت افزاری این الگوریتم به علت استفاده از تکنولوژی های موازی سازی و خط لوله ای، سرعت عملیات و پردازش به نحو قابل ملاحظه ای افزایش یافته و الگوریتم در زمان بسیار کوتاهتر نسبت به حالت نرم افزاری انجام می گیرد. این افزایش سرعت در تعیین جهت بی درنگ و با دقت بالای فضاپیما اهمیت خود را نشان می دهد. بر اساس بررسی های صورت گرفته، برای تصاویر آسمان با ابعاد 480×320 الگوریتم های نرم افزاری ردیاب ستاره در بهترین حالت سرعتی معادل 20-10 فریم در ثانیه را فراهم می کنند. حال آنکه پیاده سازی سخت افزاری الگوریتم ردیاب ستاره به روش مثلث سازی با استفاده از معماری پیشنهادی نشان می دهد که سخت افزار حاصله با خطای کمتر از 6/0 پیکسل نسبت به الگوریتم نرم افزاری سرعتی معادل 54/808 فریم در ثانیه در تکنولوژی cmos 65nm و 73/258 فریم در ثانیه در تکنولوژی cmos 180nm را فراهم می کند.
الهه سادات سادات علیرضا بهراد
یکی از مهم ترین ابزارها در سیستم ناوبری مخصوصاً در مأموریت های فضایی، سیستم تعیین وضعیت است. روش های متعددی برای تعیین وضعیت وجود دارد، که متداول ترین آن ها، ردیاب ستاره است. روش های دیگر شامل ژیروسکوپ، ردیاب خورشید ، سنسورهای میدان مغناطیسی ، سنسورهایی برای تعیین افق زمین و gps می باشند که دقت آن ها کمتر از یک ردیاب ستاره است. به همین دلیل ردیاب ستاره به طور گسترده ای در تعیین جهت در مأموریت های فضایی و ماهواره ها استفاده می شود. ردیاب های ستاره سنسورهایی هستند که با استفاده از تصاویر نواحی مختلف آسمان و کاتالوگ ستاره ها، ستاره های موجود در میدان دید تصویر ردیاب ستاره را شناسایی می کنند. هرگاه ردیاب ستاره بتواند حداقل سه ستاره را شناسایی کند می تواند وضعیت دوربین سیستم را تعیین کند که این وضعیت می تواند به وضعیت ماهواره که ردیاب ستاره بر روی آن قرار دارد، تبدیل شود. در این پایان نامه دو الگوریتم جدید برای تعیین جهت با استفاده از الگوریتم ردیاب ستاره پیشنهاد می شود. در این الگوریتم ها از ویژگی هایی که نسبت به چرخش حساس نیستند استفاده شده است. هر دو الگوریتم پیشنهادی از اطلاعات کلیه ستاره های برای تطبیق الگو استفاده می کنند. الگوریتم اول از درجه عضویت فازی و ویژگی های مبتنی بر تبدیل فوریه استفاده شده است و الگوریتم دوم جستجوی سریع و روش مبتنی بر رأی گیری را به کار می گیرد. نرخ شناسایی صحیح این روش ها بیشتر از 5/99 درصد است که به خوبی کارایی آن ها را نشان می دهد. نتایج پیاده سازی این روش ها نشان می دهد که نسبت به نویز مقاوم هستند که یکی از مزیت های این الگوریتم ها است.
محمد خدادادی آزادبنی علیرضا بهراد
استخراج متن در تصاویر حاوی متن کاربردهای زیادی همچون تشخیص پلاک اتومبیل، علائم جاده، بایگانی اسناد و... دارد. هدف ما در این پایان نامه حذف نمودن متن از تصویر و بازسازی تصویر اولیه است بطوریکه محل متن در تصویر احساس نشود. بدین منظور ابتدا محل های متن شناسایی می شوند بعد بطور دقیق تر محل کاراکترها یا اجزای متصل متنی مشخص می شوند. در روش های ترمیم، سعی می شود تا آنجا که ممکن است از نواحی سالم تصویر، الگوبرداری مناسبی برای پر کردن نواحی آسیب دیده داشته باشد. بیشتر روشهای ترمیم تصویر از الگوی معینی استفاده می کنند و عمده تفاوتشان، ابتکار در نحوه نمونه گیری از نواحی سالم تصویر و انتقال به ناحیه آسیب دیده است. در این پایان نامه دو روش متفاوت برای استخراج ناحیه های متنی و یک روش ترمیم مبتنی بر ساختار و بافت پیشنهادی برای بازسازی آنها پیشنهاد شده است. از آنجاییکه بایستی ناحیه های متنی را در تصاویر ویدئویی حذف و تصویر را بازسازی کنیم، هدفمان کمینه کردن خطای الگوریتم و بالا بردن سرعت پردازش می باشد. اولین روش آشکارسازی و استخراج بر پایه اصول اولیه ویژگی متن بنا شده است در حالیکه در دومین روش، از ویژگی های بیشتر و ماشین یادگیر کمک گرفته شده است و همچنین دقت و سرعت را بهبود داده ایم. در واقع در روش اول، مکان یابی متن به کمک ویژگی نظم و پیوستگی در متن و اعمال الگوریتم افکنش انجام می گیرد. برای استخراج دقیق متن، با فرض تک رنگ بودن متن در زیرنویس تصویر، ابتدا رنگ پس زمینه را از کناره مرزی بلوک متن حدس می زنیم و سپس از رنگهای بلوک متن آن رنگی که فاصله بیشتری از رنگ پس زمینه دارد و تعداد اعضایش بیشتر است به عنوان رنگ متن انتخاب می شود. حال با اعمال حدآستانه مناسب پیکسلهایی که در شعاع همسایگی آن رنگ قرار دارند محل متن را نشان می دهند و در نهایت برای حذف نویز و افزایش دقت، عناصر کوچک را حذف می کنیم. در روش دوم برای مکان یابی متن، برای تعیین کاندیدهای اولیه بلوک متن، علاوه بر در نظر گرفتن این ویژگی ها از ویژگی گوشه و کنتراست در محل متن نیز استفاده می کنیم. در نهایت ویژگی هایی همچون زاویه، واریانس و کشیدگی افکنش، همبستگی متقابل و آنتروپی بر ماتریس هم وقوعی و... را از بلوک های یافت شده استخراج می کنیم و به کمک ماشین یادگیر بلوک متن از بلوک غیر متن تمیز می شود. همچنین برای استخراج محل متن در بلوک متن از طبقه بندی kmeans برای یافتن رنگ متن کمک می گیریم. بر خلاف روش اول روش دوم در یک مرحله بر هر سه کانال رنگ اعمال می شود، بنابراین سرعت و دقت در روش دوم بهبود می یابد.
عطااله میرزایی علیرضا بهراد
آنالیز حرکت همواره از سوی محققان بینایی ماشین مورد توجه خاصی قرار دارد. بطوریکه در زمینه های مختلفی همانند آنالیز عملکرد ورزشی، توانبخشی، اهداف نظارتی، واسط انسان و ماشین، پزشکی، پویانمایی و ... کاربرد دارد. بعنوان مثال در زمینه ی آنالیز عملکرد ورزشی شرکت های سازنده ی تجهیزات ورزشی مثل چوب بیسبال و چوب هاکی با استفاده از آنالیز ویدئویی شدت ضربه ی وارده به پرتابه را بررسی می کنند. در زمینه ی توانبخشی، ردیابی مسیر حرکت مفاصل شخص معلول و تحلیل آن، اطلاعات مهم و مفیدی را در مورد تشخیص های پزشکی و درمانی در اختیار پزشک معالج قرار می دهد. همچنین امروزه تجزیه و تحلیل نحوه ی راه رفتن انسان، به عنوان معیاری برای تشخیص هویت شخص استفاده می شود. از جمله اهداف نظارتی که می توان به آن اشاره کرد، کنترل ورود و خروج و همین طور کنترل حرکات افراد در اماکن حساس و امنیتی همچون فرودگاهها و مناطق نظامی، می باشد. اکنون استفاده از دوربینهای نظارتی که خروجی آنها در روی نوارهای ویدئویی ضبط می شود، رایج است. این ویدئوها بعد از وقوع حادثه، برای اثبات ادعا در دادگاهها استفاده می شوند. اگر تجزیه و تحلیل اطلاعات نظارتی، بلادرنگ انجام شود، به محض وقوع حادثه ماموران امنیتی مطلع می گردند و یا اینکه هشدارهای مورد نیاز به فرد خاطی داده می شود تا از وقوع حادثه جلوگیری شود. امروزه از تکنیک های ردیابی و تشخیص اندام های بدن در تصاویر ویدئویی به منظور تشخیص بلادرنگ استفاده می شود. در این تکنیک ها، الگوریتم ردیابی به عنوان عمل ردیابی دو بعدی مطرح می شود. سیستم های نظارتی تکنیکهای ردیابی بسیار قوی بلادرنگ را ارایه می دهند که سریعا قادر هستند رفتارهای مشکوک را تشخیص دهند. این تکنیک ها باید آنقدر قوی عمل کنند که در تغییرات ناگهانی نور و زمینه متحرک به ویژه در زمانی که عملیات در فضای بیرون انجام می شود، دچار اشتباه نشوند و شیء را به درستی تشخیص دهند. یکی دیگر از اهداف استفاده از سیستمهای ردیابی در تشخیص و بازسازی حرکت سه بعدی بدن انسان و اشیاء، ایجاد ارتباط بین کاربر و محیط مجازی به صورت بلادرنگ است. زیرا تعامل بین کاربر و محیط مجازی دقیق بوده و ابزار ارتباطی کامپیوتری قبل، مثل صفحه کلید نمی تواند همه حرکات سه بعدی کاربر را با دقت لازم به رایانه منتقل نماید. تجزیه و تحلیل حرکات بدن انسان، معمولا برای کنترل محیط های مجازی و فرامین ورودی استفاده می شود. سیستم هایی که اعمال انسان را برای تعامل انسان و ماشین دریافت می کنند و سیستم هایی که محیطهای واقعیت مجازی و شخصیت های مجازی را با حرکات انسان کنترل می نمایند، نیاز به تعاملات سریع و سیستم های تفسیر حرکات به صورت بلادرنگ دارند. از حالتهای بدن و نحوه حرکت مثل راه رفتن یا دویدن، حالتهای صورت و یا لبها می توان برای فرمان دادن به رایانه استفاده نمود. چنین سیستم هایی باید حضور فرد در محیط را شناسایی کرده و رفتارش را تفسیر نمایند. در حوزه ی پزشکی، از جمله طرح هایی که در این زمینه اجرا شده است، جراحی بیمار توسط پزشک جراح بدون شکافتن محل مورد نظر است. بصورتیکه با اعمال دو شکاف باریک در محل مورد نظر برای ورود ابزار پزشک و شکاف سوم برای ورود دوربین، توانسته اند با استفاده از دوربین یک محیط گرافیکی و بصری را در اختیار پزشک جراح قرار داده و پزشک تنها با ملاحظه ی صفحه ی نمایشگر اقدام به جراحی نماید. در زمینه ی پویانمایی، یکی از مهمترین کاربردهای بازسازی حرکت اعضای بدن، ساخت انیمیشن و یا ساخت شخصیت ها در سیستم های واقعیت مجازی است. واقعیت مجازی با به کارگیری تکنولوژی های جدید، یک محیط شبیه سازی شده ی سه بعدی ایجاد می کند که کاربر می تواند با اشیاء در آن محیط به مانند اشیای دنیای واقعی ارتباط برقرار کند. در ساخت اینگونه محیط ها، به دست آوردن مدلهای انیمیشنی بدن انسان که به واقعیت نزدیک باشد بسیار مورد توجه است. لذا برای ساخت شخصیت های مجازی نیاز است که مدل های گرافیکی به همراه حرکات انسان ترکیب شود تا شخصیت ایجاد شده به واقعیت نزدیک باشد.
هانیه سادات میرصانعی علیرضا بهراد
ردیابی حرکت در بینایی رایانه یکی از مباحث بسیار مهم است که کاربردهای زیادی در زمینه های پزشکی، نظامی، نظارتی و صنعتی دارد. منظور از ردیابی اهداف، تعقیب اهداف در تصاویر ویدیویی، با استفاده از اطلاعات هدف می باشد. بی درنگ بودن ردیابی در کاربردهای نظارتی و نظامی اهمیت ویژه ای دارد. ردیابی مبتنی بر رنگ در ردیابی های بی درنگ سهم بسزایی دارد، زیرا برای استخراج این ویژگی نیازی به الگوریتم ها و محاسبات پیچیده ای وجود ندارد. همچنین این ویژگی به دلیل اینکه مستقل از تغییرات هندسی چرخش، انتقال و تغییر اندازه شی است، دارای پایداری مناسب در برابر این گونه تغییرات و حتی انسداد های جزیی است. ساده ترین ویژگی برای توصیف رنگ یک تصویر، هیستوگرام رنگ آن است. اما این ویژگی ساده دارای معایبی است. برای رفع آن سعی می شود که اطلاعات مربوط به ویژگی های مکانی قسمت های مختلف هدف در هیستوگرام هدف لحاظ شود و یا از هیستوگرام دیگر ویژگی ها نظیر بافت بهره برده شود. عملگرهای شکل شناسی اخیراٌ در الگوریتم های مختلفی از جمله ناحیه بندی و آشکارسازی نواحی، در تصاویر ماهواره ای از راه دور استفاده زیادی می شود. با توجه به اینکه با تغییر اندازه عناصر ساختاری می توان ویژگی های استخراج شده از این عملگرها را نسبت به تغییر مقیاس مقاوم ساخت، در این پایان نامه این ایده معرفی شد، که از خروجی این عملگرها، ویژگی های مناسبی برای ردیابی استخراج شود. در این پایان نامه برای استخراج اطلاعات بافت هدف، عملگرهای شکل شناسی به کار گرفته شده و برای افزایش پایداری، دقت و کارایی الگوریتم ردیابی مورد استفاده قرار گرفته شده است. در ادامه علاوه بر معرفی این ویژگی بافت، روشی جدید از ترکیب این ویژگی بافت با ویژگی رنگ به منظور ردیابی با الگوریتم جابجایی میانگین در اهداف دارای بافت ارائه شده است که، قادر به تخمین اندازه هدف باشد. نتایج بدست آمده از آزمایشات نشان گر این است که این روش در مقایسه با دیگر روش جابجایی میانگین دارای عملکرد مناسب تری در صحنه هایی که اهداف دارای بافت می باشد و دارای تغییرات در اندازه ابعادشان می باشد و توانسته تا حدود زیادی دقت الگوریتم را نسبت به الگوریتم جابجایی میانگین، بهبود بخشد.
محمدعلی اعظمیان جزی احمد معتمدی
پردازش تصویر، یکی از علوم نسبتاً نوین است که جایگاه بسیار ویژه ای در تمامی فنون پیدا کرده است. در این علم، تغییر مشخصات یک تصویر به مقادیر مورد نظر و نیز استخراج ویژگی های خاص و اطلاعات مشخص از تصاویر مورد بحث قرار می گیرد. با توجه به اهمیت بسیار بالای تصویر در انتقال اطلاعات، نقش علم پردازش تصویر شفاف تر می شود. الگوریتم های پردازش تصویر، عموماً الگوریتم های پیچیده و حجیمی هستند. چرا که اصولاً خود تصویر دارای حجم زیادی از اطلاعات است و با توجه به اینکه غالباً تمامی داده های تصویر در الگوریتم ها مورد استفاده قرار می گیرند، حجم عملیات زیاد می شود. از سوی دیگر سرعت پردازش تصاویر، عموماً یکی از پارامترهای بسیار مهم و حیاتی در این زمینه است. در بسیاری از موارد، ضروری است الگوریتم های پردازش تصویر به صورت بلادرنگ اجرا شود. بنابراین سیستم هایی در این زمینه مورد استفاده قرار می گیرد، که از سرعت بالایی برخوردار باشد. روش های متنوعی برای پیاده سازی سیستم های پردازش تصویر وجود دارد. از جمله این روش ها می توان به استفاده از تراشه dsp، نرم افزارهای کامپیوتری و fpga اشاره کرد. هر یک از روش ها محاسن و معایبی دارد. در این پروژه، روش های مختلف مورد بررسی قرار می گیرند و fpga به عنوان یکی از روش های مفید و کارآمد به منظور پیاده سازی سیستم مورد استفاده قرار می گیرد. الگوریتم های تصویری انتخاب شده، ابتدا با اعمال تغییراتی به الگوریتم های سخت افزاری تبدیل می شوند و سپس بهینه سازی های لازم بر روی آن ها انجام می پذیرد. سپس نتایج به دست آمده در نرم افزارهای مخصوص مدارات منطقی پیاده سازی و شبیه سازی می شوند و در نهایت الگوریتم به دست آمده بر روی یک برد fpga قرار می گیرد. پیاده سازی سیستم به روش های مختلف نرم افزاری و سخت افزاری نشان داد که سرعت پردازش سیستم های سخت افزاری شامل fpga، بسیار بیشتر از سیستم های مشابه نرم افزاری هستند. بنابراین در سیستم هایی که سرعت پردازش در آن ها دارای اهمیت است، یکی از بهترین روش ها، استفاده از سیستم های سخت افزاری مبتنی بر این تراشه است.
مرتضی نصیری علیرضا بهراد
تخمین مکان و موقعیّت سه بعدی بازیکنان یکی از بحث برانگیزترین موضوعات در تحلیل ویدئویی بازی فوتبال است. ویدئوهای در دسترس از بازی فوتبال معمولاً با دوربین های کالیبره نشده تهیّه می شوند؛ بنابراین کالیبراسیون دوربین و تخمین مکان آن، گام اوّل در محاسبه موقعیّت سه بعدی بازیکن ها است. برای کالیبراسیون معمولاً به تعدادی نقطه از دنیای واقعی و متناظر تصویری آن نقاط نیاز داریم. استخراج نقاط و تعیین موقعیّت سه بعدی آنها عموماً به صورت دستی صورت می گیرد یا از الگوهای شطرنجی از پیش طراحی شده استفاده می شود که استفاده آنها برای کالیبراسیون تصاویر موجود فوتبال امکان پذیر نمی باشد. در این پایان نامه الگوریتم جدیدی برای کالیبراسیون دوربین و استخراج اطّلاعات سه بعدی زمین فوتبال ارائه می شود. اوّلین مرحله در الگوریتم پیشنهادی، استخراج نقاط مشخص در زمین فوتبال به صورت خودکار است. در روش پیشنهادی با استفاده از روش آشکارسازی رنگ، ناحیه چمن زمین استخراج و برحسب شکل آن تعیین می-گردد که کدام ناحیه از زمین توسّط دوربین در حال مشاهده است. سپس با استخراج خطوط زمین نقاط مشخّص زمین استخراج می شود. در مرحله دوم از الگوریتم پیشنهادی، یک روش جدید برای کالیبراسیون دوربین و تخمین مکان آن ارائه می شود. این روش از هم صفحه بودن نقاط در زمین فوتبال و مکان های مشخّص آن ها برای کالیبراسیون دوربین استفاده می کند. ما یک مدل فرم بسته برای محاسبه پارامترهای مختلف دوربین ارائه می دهیم. الگوریتم پیشنهادشده با داده های واقعی و شبیه سازی شده که با استفاده از نرم افزار opengl ایجاد شده، تست شده و با الگوریتم های مشابه مقایسه گردید. نتایج آزمایشی نشاندهنده کارایی بالای الگوریتم پیشنهادی است.
حسن توکلی علیرضا بهراد
امروزه پیاده سازی سخت افزاری الگوریتم های پردازش تصویر بسیار مورد توجه است. نیاز به پردازش سریع و بی درنگ، پیاده سازی سخت افزاری الگوریتم های پردازش تصویر را اجتناب ناپذیر می کند. الگوریتم های تخمین حرکت از جمله این الگوریتم ها می باشند که امروزه در کاربردهای متفاوتی از جمله تخمین حرکت اجسام، ردیابی، فشرده سازی و تشخیص ژست از آنها استفاده می شود. الگوریتم تخمین حرکت با روش مش فعال یکی از الگوریتم های متداول برای تخمین حرکت است. نیاز به افزایش سرعت در پیاده سازی الگوریتم تخمین حرکت با روش مش فعال که عموما الگوریتم زمانبری است، ما را به سوی پیاده سازی سخت افزاری این الگوریتم سوق می دهد. هدف این پایان نامه طراحی معماری سخت افزاری الگوریتم تخمین حرکت با استفاده از روش مش فعال است. در پیاده سازی سخت افزاری این الگوریتم به علت استفاده از تکنولوژی های موازی سازی و خط لوله ای، سرعت عملیات و پردازش به نحو قابل ملاحظه ای افزایش یافته و الگوریتم در زمان بسیار کوتاهتر نسبت به حالت نرم افزاری اجرا می شود. بر اساس بررسی های صورت گرفته، برای تصاویر ویدیو نمونه با ابعاد 480×640 الگوریتم های نرم افزاری مش فعال در بهترین حالت سرعتی معادل 10-5 فریم در ثانیه را فراهم می کنند. حال آنکه پیاده سازی سخت افزاری الگوریتم تخیمن حرکت با روش مش فعال با استفاده از معماری پیشنهادی نشان می دهد که سخت افزار حاصله با خطای برابر صفر پیکسل درتخمین بردار حرکت نسبت به حالت نرم افزاری نسبت به الگوریتم نرم افزاری سرعتی تقریبا معادل 270 فریم در ثانیه در تکنولوژی cmos 180nm را فراهم می کند.
امیر بابائیان احمد معتمدی
هدف اصلی در این پایان نامه ارائه یک چهارچوب جدید برای ردیابی موثر انواع متفاوتی از اهداف متحرک است. در اینجا سعی خواهیم کرد با استفاده از یک الگوریتم دو مرحله ای و با بهره گیری از ویژگی های بدست آمده از هدف، بالاخص ویژگی های موجود در رنگ هدف، به بهبود نتایج آشکار سازی و ردیابی کمک کنیم. ما نشان می دهیم که با اعمال یک ماسک مکانی بر روی هدف که دارای یک هسته ایزوتروپیک می باشد و سپس تعریف یک تابع شباهت بین هدف در فریم فعلی و کاندیداهای هدف در فریم بعدی، می توان به جستجوی موثر هدف در فریم بعدی دست زد. در حقیقت با این روش به جای جستجوی فراگیر هدف در فریم بعدی با استفاده از یک روش جستجوی موثر که زمان کمتری را نیاز دارد مکان هدف در فریم بعدی را تخمین می زنیم. میزان شباهت هدف در فریم جاری و کاندیداهای هدف در فریم بعدی با استفاده از معیار باتاچاریا محاسبه می شود. در اینجا در حقیقت ضریب باتاچاریا درجه همبستگی هدف و کاندیداهای آن را مشخص می کند. حال بعد از تخمین جایگاه هدف در فریم بعدی با استفاده از یک طبقه بندی کننده دو کلاسه که در این جا ماشین های بردار پشتیبان می باشد مرزهای دقیق هدف را بدست می آوریم. در این مرحله یک بردار ویژگی از پیکسلهای موجود در تصویر مرجع تشکیل داده و طبقه بندی کنند را با استفاده از این بردار به صورتی که پیکسلهای متعلق به هدف در یک کلاس و پیکسلهای متعلق به پس زمینه در کلاس دیگر قرار گیرند، آموزش می دهیم. سپس در فریم جدید، به کمک این طبقه بندی کننده پیکسلهای موجود د رداخل بیضی با ابعاد 2؟ برابر بیضی شامل هدف از الگوریتم تخمین مدل حرکتی بدست آمده است را تست می نماییم. با این روش خطاهای ناشی از مرحله اول تصحیح شده و مرزهای دقیق هدف در هر فریم آشکار خواهد شد. به علاوه بعد از هر چند فریم می توان ورودی طبقه بندی کننده را به روز کرده و دقت الگوریتم ردیابی را افزایش داد. ما در آزمایش هایمان نشان خواهیم داد که الگوریتم پیشنهادی در مقابل حرکت دوربین، پوشیدگی جزئی هدف، شلوغی پس زمینه و تغییرات در ابعاد و ظاهر هدف توانمند است و موفق به ردیابی موثر هدف می شود.
مجید انصاری اصل علیرضا بهراد
رنگ پوست از مهم¬ترین علایمی است که متخصصان طب سنتی ایران برای تعیین مزاج و تشخیص بیماری استفاده می¬کنند. تعیین رنگ پوست توسط متخصصان طب سنتی به صورت کاملا ذهنی انجام می¬شود، بنابراین مشمول خطای انسانی است. در این پایان¬نامه روشی پیشنهاد داده¬شده است که بتوان رنگ پوست را به¬راحتی و بدون نیاز به تجهیزات کالیبره شده، تصحیح رنگ کرد. از سویی در طب سنتی ایران دسته¬بندی استانداردی برای رنگ پوست وجود دارد. در قسمت دوم این پایان¬نامه، پس از جمع¬آوری یک پایگاه داده، با استفاده از طبقه¬بندی کننده¬ی ماشین بردار پشتیبان، یک طبقه¬بندی روی رنگ پوست مطابق گروه¬های رنگی طب سنتی ایران انجام شده که از میانگین رنگ پوست در فضاهای مختلف رنگی به عنوان ویژگی استفاده شده است. سپس بهترین فضاهای رنگی به عنوان ویژگی¬های برتر برای طبقه¬بندی رنگ پوست معرفی می شوند. در این پایان نامه، ما به بررسی استخراج اطلاعات بیشتر از تصاویر برای حصول بازتاب و تابش پرداختیم. ما نشان دادیم که رنگ یک جسم را می¬توان از تصاویرrgb استاندارد که با دوربین غیر کالیبره و تحت شرایط کنترل نشده¬ی تابش اخذ شده¬اند، بازیابی کرد. برای این کار ما از یک چارت رنگی به عنوان مرجع تصحیح رنگ استفاده کردیم. رنگ این خانه¬ها باید نزدیک به رنگ جسمی باشد که قرار است تعیین رنگ شود. در الگوریتم پیشنهادی، در مرحله اول برای تعیین دقیق و مستقل از تابش رنگ پوست، عمل کالیبراسیون رنگی صورت می گیرد. برای این منظور از یک شبکه مشبک (چارت) رنگی استفاده می شود. بدین صورت که باتعیین نواحی رنگی چارت و استفاده از یک معیار مناسب عمل تصحیح صورت می گیرد. سپس اندازه گیری و تعیین رنگ با استفاده از اطلاعات تصحیح شده صورت می گیرد. در مرحله دوم از الگوریتم پیشنهادی، از یک طبقه بند ماشین بردار پشتیبان برای تعیین نوع رنگ پوست مبتنی بر معیارهای طب سنتی استفاده می شود. برای آموزش طبقه بند ماشین بردار پشتیبان از یک پایگاه داده جمع آوری شده به همراه نظر متخصص طب سنتی در مورد رنگ پوست داوطلبان استفاده شده است. الگوریتم پیشنهادی با استفاده از فضاهای رنگی مختلف به عنوان ویژگی آزمایش شد و فضای ycbcrبا 81 % تشخیص درست، بیش¬ترین موفقیت را در طبقه¬بندی حاصل کرد.
بهاره فدائی علیرضا بهراد
این پایاننامه دو روش ساده و موثر را برای بازشناسی شیوهی راه رفتن پیشنهاد میکند. در روش همبستگی دو بعدی حاصل جمع کلیهی فریم-های هر توالی تصویر در یک ماتریس ذخیره میشود. همبستگی دو بعدی این ماتریسها معیار شباهت آنها میباشد. در روش تئوری svd در ادامهی روش همبستگی دو بعدی، برای کاهش ابعاد فضای مشخصهی ورودی از تبدیل فضای ویژه مبتنی بر pca استفاده میکنیم. برای بهبود راندمان یک ویژگی مناسب دیگر نیز میافزاییم. این ویژگی در یک توالی تصویر همبستگی هر فریم با فریم اول میباشد. با افزودن ویژگی همبستگی زمانی مشخصههای حرکتی افراد تلفیقی از مشخصههای دینامیکی و استاتیکی شیوهی راه رفتن آنها خواهد بود. همبستگی بین بردارهای مشخصه معیار شباهت آنها خواهد بود.
وحید عزتی چهارقلعه علیرضا بهراد
لب خوانی از سالیان پیش یکی از موضوعات و ابزارهای مهم برای افراد کم شنوا و ناشنوا بوده تا این افراد درک مناسبی نسبت به گفته های شخصی که در حال صحبت کردن است داشته باشند. اخیر? لب خوانی با استفاده از تصاویر ویدیویی (تصاویر متوالی) یکی از موضوعات مورد علاقه محققان بوده که طی چند دهه اخیر تحقیقات گسترده ای راجع به این مساله انجام داده و مقاله های متعددی در این باره چاپ نموده اند، چرا که استفاده از تصاویر ویدیویی از حرکات لب و دهان و اطلاعات حاصل از آن در شناسایی و تشخیص گفتار تحت شرایط صوتی نابهنجار و نویزی کمک موثری به شخص می کند. درحالت کلی گرچه نرخ شناسایی و تشخیص گفتار، با سیستم های لب خوانی پایین است ولی در چنین محیطهایی استفاده از اطلاعات تصویری به مراتب بهتر از اطلاعات صوتی می باشد. و بدین دلیل تلاشهای فراوانی برای بهبود عملکرد چنین سیستمهایی صورت گرفته است. هدف این پایان نامه معرفی یک سیستم لب خوانی میتنی بر پردازش تصویر برای کلمات فارسی می باشد. مراحل اصلی یک سیستم لب خوانی بصورت زیر می باشد: 1- بدست آوردن ناحیه لب از هر فریم ویدیویی 2- استخراج ویژگی های مهم از ناحیه لب 3- شناسایی کلمات بیان شده توسط هر گوینده با استفاده از پردازش زمانی ویژگیها از آنجا که مهمترین بخش یک سیستم لب خوانی بدست آوردن ویژگی های مناسب برای تشخیص گفتار است و این امر جز با استخراج مناسب لب از ناحیه چهره فرد میسر نخواهد شد بنابراین ما در این تحقیق از یک روش جدیدی برای جداسازی ناحیه لب از ناحیه پوست صورت شخص استفاده کرده ایم. در روش ارایه شده برای لب خوانی در این تحقیق ابتدا روشی برای جداسازی بهتر ناحیه لب از ناحیه پوست ارایه می شود سپس تصویر بدست آمده به عنوان بردار ویژگی به الگوریتم فازی جهت خوشه بندی صورت به دو ناحیه لب و پوست داده می شود. سپس با استفاده از یک آستانه گیری تطبیقی ناحیه لب را جدا ساخته و برای بدست آوردن پیرامون لب، مرز ناحیه لب را بدست می آوریم. اما از آنجا که مرز بدست آمده بدرستی بر روی مرز لب تصویر اصلی تطبیق نمی شود از مدل پیرامون فعال جهت حل این مشکل استفاده می کنیم. در مرحله بعد، از چندین ویژگی مانند ویژگی های هندسی لب به عنوان بردار ویژگی استفاده می کنیم و به عنوان ورودی به یکی از روشهای طبقه بندی از جمله شبکه عصبی داده و در نهایت شناسایی لازم انجام خواهد گرفت.