نام پژوهشگر: سبلان دانشور
سعیده قنبری آذر میر هادی سید عربی
حرکات بدن به مجموعه حرکات معنی داری که شامل حرکت فیزیکی انگشت ها، دست ها، بازوها، سر، صورت و یا بدن هست، گفته می شود. این حرکات دو هدف عمده را دنبال می کنند: 1- انتقال اطلاعات. 2- ارتباط با محیط اطراف. از جمله کاربردهای تشخیص حرکات بدن کنترل یک وسیله الکترونیکی با حرکات بدن، ارتباط بین روبات و انسان و تشخیص زبان اشاره است. زبان اشاره اساسی ترین وسیله ارتباطی افراد ناشنواست. هنگام ارتباط یک انسان معمولی با یک شخص ناشنوا، معمولا به یک مترجم برای ترجمه زبان اشاره به زبان گفتاری و برعکس نیاز است. هدف تشخیص زبان اشاره تبدیل زبان اشاره به یک نوشته است، به طوری که بتوان ارتباط بین افراد ناشنوا و شنوا را ساده تر نمود. در زمینه تشخیص حالات پویای زبان اشاره فارسی تاکنون تلاش چندانی صورت نگرفته است. در این پایان نامه سیستمی بر پایه مدل پنهان مارکوف برای تشخیص 20 حرکت پویای زبان اشاره فارسی پیشنهاد شده است. از آنجایی که در این زمینه پایگاه داده استانداردی وجود ندارد، مجموعه ی بزرگی از ویدیوهای 20 کلمه اشاره فارسی جمع آوری شده است. برای تشخیص نواحی دست در فریم های ویدیو از روش رشد ناحیه استفاده شده است. مسیر حرکت به دست آمده از این ویدیوها به 30 زیرمسیر تقسیم شده است. از اسپلاین های درجه سه برای درون یابی این مسیر حرکت استفاده شده است. پارامترهای اسپلاین هر یک از این 30 زیرمسیر به عنوان بردار ویژگی استخراج شده است. سرانجام یک طبقه بندی بر اساس مدل پنهان مارکوف برای تشخیص 20 کلمه زبان اشاره فارسی پیاده سازی شده است. چهار نوع ارزیابی برای آزمایش کارایی سیستم پیشنهادی صورت گرفته است. در نهایت نرخ تشخیص متوسط 90% به دست آمده است.
محمد غلامی هارونیه مسعود گراوانچی زاده
سیگنال گفتار یکی از واسط های ارتباطی میان انسان هاست که انواع مختلفی از اطلاعات را در خود دارد. بسته به نوع این اطلاعات کاربردهای مختلفی برای آن بوجود آمده است، که از آن جمله میتوان به تشخیص گوینده، گفتار، احساس، لهجه و زبان اشاره کرد. یکی از وظایف سیستم های تشخیص گوینده ، تصدیق هویت کاربر می باشد که هدف آن تایید یا رد گوینده مدعی به عنوان فرد مورد نظر سیستم است. اگر محتوای صحبت شخص گوینده در تصدیق، مورد توجه نباشد عمل تشخیص مستقل از متن صورت می گیرد، که به دلیل کارایی بالا و صرف زمان و هزیته کمتر نسبت به حالت وابسته به متن، بیشتر در کاربردهای عملی مورد استفاده قرار گرفته است. استخراج ویژگی، مدل سازی و تطبیق الگو سه بخش مهم یک سیستم تصدیق هویت گوینده مستقل از متن را تشکیل می دهند. در این میان، بلوک استخراج ویژگی به دلیل تنوع مدل سازی های موجود از سیستم شنوایی و همچنین، روش های مختلف کاهش اثر اعوجاجِ در محیط های واقعی، از اهمیت بالایی در امرِ کاهش خطای چنین سیستم هایی برخوردار است. از این رو در این پایان نامه، تحقیق و مطالعه بر روی تعمیم ویژگی های الگوریتم های متداول استخراج ویژگی است. نتایج این مطالعه معرفی سه ویژگی جدید به نامهای ضرایب کپسترال نرمالیزه شده توان مبتنی بر طیف چند پنجرهای (multitaper-pncc)، ضرایب کپسترال نرمالیزه شده توان اصلاح شده (mpncc)، و ضرایب کپسترال نرمالیزه شده مبتنی بر تبدیل شنوایی (cfpncc) پیشنهاد گردیده است. ویژگی پیشنهادی اول که multitaper pncc نام دارد، از تغییر واحد تبدیل فوریه زمان کوتاه در الگوریتم استخراج pncc به تخمین طیف چندپنجره ای بدست می آید. ویژگی پیشنهادی دوم با عنوان mpncc علاوه بر بهره گیری از این تخمین، با اعمال فیلتر پیش تاکید در هر فریم از سیگنال گفتار به استفاده توام از اطلاعات فرکانس های بالا و پایین می پردازد. عنوان آخرین الگوریتم پیشنهادی، cfpncc است که با تغییر فیلتربانک گاماتون به (فیلتربانک) تبدیل شنوایی ارائه شده توسط li و همکاران به دست می آید. به طور معمول بازده سیستمهای تصدیق هویت که بر اساس داده های تمیز آموزش داده می شوند، به هنگام بکارگیری در شرایط نویزی، به طور قابل توجهی کاهش می یابد. ویژگی های پیشنهادی، در چنین شرایطی (شرایط عدم انطباق آموزش و تست)، مقاومت زیادی را از خود نشان می دهند. همانگونه که در نتایج شبیه سازی های انجام شده در دو سیستم پرکاربرد مبتنی بر مدل مخلوط گوسی و ivector نشان داده شده است، ضرایب پیشنهادی multitaper pncc و mpncc در نویزهای غیر ایستان، و cfpncc در حضور نویز ایستان (برای مثال، سفید) نرخ خطای کمتری را نسبت به سایر ویژگی های متداول کارایی بالاتری را دارا هستند.
سبلان دانشور محمدحسن قاسمیان یزدی
چکیده ندارد.