نام پژوهشگر: محمد حمید درودچی
محمد حمید درودچی فریبرز سبحان منش
بازشناسی گوینده به تشخیص افراد مختلف از طریق صدای آن ها گفته می شود. سامانه هایی بازشناسی گوینده طی سه مرحله استخراج ویژگی، محاسبه امتیاز مدل و تصمیم گیری بر اساس امتیاز حاصل، گوینده های متفاوت را از یکدیگر جدا می کنند. مهمترین چالش چنین سامانه هایی تغییر شرایط ضبط گوینده می باشد که به مسأله متغیر بودن کانال مشهور است. روش های متفاوتی برای غلبه بر مشکل تغییر کانال در هر سه مرحله ارائه شده است. اخیرا استفاده از ماشین بردار پشتیبان در قسمت مدل سامانه های بازشناسی گوینده موجب افزایش کارایی آنها نسبت به مدل مرکب گاوسی گردیده است. در این پایان نامه از پارامترهای یک نگاشت خطی که احتمال قطعه گفتار گوینده را در یک مدل کلی و عمومی افزایش می دهد، استفاده می گردد. این پارامترها با معیار حداکثر احتمال پسین (map) و الگوریتم بیشینه سازی امید (em) مورد تخمین واقع می شوند. سپس پارامترهای این نگاشت به عنوان نمایشی از کل قاب های(frame) استخراج شده از قطعه گفتار گوینده در نظر گرفته می شوند و می توانند به عنوان ویژگی های جداساز ملاحظه شوند. سپس svm از بردارهای حاصله از این ویژگیهای مفید به منظور بازشناسی گوینده استفاده می کند. آنالیز و نتایج حاصل از بکار بردن مدل پیشنهادی بر روی مجموعه داده farsdat بیانگر تاثیر سازنده ویژگی های استخراج شده است.