نام پژوهشگر: محمد بافکار
محمد بافکار منوچهر کلارستاقی
دقت سیستم¬های بازشناسی گفتار در محیط¬های آزمایشگاهی و کنترل شده به میزان قابل قبولی افزایش یافته و امروزه شاهد استفاده از این سیستم¬ها در محیط¬های واقعی هستیم. با این حال، کارایی این سیستم¬ها در حضور نویز به دلیل عدم تطابق بین شرایط و محیط آموزشی و آزمون به شدت افت می¬کند. علاوه بر این، تنوع مشخصه¬های گفتاری گویندگان نیز بر کارایی این سیستم¬ها تاثیرگذار است. در سال¬های اخیر، عمده پژوهش¬های صورت گرفته در زمینه بازشناسی گفتار در راستای کاهش عدم تطابق بین شرایط آموزش و آزمون، در نتیجه افزایش کارایی آنها برای کاربردهای عملی است. انتقال بردار ویژگی، معیار آموزش سیستم، تطبیق مدل با گوینده و مهم¬تر از همه کاهش اثر تخریبی نویز بر کارایی سیستم، اصلی-ترین مباحث در مقوله مقاوم¬سازی سیستم بازشناسی گفتار بوده¬اند. از میان دو دسته عمده روش¬های مقاوم¬سازی در برابر نویز، روش¬های مبتنی بر ویژگی و روش¬های مبتنی بر مدل، دسته دوم از انعطاف بیشتری برخوردار بوده و منجر به بهبود بیشتری می¬شوند. محور اصلی این روش¬ها انطباق پارامترهای مدل آکوستیکی با شرایط آزمون است. در این پایان¬نامه روش¬های مختلف مقاوم¬سازی نسبت به نویز مرور شده و از این بین، بردار سری تیلور (vts) مورد مطالعه دقیق و استفاده قرار گرفته است. آموزش تمایزگرایانه نیز، به عنوان جایگزینی برای معیار بیشینه درست¬نمایی (ml)، در سال¬های اخیر کانون توجه برخی از پژوهشگران بوده است. بیشینه-کردن درست¬نمایی داده¬های آموزشی با معیار ارزیابی سیستم، نرخ خطا، ارتباط چندانی ندارد. گذشته از این، در حالتی که توزیع واقعی داده¬های آموزش مشخص نباشد، معیار تمایزگرایانه نرخ خطای کمتری در مقایسه با معیار بیشینه درست¬نمایی دارد. همین امر موجب شد تا از آموزش تمایزگرایانه (به ویژه روش fbmmi+bmmi) همراه با انتقال بردار ویژگی و آموزش تطبیقی با گوینده (sat) برای آموزش سیستم استفاده شود. برای ارزیابی این روش¬ها از نرم¬افزار kaldi و مجموعه دادگان timit استفاده شد. به¬کارگیری روش ترکیبی معرفی شده بر روی دادگان تمیز منجر به بهبود 5 درصدی دقت نسبت به سیستم پایه شد. برای شرایط نویزی، روش vts پیشنهادی مورد استفاده قرار گرفت که نسبت به vts کلاسیک در بهترین شرایط 7 درصد افزایش نسبی کارایی را به همراه داشته است. بکارگیری این روش با روش ترکیبی پیشنهادی برای داده¬های تمیز بر روی داده¬های نویزی شده دقت سیستم را به طور متوسط تا 34 درصد افزایش داد.