نام پژوهشگر: حجت محمدنژاد

بازشناسی مقاوم گفتار با روش دادگان مفقود با استفاده از شبکه عصبی دوسویه
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد 1389
  حجت محمدنژاد   منصور ولی

عملکرد سیستم های بازشناسی گفتار (asr) زمانی که گفتار توسط نویز تخریب شده باشد، به شدت کاهش می یابد. روش های ویژگی های مفقود قصد دارند که این کاهش بازشناسی را با حذف مولفه هایی از نمایش زمانی- فرکانسی گفتار (اسپکتروگرام) که بیانگر نسبت سیگنال به نویز (snr) پایین باشند، کاهش دهند. این روش ها اثر خود را در نتایج صحت بازشناسی نشان می دهند که در مقابل اثر نویز جمعی، مقاوم بودن بالای خود را بروز می دهند. در این پایان نامه، ما از یک شیوه ی رایج جبران سازی دادگان که در آن عناصر مفقود، برای بدست آوردن اسپکتروگرام کامل بازسازی می شوند استفاده خواهیم کرد که از آن با عنوان جبران سازی مبتنی بر دادگان مفقود یاد می شود. در این شیوه برای تخمین مولفه های مفقود اسپکتروگرام، از همبستگی بین مولفه ها، استفاده می شود. در ادامه یک شیوه جدید مطرح می کنیم که الگوی ویژگی های مفقود را با دیدگاهی نو به عنوان مسئله جبران سازی دادگان مطرح می کند. در این روش از شبکه عصبی دوسویه بهره گرفته می شود که به صورت هم زمان بر روی دادگان تمیز و نویزی جهت بازشناسی آواهای گفتار آموزش داده می شود تا با انجام یک سری پردازش های غیر خطی و دوطرفه (جلوسو و برگشتی) بتوان از دانش نهفته در مدل، ناشی از یاد گرفتن گفتار تمیز و نویزی بهره گرفته و بردارهای بازنمایی گفتار را در جهت افزایش صحت بازشناسی آواهای گفتار بهبود بخشید. در هر دو روش ویژگی های کپستروم بدست آمده از اسپکتروگرام بازسازی شده، برای بازشناسی مورد استفاده قرار می گیرند بدون اینکه سیستم بازشناسی نیازی به اصلاح داشته باشد. روش مبتنی بر دادگان مفقود، از دو بخش شناسایی مولفه های مفقود و اصلاح آن ها تشکیل شده است. روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، از این قاعده مستثنی بوده چرا که نیازی به شناسایی مولفه های مفقود ندارد و بازسازی را در جهت هرچه شبیه تر شدن تمامی مولفه ها (خواه معتبر باشد خواه نامعتبر) به مولفه های گفتار تمیز صورت می دهد و این یک برتری بسیار چشمگیری است که در این تحقیق حاصل شده است؛ چرا که در عمل، بحث شناسایی مولفه های مفقود، که یک بحث چالش برانگیز در تمامی روش های بکارگرفته شده در جهت بازشناسی مقاوم گفتار است و ارتباط مستقیمی با میزان صحت بازشناسی دارد را حذف می کند. ارزیابی هایی که در این تحقیق بر روی دو روش ذکر شده صورت گرفت، بهبود 2/4 درصدی بر روی صحت بازشناسی بدست آمده برای گفتار نویزی تخریب شده توسط نویز با نسبت سیگنال به نویز 0 db با استفاده از روش اصلاح ویژگی مبتنی بر دادگان مفقود، حاصل کرد و بهمان نحو بهبود 5/8 درصدی را برای همان نرخ نویز تخریبی با استفاده از روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، به نمایش گذاشت. در آخر کار با ترکیب دو روش یاد شده، توانستیم پیشرفت چشمگیری در حدود 10 درصد در روند بازشناسی سیگنال های تخریب شده بدست آوریم.