نام پژوهشگر: امیرحسین حاج احمدی

مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای جمع شونده و نویز کانال
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1387
  امیرحسین حاج احمدی   محمدمهدی همایون‏‎‎‏ پور

با توجه به اهمیت و نقش بالای مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای محیطی، در این مجموعه ابتدا تأثیر استفاده از پیک های طیف دنباله خودهمبستگی به عنوان ویژگی های مقاوم برای استفاده در سیستم های بازشناسی گوینده مورد بررسی قرار گرفته است. سپس تأثیر روش های هنجارسازی ویژگی ها مانند روش حذف میانگین کپسترال، روش پس پردازش mva و روش ویژگی های مفقود بر پیک های طیف دنباله خودهمبستگی برای مقاوم سازی در مقابل نویزهای جمع شونده و کانال در بازشناسی گوینده بررسی شده است. همچنین جهت استفاده از روش ویژگی های مفقود در سیستم های بازشناسی گوینده یک مدل کلی ارایه گردیده است. در این پروژه همچنین برای افزایش کارایی روش ویژگی های مفقود و امکان استفاده از آن برای استخراج پیک های مقاوم تر از طیف دنباله خودهمبستگی، تغییراتی چه در تخمین ماسک و چه در بدست آوردن مدل بازسازی مناسب پیشنهاد شده است. استفاده از ماسک های مبتنی بر شبکه های عصبی که عمل تخمین ماسک را به کمک تخمین نسبت سیگنال به نویز محلی انجام می دهند و از قدرت تعمیم بالایی نیز برخوردار هستند و انتخاب مدل بازسازی مناسب با کمک فاصله وزن دار با وزن های حاصل از ماسک های نرم برای استفاده در سیستم های بازشناسی مبتنی بر بازسازی طیف نگار با روش ویژگی های مفقود، پیشنهاد و مورد آزمایش و بررسی قرار گرفته شده است. آزمایش های انجام شده در راستای مقاوم سازی سیستم های بازشناسی گوینده، بر روی دادگان فارسدات تلفنی انجام شده است. از نتایج آزمایش های اولیه مشخص شد که استفاده از انرژی طیفی سیگنال به عنوان یک ویژگی در سیستم های بازشناسی گوینده، مقاومت این سیستم ها را به میزان قابل توجهی کاهش می دهد. همچنین مشخص شد، پیک های طیف دنباله خودهمبستگی که در آنها از مشتق گیری طیف ِ توان استفاده شده است، نسبت به ویژگی های mfcc دارای مقاومت بیشتری درمقابل به نویزهای جمع شونده هستند. همچنین نتایج نشان دهنده مقاومت بالای پیک های طیف دنباله خودهمبستگی سیگنال گفتارِ استخراج شده از طیف نگار دنباله خودهمبستگی بازسازی شده با روش ویژگی های مفقود در مقابل نویزهای جمع شونده است. درنهایت برای سیستم های بازشناسی گوینده استفاده از روش پس پرداز mva را به برای مقاوم سازی بیشتر ویژگی های استخراج شده در حوزه کپسترال در مقابل نویزهای جمع شونده و کانال می توان پیشنهاد کرد. در این پروژه استفاده از روش ویژگی های مفقود با استفاده از تخمین ماسک به کمک شبکه های عصبی و انتخاب مدل بازسازی مناسب با استفاده از فاصله وزن دار، و نیز روش پس پردازش mva برای استفاده در سیستم های بازشناسی گفتار مقاوم در مقابل نویز نیز مورد آزمایش قرار گرفته اند. نتایج آزمایش های انجام شده جهت مقاوم سازی سیستم های بازشناسی گفتار بر روی دادگان aurora2 نشان می دهند که هم روش ویژگی های مفقود و هم روش پس پردازش mva از توانایی بالایی در مقاوم سازی سیستم های بازشناسی گفتار در مقابل نویزها برخوردار هستند. همچنین نتایج امیدوارکننده ای با استفاده از اعمال هر دو روش ویژگی های مفقود و روش پس پردازش mva بدست آمده است.