نام پژوهشگر: صونا قوینلی کر

بهبود نرخ بازشناسی گفتار در شرایط نویزی با استفاده از روش های غیرخطی تبدیل ویژگی
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه گیلان - دانشکده فنی 1391
  صونا قوینلی کر   جلیل سیفعلی هرسینی

یکی از مراحل اصلی در روند بازشناسی گفتار، استخراج ویژگی ها می باشد. در حقیقت ویژگی های مربوط به نمونه های هر کلاس باید بگونه ای از کلاس های دیگر متمایز شده باشند که سیستم بازشناسی گفتار در شرایط مختلف مانند نویز نیز عملکرد مناسبی از خود نشان دهد. تبدیل ویژگی می تواند پس از استخراج ویژگی بکار رود تا به این متمایزسازی کمک نماید. روش های تبدیل ویژگی را می توان به دو گروه خطی و غیرخطی تقسیم نمود. ویژگی های جدید در تبدیلات خطی براساس میانگین وزن دار ویژگی های اصلی بدست می آیند. اما تبدیلات غیرخطی با یک نگاشت غیرخطی عمل تبدیل را انجام می دهند. روش های مبتنی بر هسته و برخی روش های مبتنی بر خمینه از این گروه هستند. یکی از روش های تبدیل ویژگی مبتنی بر خمینه که دارای دو نسخه خطی و غیرخطی است، تصویر حافظ خصوصیات محلی (lpp) است که در بازشناسی گفتار و دیگر شاخه های بازشناسی الگو بکار گرفته شده است. علیرغم اینکه این روش برای بازشناسی گفتار در حضور نویز مفید به نظر می رسد، اما به تمایز بین واحدهای گفتاری توجه ندارد. از این رو هر دو نوع خطی و غیرخطی آن طوری اصلاح شده است که متمایزسازی بین کلاس ها را هم در نظر بگیرد. در این پایان نامه برای نخستین بار روش خطی تصویر حافظ خصوصیات محلی متمایزساز برای بازشناسی گفتار در حضور نویز پیشنهاد شده است . در این راستا دو روش اصلاح شده بکار گرفته شده است. از سوی دیگر پیشنهاد شده است که بجای تصویر حافظ خصوصیات محلی مبتنی بر هسته (نسخه غیر خطی با نام klpp) از ترکیب آنالیز مولفه های اصلی مبتنی بر هسته (kpca) با نسخه های خطی اصلی و متمایزساز تصویر حافظ خصوصیات محلی استفاده شود. به این ترتیب در ابتدا با استفاده از روش kpca متعامدسازی دادگان در فضایی غیرخطی با ابعاد بالاتر صورت می گیرد و سپس با استفاده از روش های مبتنی بر lpp دادگان با حفظ همسایگی به روی یک خمینه گفتاری نگاشت می یابند. این روش ها برای غلبه بر نویزهای توأم جمع پذیر و کانال پیشنهاد شدند. این روش ها بر روی دادگان aurora2 مورد ارزیابی و آزمایش قرار گرفته اند. نتایج نشان می دهد که روش های ترکیبی پیشنهادی دقت بازشناسی بهتری نسبت به روشی مشابه دارند. با استفاده از این روش ها درصد بازشناسی نسبت به سیستم پایه (ضرایب مل کپستروم) بطور متوسط در حدود 5/16? افزایش یافته است.