نام پژوهشگر: ایمان اسمعیلی

ارتقاء کیفیت بازشناسی گفتار تلفنی و غیر تلفنی با استفاده از اشتراک دانش آوایی دادگان
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی 1389
  ایمان اسمعیلی   منصور ولی

سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازشناسی آوا های گفتار فارسی طراحی شده است. به این ترتیب که بردارهای بازنمایی لگاریتم انرژی بانکهای فیلتر (lfbe) از سیگنال گفتار تلفنی و میکروفنی استخراج شده و به صورت توأمان به یک شبکه عصبی دو سویه تعلیم داده می شوند. در طی فرایند آموزش، از دانش آوایی نهفته در لایه مخفی شبکه استفاده شده، وزنهای شبکه در جهت افزایش صحت بازشناسی آوا اصلاح می شوند. سپس توسط همین شبکه کلیه بردارهای بازنمایی گفتار تلفنی و میکروفنی با چند دور گردش در شبکه اصلاح می شوند. فرآیند فوق، برای اصلاح مجدد بردارهای بازنمایی گفتار تلفنی و میکروفنی از روی بردارهای اصلاح شده قبلی، توسط شبکه عصبی دوسویه تکرار شده و آنها را بردارهای بازنمایی اصلاح شده دو مرحله ای می نامیم. سپس برای ارزیابی کارآیی شبکه دوسویه در اصلاح بردارهای بازنمایی، سه سری از مدلهای مخفی مارکف (hmm) برای بازشناسی آواها تعلیم داده می شوند. سری اول مدلهای تعلیم داده شده بر روی بردارهای بازنمایی اصلاح نشده که آنها را مدلهای مرجع می نامیم، سری دوم مدلهای تعلیم داده شده بر روی بردارهای بازنمایی اصلاح شده یک مرحله ای و سری سوم مدلهای تعلیم داده شده بر روی برداهای بازنمایی اصلاح شده دو مرحله ای هستند. با اعمال تبدیل کسینوسی گسسته بر روی بردارهای بازنمایی lfbe، بردارهای بازنمایی mfcc نظیر آنها بدست می آیند. صحت بازشناسی آوای گفتار میکروفنی با بردارهای اصلاح شده یک مرحله ای lfbe و mfcc به ترتیب 4 و 4/3 درصد و با بردارهای بازنمایی اصلاح شده دو مرحله ای lfbe و mfcc 3/5 و 7/4 درصد نسبت به مدل مرجع افزایش می یابد و درصد بازشناسی گفتار تلفنی با بردارهای بازنمایی اصلاح شده یک مرحله ای lfbe و mfcc 1/7 و 1/6 درصد و با بردارهای بازنمایی اصلاح شده دو مرحله ای lfbe و mfcc 2/8 و 3/9 درصد نسبت به مدل مرجع افزایش می یابد. به منظور محک زدن شبکه در شرایط عدم انطباق، مدلهای آموزش دیده با بردارهای بازنمایی میکروفنی توسط بردارهای بازنمایی تلفنی ارزیابی شده اند. در این شرایط، صحت بازشناسی مدل های تعلیم یافته توسط بردارهای بازنمایی میکروفنی که توسط بردارهای بازنمایی تلفنی اصلاح شده یک مرحله ای و دو مرحله ای ارزیابی شده اند به ترتیب 3/22 درصد و 6/26 درصد نسبت به مدل آموزش دیده با بردارهای بازنمایی اصلاح نشده افزایش می یابد. در ادامه روش اصلاح بردارهای بازنمایی مبتنی بر شبکه عصبی دوسویه با روشهای معمول تطبیق مدل (mllr, map وmllr+map) ترکیب می شوند. صحت بازشناسی ترکیب بردارهای اصلاح شده با تکنیکهای map, mllr و mllr + map در مدلهای hmm تعلیم داده شده با برداربازنمایی اصلاح شده دو مرحله ای به ترتیب 7/37 درصد، 6/39 درصد و 2/40 نسبت به مدل آموزش دیده با بردارهای بازنمایی اصلاح نشده، افزایش می یابد. نتایج به خوبی نشان می دهد که فرضیه ما مبنی بر توانایی شبکه عصبی در اصلاح بردارهای بازنمایی میکروفنی و تلفنی و موثر بودن ترکیب آن با روشهای تطبیق مدل صحیح است.