نام پژوهشگر: لوییزا دهیادگاری
لوییزا دهیادگاری علی سیدصالحی
انسان در ادراک گفتار روزمره با انواع تنوعات در سیگنال ورودی برخورد می کند و علیرغم آنها وظیفه درک به خوبی انجام می شود. به عنوان نمونه هائی از این تنوعات در بازشناسی گفتار می توان از نویزهای مختلف مانند نویزهای جمعی یا نویز کانال نام برد که به صورت ایستان و یا غیرایستان به سیگنال گفتار اضافه می شوند. مشاهده می شود که کارائی سیستمهای بازشناسی گفتار به عنوان مدلهائی از درک گفتار در انسان با تغییر تنوعات بشدت افت پیدا می کند. در این پروژه از توانائی های شبکه های عصبی با اتصالات بازگشتی برای کاهش میزان نویز ، اعوجاج و تنوعات ناخواسته از سیگنال گفتار استفاده می شود. ساختارهای مختلف شبکه های عصبی بازگشتی که به منظور بازشناسی گفتار در سطح بازشناسی آوا طراحی و پیاده سازی شده اند، برای حذف نویز از سیگنال گفتار مورد بررسی قرار می گیرند و نتایج بدست آمده از آنها با یک شبکه عصبی ساده که اتصالات بازگشتی در آن ملحوظ نشده است، مقایسه می شوند. در آزمایشات اولیه نحوه عملکرد شبکه های بازگشتی و نحوه به قعر رفتن الگوهای نویزی با استفاده از چند نمونه ساده بررسی شده اند. در آزمایشات بعد ساختارهای شبکه عصبی بازگشتی به منظور بازشناسی گفتار در سطح بازشناسی آوا طراحی و پیاده سازی شده است که با هدف بازشناسی سیگنال گفتار نویزی مورد بررسی قرار می گیرد. ساختار این شبکه در طی آزمایشات مختلف بررسی و به تدریج کامل می گردد. در انتها ساختاری از شبکه عصبی بازگشتی طراحی شد که می تواند با استفاده از دور زدن در شبکه و به قعر رفتن الگوها، نمونه های نویزی شده را از روی الگوهای تمیزی که به شبکه تعلیم داده شده است بازیابی کند. در طی آزمایشات از دادگان صحبت یک نفر از گویندگان استفاده شد و پس از به دست آوردن یک ساختار نهائی از شبکه عصبی عملکرد شبکه در مورد دادگان زیاد و افراد مختلف نیز مورد ارزیابی قرار گرفت. بهترین مدل از شبکه های عصبی بازگشتی توانسته است درصد صحت بازشناسی سیگنال نویزی با نویز صفر دسی بل را برای دادگان تعلیم ده جمله از یک نفر 20% و برای 400 جمله از نفرات زیاد 21% نسبت به یک شبکه ساده که در آن اتصالات بازگشتی ملحوظ نشده است و خاصیت حذف نویز را ندارد، بهبود دهد.