فرزانه قویمی

نام پژوهشگر: فرزانه قویمی

پیشگویی قابلیت فهم گفتار مبتنی بر مدل ادراکی میکروسکوپی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر 1392
فرزانه قویمی مسعود گراوانچی زاده

کاهش قابلیت فهم گفتار در شرایط نویزی یکی از متداول ترین مشکلات شنونده ها، به ویژه افراد دارای ضعف شنوایی است. توانایی پیش بینی قابلیت فهم می تواند باعث بهبود طراحی سیستم های صوتی و توسعه الگوریتم های کمک شنوایی در امر توانبخشی شود. روش های معمول برای پیش بینی قابلیت فهم، به شکل ماکروسکوپی عمل می کنند، به این معنی که ویژگی های ماکروسکوپی سیگنال، مانند طیف بلند مدت یا نسبت سیگنال-به-نویز (snr) در باندهای فرکانسی مختلف برای محاسبه استفاده می شوند. در مقابل، یک روش میکروسکوپی محاسبات خود را براساس ویژگی های طیفی- زمانی گفتار که شنونده درک می کند، قرار می دهد. در مدل میکروسکوپی، ساختار خاص طیفی- زمانی سیگنال صحبت احتمالا به گونه ای پردازش می شود که بسیار مشابه سیستم شنوایی انسان است. در این پایان نامه، یک مدل میکروسکوپی دوگوشی برای پیشگویی قابلیت فهم گفتار پیشنهاد شده است. ساختار مدل بر مبنای مدل تک گوشی ادراکی .jürgens et al و مدل پیشنهادی دوگوشی با استفاده از سلول های تحریک و ممانعت (ei cells) قرار دارد. ساختار مدل شامل دو مرحله آموزش و تست می باشد. در مرحله آموزش، ابتدا، سیگنال های گفتار الگو برای گوش های چپ و راست با نویز پس زمینه جمع شونده دلخواه، به عنوان ورودی به واحد پیش پردازش اعمال می شود، این پیش پردازش شامل فیلتربانک گاماتون، مدل سلول مویی و حلقه های انطباق می باشد. سپس، سیگنالهای پیش پردازش شده گوش های چپ و راست، وارد واحد پردازش دوگوشی می گردند. درنهایت ، سیگنال های بدست آمده از مسیرهای تک گوشی و دوگوشی توسط فیلتربانک مدولاسیون بطور جداگانه پردازش می شوند. حاصل این مراحل پردازش، نمایش های درونی (irs) برای سیگنال های الگوی تک گوشی و دوگوشی است. به طریق مشابه در مرحله تست، برای سیگنال های ورودی تست گوش های چپ و راست نیز مراحل پردازشی ذکر شده در بالا اعمال شده و نمایش های درونی (irs) برای سیگنال های تک گوشی و دوگوشی تست بدست می آیند. در نهایت، نمایش های درونی بدست آمده برای سیگنال های الگو و تست توسط سیستم بازشناسی گفتار dtw مقایسه می شوند تا سیگنال الگویی از مجموعه الگوهای ممکن دردسترس که کمترین فاصله را با سیگنال تست دارد، به عنوان سیگنال تشخیص داده شده انتخاب شود. میزان پیشگویی قابلیت فهم گفتار بر اساس نسبت تعداد سیگنال های درست تشخیص داده شده به تعداد کل سیگنال های الگو محاسبه می شود. ارزیابی مدل تحت انواع مختلف نویز (نویز شبه گفتار، همهمه، و گفتار معکوس) و چیدمان های مختلف فضایی منابع تداخل (بعبارتی، مکان های متفاوت منابع اخلال) انجام می گیرد. به منظور تعیین دقت نتایج، پیشگویی های مدل با نتایج آزمایشات شنوایی بر حسب آستانه دریافت گفتار (srt) مقایسه می شود. برای انجام آزمایشات شنوایی، 9 شنونده در فرآیند آزمایشات روان ادراکی شرکت دارند تا مقادیر srt را در شرایط شنوایی گوناگون اندازه گیری شود. در مورد نویز شبه گفتار، سه نوع آزمایش با بکارگیری یک منبع ، دو منبع و سه منبع نویز انجام می شود. ارزیابی نتایج برای این نوع نویز تطابق خوبی را در مورد مقادیر پیشگویی مدل با مقادیر اندازه گیری شنوایی ذهنی نشان داده و کارآیی بالای مدل را تایید می کند. برای نویز های همهمه و گفتار معکوس، تنها یک منبع نویز در آزمایش ها بکار رفته است. اما، برخلاف نویز شبه گفتار، در مورد این نوع از نویزها، هماهنگی خوبی بین پیشگویی های مدل و اندازه گیری های ذهنی مشاهده نمی شود.

۱۵ صفحه ی اول