نام پژوهشگر: محسن قدیانی
محسن قدیانی منصور ولی
برای مقاوم سازی سیستم بازشناسی گفتار در برابر عوامل مزاحم محیطی (نویز جمع شونده، اثر اعوجاج کانال انتقال و نویزهای گذرا) سه ایده کلی وجود دارد: 1- استخراج ویژگی های مقاوم(robust feature extraction) 2- بهبود کیفیت بردارهای بازنمایی (feature enhancement) 3- اصلاح مدل بازشناسی صوتی (acoustic model compensation) در ایده اول سعی می شود تا از ویژگی ها و پارمترهایی از سیگنال گفتار برای ساخت بردارهای صوتی بازنمایی استفاده شود (feature هایی انتخاب شوند) که تنها تابعی از خود سیگنال گفتار بوده و ذاتا در برابر نویز مقاوم اند، یعنی در حضور نویز تغییر چندانی نمی کنند. در نتیجه بردارهای بازنمایی حاصل از این feature ها برای سیگنال گفتار تخریب شده توسط نویز تا حدود زیادی شبیه به بردارهای بازنمایی سیگنال گفتار تمیز هستند. بنابراین بردارهای بازنمایی استخراج شده در برابر نویز مقاوم خواهند بود. از جمله مهمترین تکنیک های مورد استفاده در این راستا، "نظریه دادگان مفقود" (missing feature approaches) است. در ایده دوم یعنی ارتقا کیفیت بردارهای بازنمایی ، این بردارها به یکی از روش های متداول (مانند mfcc) از فریم های سیگنال گفتار استخراج می شوند ، اما قبل از اعمال به مدل بازشناسی صوتی به گونه ای اصلاح می شوند که تا حد ممکن مشابه با بردارهای بازنمایی سیگنال گفتار تمیز باشند. سپس این بردارهای بازنمایی اصلاح شدهبه یکی از مدل های صوتی بازشناسی متداول اعمال می شوند تا کلاس آوایی مناسب برای هر بردار بازنمایی تعیین شود. در واقع می توان این گونه فرض کرد که یک بلوک پیش پردازنده بین بلوک های استخراج ویژگی و مدل صوتی قرار می گیرد که وظیفه آن اصلاح بردارهای بازنمایی صوتی است. تکنیک بردار سری تیلور (vector taylor series)از جمله بهترین روش های موجود در این زمینه به شمار می رود. سومین ایده بر پایه جبران سازی ضعف های مدل صوتی بازشناسی است. استخراج بردارهای بازنمایی به یکی از روش های معمول صورت می گیرد و در نتیجه بردارهای بازنمایی شامل ویژگی های سیگنال گفتار تخریب شده به مدل صوتی بازشناسی اعمال می شوند، اما مدل به گونه ای تقویت شده است که قابلیت استخراج کلاس های آوایی صحیح برای هر بردار بازنمایی را داراست. امروزه از روش های متفاوتی برای بالاتر بردن نرخ بازشناسی (recognition rate) استفاده می شود که بسته به مشخصات سیگنال گفتار (مقدار snr ، تلفنی بودن یا نبودن آن و اطلاعات اولیه موجود) و نویز موجود بر روی آن (نویز جمع شونده ، اثر اعوجاج کانال یا نویزهای گذرا) انتخاب می شوند. در بسیاری از موارد نیز از ترکیبی از این تکنیک ها برای کاراتر شدن سیستم بازشناسی گفتار استفاده می شود در چند سال اخیر ، دو تکنیک " نظریه دادگان مفقود" (missing feature approaches) و " بردار سری تیلور " (vts) به شکل گسترده ای در سیستم های بازشناسی گفتار به کار گرفته شده و تحقیقات وسیعی در زمینه افزایش کارایی آن ها صورت گرفته است. به گونه ای که در حال حاضر، این دو تکنیک پر کاربردترین و بهینه ترین متدهای مورد استفاده در بازشناخت سیگنال گفتار تخریب شده توسط نویز محیطی به شمار می روند. این دو تکنیک به ویژه در مواردی که نسبت سیگنال به نویز پایین است ، راندمان بسیار مناسبی دارند. تکنیک های حذف نویز جمع شونده و اثر کانال در حالت کلی فرضیاتی را در زمینه سیگنال گفتار تمیز و شرایط محیطی در نظر می گیرند و به این وسیله feature های گفتار نویزی را به گفتار تمیز تبدیل می کنند. در بین این تکنیک ها، vts طرفداران فراوانی دارد، چون این قابلیت را دارد که با یک مدل خطی ساده، اثرات اغتشاش های کاملا غیر خطی را حذف کند. در تکنیک vts ، feature های گفتار تمیز با مجموعی از یک توزیع گوسی(gmm) مدل می شوند و سپس پارامترهای این مدل) (?,m با استفاده از بسط تیلور بردارهای ویژگی سیگنال گفتار تخریب شده بر اثر نویز و کانال محاسبه می شوند. پارامترهای توزیع گوسی در نظر گرفته شده برای نویز و همچنین پارامترهای کانال انتقال از طریق اعمال الگوریتم em و با update شدن مکرر در طی چند iteration تخمین زده می شوند. با استفاده از الگوریتم vts می توان بردار ویژگی های سیگنال گفتار تمیز x را از روی سیگنال نویزی تخمین زد. در این حالت فرض می کنیم pdf بردار ویژگی گفتار تمیز با یک توزیع گوسی مدل می شود. در پروژه حاضر ، از بانک دادگان گفتار تلفنی فارسی farsdat به عنوان مجموعه دادگان تعلیم و تست سیستم بازشناسی گفتار استفاده می شود: ابتدا به سیگنال گفتار فوق ، نویز جمع شونده افزوده شده و سپس حاصل از یک کانال انتقال ناشناخته عبور می کند تا بانک دادگان گفتار تلفنی نویزی به دست آید. سپس این مجموعه به دو بخش دادگان train و دادگان test تقسیم می شود. دادگان train به سیستم بازشناسی گفتار اعمال شده و بردارهای بازنمایی سیگنال گفتار تخریب شده به روش mfcc استاندارد (هر بردار بازنمایی شامل 12 ضریب کپستروم و لگاریتم انرژی فیلتر بانک به همراه مشتقات اول و دوم آن ها) استخراج می شوند. سپس این بردارهای بازنمایی با استفاده از تکنیک vts اصلاح می شوند تا بردارهای حاصل تا حد ممکن نزدیک به بردارهای ویژگی گفتار تلفنی تمیز باشند. این بردارهای بازنمایی به مدل صوتی بازشناسی اعمال می شوند تا در پروسه تعلیم آن مورد استفاده قرار گیرند. پس از تعلیم سیستم ، از باقیمانده دادگان تخریب شده برای تست و ارزیابی عملکرد سیستم بازشناسی طراحی شده استفاده می کنیم. همین مراحل برای یک سیستم بازشناسی معمولی (بدون اصلاح بردارهای بازنمایی)انجام می شود و نتایج حاصل از دو روش (با اصلاح بردارهای بازنمایی و بدون اصلاح بردارهای بازنمایی) به ازای نسبت های سیگنال به نویز مختلف با هم مقایسه می شوند تا میزان بهبود ایجاد شده در عملکرد قابل اندازه گیری باشد.