بازشناسی گفتار نویزی با اصلاح روش خوشه بندی در دادگان مفقود
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد
- نویسنده صادق مسجودی
- استاد راهنما منصور ولی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1390
چکیده
بر خلاف سیستم شنوایی انسان ها، سیستم های خودکار بازشناسی گفتار نسبت به نویز زمینه بسیار حساس هستند. این اثر ناشی از تفاوت مابین آمارگان مدل های گفتار تعلیمی است با آنچه که در شرایط واقعی از آنها استفاده می شود. جبران نکردن چنین عدم انطباقی، دقت سیستم های بازشناسی را به شدت کاهش می دهد. در این گزارش، جهت جبران عدم انطباق بین دادگان تعلیم و تست از یکی از روش های ویژگی مفقود تحت عنوان بازسازی مبتنی بر خوشه یابی استفاده شده است. در روش های معمول بازسازی مبتنی بر خوشه یابی، بردارهای بازنمایی لگاریتم انرژی فیلتر بانک های ورودی مربوط به دادگان تمیز تعلیمی خوشه بندی می شوند. سپس برای بازسازی بردارهای بازنمایی نویزی دو مرحله پردازش روی آنها صورت می پذیرد. در مرحله نخست مولفه های هر بردار بازنمایی نویزی ورودی به دو بخش قابل اطمینان و غیر قابل اطمینان تفکیک می شوند. در مرحله دوم مولفه هایی که برچسب غیرقابل اطمینان(ماسک ها) خورده اند بر اساس آمارگان نزدیکترین خوشه به آن بردار که بر مبنای مولفه های قابل اطمینان بردار شناسایی شده است، با استفاده از یکی از روش های ماکزیمم احتمال پسین بازیابی می شوند. در این پایان نامه ایده ای جدید مبنی بر استفاده مفیدتر از اطلاعات واقع در مولفه های غیر قابل اطمینان مطرح شده است. در این روش با استفاده از یک تابع عضویت فازی با فازی نمودن نسبت سیگنال به نویز(snr) تخمینی مولفه های مختلف بردارهای بازنمایی ضریبی تحت عنوان ضریب تصحیح به بردار بازسازی شده و متمم فازی آن به بردار بازنمایی نویزی تخصیص داده شده و بردار حاصل جمع این دو بردار به عنوان بردار بازسازی شده نهایی تلقی می شود. با فرض اینکه گام اول بازسازی مبتنی بر خوشه یابی یعنی تفکیک مولفه های هر بردار به دو کلاس قابل اطمینان و غیرقابل اطمینان به نحو مناسبی انجام شده باشد، ایده مطرح شده نویدبخش بهبود در نتایج بازشناسی بود. به منظور بازشناسی بردارهای بازسازی شده، ابتدا از آنها تبدیل گسسته کسینوسی گرفته و ویژگی های mfcc را از آنها استخراج نمودیم. جهت ارزیابی و مقایسه روش ها از ویژگی های mfcc روی دو مدل بازشناسی، یکی شبکه عصبی و دیگری مدل مخفی مارکف استفاده گردید. مطابق انتظار ارزیابی ها نشان دادند بازسازی ها هنگامی موثر واقع می شوند که گام نخست یعنی شناسایی مولفه های مفقود به نحو مناسبی صورت پذیرفته باشد. اگر مولفه های مفقود به طریق مناسب معین شده باشند، ایده فازی مطرح شده دقت بازشناسی شبکه عصبی را در نسبت های پایین سیگنال به نویز تا 5% و دقت بازشناسی حاصل از مدل مخفی مارکف را بین یک تا دو درصد نسبت به روش غیر فازی بهبود می بخشد. در ادامه پیاده سازی ها از روش سری تیلور برداری برای تخمین میانگین نویز استفاده شد و به کمک آن مقادیری را به عنوان نسبت سیگنال به نویز(snr) به مولفه های مختلف بردارهای بازنمایی تخصیص دادیم. سپس با قرار دادن آستانه ای به عنوان حد آستانه قابل اطمینان بودن روی مقادیر به دست آمده، مولفه ها را به دو کلاس قابل اطمینان و غیرقابل اطمینان تفکیک نمودیم. با تکرار مراحل قبل جهت بازسازی و بازشناسی بردارها بهبودی در نتایج حاصل نشد. این امر دلالت بر عدم کارایی روش به کارگرفته شده جهت تعیین ماسک ها دارد.
منابع مشابه
روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه
Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...
متن کاملبازشناسی مقاوم گفتار با روش دادگان مفقود با استفاده از شبکه عصبی دوسویه
عملکرد سیستم های بازشناسی گفتار (asr) زمانی که گفتار توسط نویز تخریب شده باشد، به شدت کاهش می یابد. روش های ویژگی های مفقود قصد دارند که این کاهش بازشناسی را با حذف مولفه هایی از نمایش زمانی- فرکانسی گفتار (اسپکتروگرام) که بیانگر نسبت سیگنال به نویز (snr) پایین باشند، کاهش دهند. این روش ها اثر خود را در نتایج صحت بازشناسی نشان می دهند که در مقابل اثر نویز جمعی، مقاوم بودن بالای خود را بروز می د...
15 صفحه اولاثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین
Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...
متن کاملاثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین
Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...
متن کاملبهبود نرخ بازشناسی گفتار در شرایط نویزی با استفاده از روش های غیرخطی تبدیل ویژگی
یکی از مراحل اصلی در روند بازشناسی گفتار، استخراج ویژگی ها می باشد. در حقیقت ویژگی های مربوط به نمونه های هر کلاس باید بگونه ای از کلاس های دیگر متمایز شده باشند که سیستم بازشناسی گفتار در شرایط مختلف مانند نویز نیز عملکرد مناسبی از خود نشان دهد. تبدیل ویژگی می تواند پس از استخراج ویژگی بکار رود تا به این متمایزسازی کمک نماید. روش های تبدیل ویژگی را می توان به دو گروه خطی و غیرخطی تقسیم نمود. و...
15 صفحه اولارتقاء کیفیت بازشناسی گفتار تلفنی و غیر تلفنی با استفاده از اشتراک دانش آوایی دادگان
سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازش...
15 صفحه اولمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023