بازشناسی گفتار نویزی با اصلاح روش خوشه بندی در دادگان مفقود

thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد
author صادق مسجودی
adviser منصور ولی
Number of pages: First 15 pages
publication year 1390

abstract

بر خلاف سیستم شنوایی انسان ها، سیستم های خودکار بازشناسی گفتار نسبت به نویز زمینه بسیار حساس هستند. این اثر ناشی از تفاوت مابین آمارگان مدل های گفتار تعلیمی است با آنچه که در شرایط واقعی از آنها استفاده می شود. جبران نکردن چنین عدم انطباقی، دقت سیستم های بازشناسی را به شدت کاهش می دهد. در این گزارش، جهت جبران عدم انطباق بین دادگان تعلیم و تست از یکی از روش های ویژگی مفقود تحت عنوان بازسازی مبتنی بر خوشه یابی استفاده شده است. در روش های معمول بازسازی مبتنی بر خوشه یابی، بردارهای بازنمایی لگاریتم انرژی فیلتر بانک های ورودی مربوط به دادگان تمیز تعلیمی خوشه بندی می شوند. سپس برای بازسازی بردارهای بازنمایی نویزی دو مرحله پردازش روی آنها صورت می پذیرد. در مرحله نخست مولفه های هر بردار بازنمایی نویزی ورودی به دو بخش قابل اطمینان و غیر قابل اطمینان تفکیک می شوند. در مرحله دوم مولفه هایی که برچسب غیرقابل اطمینان(ماسک ها) خورده اند بر اساس آمارگان نزدیکترین خوشه به آن بردار که بر مبنای مولفه های قابل اطمینان بردار شناسایی شده است، با استفاده از یکی از روش های ماکزیمم احتمال پسین بازیابی می شوند. در این پایان نامه ایده ای جدید مبنی بر استفاده مفیدتر از اطلاعات واقع در مولفه های غیر قابل اطمینان مطرح شده است. در این روش با استفاده از یک تابع عضویت فازی با فازی نمودن نسبت سیگنال به نویز(snr) تخمینی مولفه های مختلف بردارهای بازنمایی ضریبی تحت عنوان ضریب تصحیح به بردار بازسازی شده و متمم فازی آن به بردار بازنمایی نویزی تخصیص داده شده و بردار حاصل جمع این دو بردار به عنوان بردار بازسازی شده نهایی تلقی می شود. با فرض اینکه گام اول بازسازی مبتنی بر خوشه یابی یعنی تفکیک مولفه های هر بردار به دو کلاس قابل اطمینان و غیرقابل اطمینان به نحو مناسبی انجام شده باشد، ایده مطرح شده نویدبخش بهبود در نتایج بازشناسی بود. به منظور بازشناسی بردارهای بازسازی شده، ابتدا از آنها تبدیل گسسته کسینوسی گرفته و ویژگی های mfcc را از آنها استخراج نمودیم. جهت ارزیابی و مقایسه روش ها از ویژگی های mfcc روی دو مدل بازشناسی، یکی شبکه عصبی و دیگری مدل مخفی مارکف استفاده گردید. مطابق انتظار ارزیابی ها نشان دادند بازسازی ها هنگامی موثر واقع می شوند که گام نخست یعنی شناسایی مولفه های مفقود به نحو مناسبی صورت پذیرفته باشد. اگر مولفه های مفقود به طریق مناسب معین شده باشند، ایده فازی مطرح شده دقت بازشناسی شبکه عصبی را در نسبت های پایین سیگنال به نویز تا 5% و دقت بازشناسی حاصل از مدل مخفی مارکف را بین یک تا دو درصد نسبت به روش غیر فازی بهبود می بخشد. در ادامه پیاده سازی ها از روش سری تیلور برداری برای تخمین میانگین نویز استفاده شد و به کمک آن مقادیری را به عنوان نسبت سیگنال به نویز(snr) به مولفه های مختلف بردارهای بازنمایی تخصیص دادیم. سپس با قرار دادن آستانه ای به عنوان حد آستانه قابل اطمینان بودن روی مقادیر به دست آمده، مولفه ها را به دو کلاس قابل اطمینان و غیرقابل اطمینان تفکیک نمودیم. با تکرار مراحل قبل جهت بازسازی و بازشناسی بردارها بهبودی در نتایج حاصل نشد. این امر دلالت بر عدم کارایی روش به کارگرفته شده جهت تعیین ماسک ها دارد.

Already have an account?login

similar resources

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

full text

بازشناسی مقاوم گفتار با روش دادگان مفقود با استفاده از شبکه عصبی دوسویه

عملکرد سیستم های بازشناسی گفتار (asr) زمانی که گفتار توسط نویز تخریب شده باشد، به شدت کاهش می یابد. روش های ویژگی های مفقود قصد دارند که این کاهش بازشناسی را با حذف مولفه هایی از نمایش زمانی- فرکانسی گفتار (اسپکتروگرام) که بیانگر نسبت سیگنال به نویز (snr) پایین باشند، کاهش دهند. این روش ها اثر خود را در نتایج صحت بازشناسی نشان می دهند که در مقابل اثر نویز جمعی، مقاوم بودن بالای خود را بروز می د...

15 صفحه اول

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

full text

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

full text

بهبود نرخ بازشناسی گفتار در شرایط نویزی با استفاده از روش های غیرخطی تبدیل ویژگی

یکی از مراحل اصلی در روند بازشناسی گفتار، استخراج ویژگی ها می باشد. در حقیقت ویژگی های مربوط به نمونه های هر کلاس باید بگونه ای از کلاس های دیگر متمایز شده باشند که سیستم بازشناسی گفتار در شرایط مختلف مانند نویز نیز عملکرد مناسبی از خود نشان دهد. تبدیل ویژگی می تواند پس از استخراج ویژگی بکار رود تا به این متمایزسازی کمک نماید. روش های تبدیل ویژگی را می توان به دو گروه خطی و غیرخطی تقسیم نمود. و...

15 صفحه اول

ارتقاء کیفیت بازشناسی گفتار تلفنی و غیر تلفنی با استفاده از اشتراک دانش آوایی دادگان

سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازش...

15 صفحه اول

My Resources

Save resource for easier access later

Save to my library

document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد

Keywords

دادگان مفقود بازشناسی مقاوم گفتار شبکه های عصبی مدل مخفی مارکف

Hosted on Doprax cloud platform doprax.com