غزال شیخی

نام پژوهشگر: غزال شیخی

تحلیل مرزهای هجایی سیگنال گفتار با استفاده از ویژگیهای مقاوم به نویز و خصوصیات پروزودیک

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی 1385
غزال شیخی فرشاد الماس گنج

با توجه به اینکه زبان فارسی زبانی نسبتا هجامحور است در این پروژه تقطیع سیگنال گفتار فارسی به واحدهای هجایی مورد توجه قرار گرفته است. هدف از این پروژه آن است که تنها با استفاده از سیگنال گفتار و کمیت های پروزودیک آن، تقطیع به واحدهای هجایی در محیط تمیز و آلوده به نویز با صحت قابل قبولی انجام شود. در این کار ابتدا انرژی زمان کوتاه سیگنال گفتار مورد پردازش قرار گرفته است. روش های مورد استفاده در این زمینه عبارتند از روش آستانه ثابت، روش آستانه متغیر، استفاده از تاخیر تجمعی و استفاده از نرم کننده فازی. نتایج حاکی از آن است که در محیط عاری از نویز روش نرم سازیِ فازیِِ تابع انرژی به ترتیب نسبت به روش های آستانه ثابت و آستانه متغیر بهترین صحت را نشان می دهد. با این حال نسبت درج مرز اضافه در آن زیاد است. در شرایط آلوده به نویز نیز روش تاخیر تجمعی علیرغم صحت پایین کمترین افت صحت را نشان می دهد. پس از آن روش نرم سازی فازی قرار می گیرد.امکان استفاده از منحنی فرکانس پایه در تقطیع هجایی نیز مورد بررسی قرار گرفته است. به این منظور از مدل های ساده منحنی فرکانس پایه در سطح کلمات استفاده شده است. نتایج نشان می دهند استفاده از این مدل ها به تنهایی، حتی در تقطیع کلمات مجزا به واحدهای هجایی صحت قابل-قبولی ندارد. بنابراین در نهایت امکان ترکیب ویژگی های منحنی فرکانس پایه(ناپیوستگی منحنی و مقدار میانگین آن) با روش های مبتنی بر تابع انرژی مورد بررسی قرار گرفته است. نتایج بررسی ها نشان می دهند استفاده از ناپیوستگی منحنی فرکانس پایه می تواند خطای درج مرز اضافه را در روش نرم سازی فازی کاهش دهد. استفاده از میانگین فرکانس پایه نیز می تواند میزان افت صحت را در این روش کاهش دهد.در نهایت نتایج حاکی از آن است در شرایط تمیز با استفاده از این روش درحدود %93 از مرزها با خطایی کمتر از 50 میلی ثانیه آشکار می شوند. ضمن آنکه خطای حذف و درج جمعا در حدود %10 است. در حضور نویز نیز از ترکیب روش تاخیر تجمعی با روش فازی به منظور افزایش میزان مقاومت به نویز استفاده شده است. در حضور نویز با نسبت سیگنال به نویز 10 دسی بل در حدود %7/86 از مرزها با خطایی کمتر از 50 میلی ثانیه آشکار می شوند. ضمن آنکه مجموع خطای حذف و درج در حدود %15 است.

۱۵ صفحه ی اول