نام پژوهشگر: غزال شیخی
غزال شیخی فرشاد الماس گنج
با توجه به اینکه زبان فارسی زبانی نسبتا هجامحور است در این پروژه تقطیع سیگنال گفتار فارسی به واحدهای هجایی مورد توجه قرار گرفته است. هدف از این پروژه آن است که تنها با استفاده از سیگنال گفتار و کمیت های پروزودیک آن، تقطیع به واحدهای هجایی در محیط تمیز و آلوده به نویز با صحت قابل قبولی انجام شود. در این کار ابتدا انرژی زمان کوتاه سیگنال گفتار مورد پردازش قرار گرفته است. روش های مورد استفاده در این زمینه عبارتند از روش آستانه ثابت، روش آستانه متغیر، استفاده از تاخیر تجمعی و استفاده از نرم کننده فازی. نتایج حاکی از آن است که در محیط عاری از نویز روش نرم سازیِ فازیِِ تابع انرژی به ترتیب نسبت به روش های آستانه ثابت و آستانه متغیر بهترین صحت را نشان می دهد. با این حال نسبت درج مرز اضافه در آن زیاد است. در شرایط آلوده به نویز نیز روش تاخیر تجمعی علیرغم صحت پایین کمترین افت صحت را نشان می دهد. پس از آن روش نرم سازی فازی قرار می گیرد.امکان استفاده از منحنی فرکانس پایه در تقطیع هجایی نیز مورد بررسی قرار گرفته است. به این منظور از مدل های ساده منحنی فرکانس پایه در سطح کلمات استفاده شده است. نتایج نشان می دهند استفاده از این مدل ها به تنهایی، حتی در تقطیع کلمات مجزا به واحدهای هجایی صحت قابل-قبولی ندارد. بنابراین در نهایت امکان ترکیب ویژگی های منحنی فرکانس پایه(ناپیوستگی منحنی و مقدار میانگین آن) با روش های مبتنی بر تابع انرژی مورد بررسی قرار گرفته است. نتایج بررسی ها نشان می دهند استفاده از ناپیوستگی منحنی فرکانس پایه می تواند خطای درج مرز اضافه را در روش نرم سازی فازی کاهش دهد. استفاده از میانگین فرکانس پایه نیز می تواند میزان افت صحت را در این روش کاهش دهد.در نهایت نتایج حاکی از آن است در شرایط تمیز با استفاده از این روش درحدود %93 از مرزها با خطایی کمتر از 50 میلی ثانیه آشکار می شوند. ضمن آنکه خطای حذف و درج جمعا در حدود %10 است. در حضور نویز نیز از ترکیب روش تاخیر تجمعی با روش فازی به منظور افزایش میزان مقاومت به نویز استفاده شده است. در حضور نویز با نسبت سیگنال به نویز 10 دسی بل در حدود %7/86 از مرزها با خطایی کمتر از 50 میلی ثانیه آشکار می شوند. ضمن آنکه مجموع خطای حذف و درج در حدود %15 است.