نام پژوهشگر: محمدمهدی همایون پور
امیرحسین حاج احمدی محمدمهدی همایون پور
با توجه به اهمیت و نقش بالای مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای محیطی، در این مجموعه ابتدا تأثیر استفاده از پیک های طیف دنباله خودهمبستگی به عنوان ویژگی های مقاوم برای استفاده در سیستم های بازشناسی گوینده مورد بررسی قرار گرفته است. سپس تأثیر روش های هنجارسازی ویژگی ها مانند روش حذف میانگین کپسترال، روش پس پردازش mva و روش ویژگی های مفقود بر پیک های طیف دنباله خودهمبستگی برای مقاوم سازی در مقابل نویزهای جمع شونده و کانال در بازشناسی گوینده بررسی شده است. همچنین جهت استفاده از روش ویژگی های مفقود در سیستم های بازشناسی گوینده یک مدل کلی ارایه گردیده است. در این پروژه همچنین برای افزایش کارایی روش ویژگی های مفقود و امکان استفاده از آن برای استخراج پیک های مقاوم تر از طیف دنباله خودهمبستگی، تغییراتی چه در تخمین ماسک و چه در بدست آوردن مدل بازسازی مناسب پیشنهاد شده است. استفاده از ماسک های مبتنی بر شبکه های عصبی که عمل تخمین ماسک را به کمک تخمین نسبت سیگنال به نویز محلی انجام می دهند و از قدرت تعمیم بالایی نیز برخوردار هستند و انتخاب مدل بازسازی مناسب با کمک فاصله وزن دار با وزن های حاصل از ماسک های نرم برای استفاده در سیستم های بازشناسی مبتنی بر بازسازی طیف نگار با روش ویژگی های مفقود، پیشنهاد و مورد آزمایش و بررسی قرار گرفته شده است. آزمایش های انجام شده در راستای مقاوم سازی سیستم های بازشناسی گوینده، بر روی دادگان فارسدات تلفنی انجام شده است. از نتایج آزمایش های اولیه مشخص شد که استفاده از انرژی طیفی سیگنال به عنوان یک ویژگی در سیستم های بازشناسی گوینده، مقاومت این سیستم ها را به میزان قابل توجهی کاهش می دهد. همچنین مشخص شد، پیک های طیف دنباله خودهمبستگی که در آنها از مشتق گیری طیف ِ توان استفاده شده است، نسبت به ویژگی های mfcc دارای مقاومت بیشتری درمقابل به نویزهای جمع شونده هستند. همچنین نتایج نشان دهنده مقاومت بالای پیک های طیف دنباله خودهمبستگی سیگنال گفتارِ استخراج شده از طیف نگار دنباله خودهمبستگی بازسازی شده با روش ویژگی های مفقود در مقابل نویزهای جمع شونده است. درنهایت برای سیستم های بازشناسی گوینده استفاده از روش پس پرداز mva را به برای مقاوم سازی بیشتر ویژگی های استخراج شده در حوزه کپسترال در مقابل نویزهای جمع شونده و کانال می توان پیشنهاد کرد. در این پروژه استفاده از روش ویژگی های مفقود با استفاده از تخمین ماسک به کمک شبکه های عصبی و انتخاب مدل بازسازی مناسب با استفاده از فاصله وزن دار، و نیز روش پس پردازش mva برای استفاده در سیستم های بازشناسی گفتار مقاوم در مقابل نویز نیز مورد آزمایش قرار گرفته اند. نتایج آزمایش های انجام شده جهت مقاوم سازی سیستم های بازشناسی گفتار بر روی دادگان aurora2 نشان می دهند که هم روش ویژگی های مفقود و هم روش پس پردازش mva از توانایی بالایی در مقاوم سازی سیستم های بازشناسی گفتار در مقابل نویزها برخوردار هستند. همچنین نتایج امیدوارکننده ای با استفاده از اعمال هر دو روش ویژگی های مفقود و روش پس پردازش mva بدست آمده است.
معصومه بحرینی محمدمهدی همایون پور
هدف از انجام این پایان نامه، مدلسازی نوای گفتار فارسی با استفاده از روش های داده گرا، برای سیستم های تبدیل متن به گفتار فارسی می باشد. روش های داده گرای بکار گرفته شده، شامل منحنی های متعدد تقریب انطباقی (مارس)، شبکه عصبی و ماشین پشتیبان بردار می باشند. مارس، تکنیکی برای تخمین یک تابع با بعد بالا با داده های خلوت می باشد که از روی داده ها پارامترها و ساختار مدل را بدست می آورد و قابلیت تفسیر مدل را فراهم می کند. ماشین پشتیبان بردار قابلیت تعمیم بسیار بالایی دارد به طوری که در اکثر موارد، کارایی آن در آموزش و تست، تقریبا یکسان می باشد. شبکه عصبی در محیط های نویزی خیلی خوب عمل می کند اما امکان تفسیر خروجی ندارد. نوای گفتار شامل دیرش، فرکانس پایه و انرژی آن می باشد که معمولا مقدار دیرش برای هر واج گفتار تخمین زده می-شود و فرکانس پایه و انرژی به صورت یک منحنی برای کل گفتار، تولید می شود. مقدار دیرش هر واج، با استفاده از روش مارس، شبکه عصبی و ماشین پشتیبان بردار تخمین زده شد و با استفاده از نتایج مارس، اهمیت عوامل موثر در کشش و تعامل بین عوامل، مورد تحلیل واقع شد. با توجه به زیاد بودن تعداد داده ها و سرعت پایین ماشین پشتیبان بردار در آموزش و آزمایش، دو شیوه متفاوت بکار گرفته شد. در روش اول با استفاده از چندی سازی برداری در فضای ورودی، تعداد داده های آموزشی به میزان قابل توجهی کاهش یافت و در روش دوم، فضای خروجی با توجه به مقدار دیرش هر داده، به چند خوشه تقسیم شد و برای هر خوشه، یک مدل تخمین جداگانه، ایجاد گردید. هر دو روش زمان آموزش و تست سیستم را با حفظ کارایی کاهش دادند. به منظور تولید منحنی گام، از روش فوجی ساکی، تیلت و منحنی های قطعه قطعه استفاده شد. روش فوجی ساکی برای منحنی گام، دو جزء دستورات تکیه و عبارت را فرض می کند که هر کدام دارای پارامترهای خاص خود هستند. پارامترهای دستورات تکیه، برای هجاهای تکیه بر و پارامترهای دستورات عبارت، برای اولین هجای عبارت های نوایی گفتار تخمین زده می شود و با استفاده از این پارامترها، منحنی گام با بکارگیری فرمول فوجی ساکی، تولید می شود. به منظور تخمین پارامترها، روش های مارس، شبکه عصبی و ماشین پشتیبان بردار بکار گرفته شدند که نتایج آزمایش ها نشان داد، روش مارس قادر به تخمین کلیه پارامترهای فوجی ساکی نمی باشد. مدل تیلت، منحنی گام را به صورت دنباله ای از رویدادهای آهنگین فرض می کند. رویدادهای اصلی شامل تکیه زیروبمی (a) و نواخت های مرزی (b) هستند. هر دو نوع رویداد با پارامترهای زمان شروع رویداد، فرکانس پایه در لحظه شروع رویداد، میزان دیرش، اندازه و عدد تیلت مدل می شوند. با استفاده از این پارامترها و یکسری فرمول، شکل کنتور f0 برای این رویداد ها تولید می شود و سپس با اتصال کلیه رویداد ها به یکدیگر، کل منحنی گام تولید می شود. با استفاده از روش های یادگیری ماشین، پارامترهای تیلت برای کلیه هجاهای متن تخمین زده شدند. در روش منحنی های قطعه قطعه، برای هر واج منحنی گام تولید می شود و از اتصال کلیه این منحنی ها، منحنی گام برای کل گفتار بدست می آید. منحنی هر واج با استفاده از چند جمله ای درجه دوم تولید می شود و برای تخمین ضرایب این چند جمله ای ها، از روش های داده گرا استفاده می شود. در زمینه انرژی گفتار، ابتدا عوامل تاثیرگذار روی مقدار انرژی بررسی گردید و سپس با استفاده از آن عوامل، به مدلسازی منحنی انرژی پرداخته شد. منحنی انرژی گفتار نیز، با استفاده از روش منحنی های قطعه قطعه مدلسازی گردید که در آن برای هر واج، منحنی انرژی اش تولید می شود و از اتصال این منحنی ها، منحنی انرژی کل گفتار بدست می آید. منحنی هر واج با استفاده از چند جمله ای درجه دوم تولید می شود و برای تخمین ضرایب این چند جمله ای ها، از روش های داده گرا استفاده می شود. به منظور ارزیابی نتایج، تست شنیداری mos و همچنین معیارهای ضریب همبستگی و میانگین مربع خطا، محاسبه شد.
شهریار عیسی پور محمدمهدی همایون پور
این تحقیق به شناسایی کسره اضافه در متون فارسی اختصاص دارد. روشهای مورد استفاده برای شناسایی کسره اضافه باید به گونه ای باشند که بتوانند بدون محدودیت در کلیه متون مورد استفاده قرار گیرند. همچنین در هنگام تشخیص دارای سرعت مناسبی نیز باشد. برای آموزش و تست روشهای ارایه شده در این تحقیق از پیکره زبان فارسی تهیه شده توسط پژوهشگاه هوشمند علایم استفاده گردیده استکه برای بخش تست آن از 1000 متن این پیکره هر کدام یک جمله استخراج گردید. تا تنوع موضوعی بیشتری را شامل شود. پس از تبیین اهمیت مسیله با ارایه چند جمله نمونه و توضیح حوضه اضافه به بررسی این حوزه از دید زبانشناسان پرداخته ایم. با استفاده از بررسی نتایج بدست آمده از مطالعات پیشین به این نتیجه رسیدیم که برای شناسایی کسره اضافه دو راه حل وجود دارد. راه اول روشی است مبتنی بر بدست آوردن نقش نحوی هر کلمه در جمله و بدست آوردن درخت تجزیه جمله. برای این کار می توان از روشهای گرامری موجود استفاده کرد. از طرف دیگر برای شناسایی کسره اضافه، باید روشی مورد استفاده قرار گیرد که دارای کمترین ابهام باشد. از طرف دیگر برای کاهش ابهام در روشهای بر پایه دانش، باید حجم زیادی از دانشهای مورد نیاز را با صرف هزینه و وقت بسیار ذخیره سازی کرده و مورد استفاده قرار دهیم. به همین دلیل به استفاده از گرامر مستقل از متن احتمالاتی برای بدست آوردن درخت تجزیه جمله پرداختیم که نتایج حاصل این روش در حدود 93% درصد بوده است. راه دیگر شناسایی کسره اضافه استفاده از روشهای یادگیری ماشین می باشد. در این روشها نیازی به ذخیره حجم فراوانی از دانشهای زبانی موجود نمی باشد. بنابر این دارای هزینه کمتری است. از طرف دیگر از آنجا که نیازی به بررسی حجم زیاد دانش نمی باشد، بنابر این سرعت تست بالاتری نیز نسبت به روشهای بر پایه دانش دارند. با بررسی انجام پذیرفته بر روی خصوصیات کسره در متون فارسی مشاهده گردید که اکثر کلمات دارای کسره شامل اسم می شود و همانگونه که می دانیم این گروه از کلمات دارای تنوع فراوانی می باشند. از طرف دیگر احتمال دارای کسره بودن در همه انواع کلمات کمتر از احتمال فاقد کسره بودن است. با توجه به این مسیله، بسیاری از روشهای یادگیری ماشین در شناسایی کسره دچار مشکل می شوند. مشکل ایجاد شده را بایاس می نامیم. به همین دلیل از دو روش ماکزیمم آنتروپی و حوزه تصادفی شرطی استفاده کرده ایم. در این دو روش بر خلاف سایر روشهای آماری به علت استفاده نکردن از احتمال کلاس مانند آنچه که در روشهای بر پایه قانون بیز مورد استفاده قرار می گیرد، مشکل بایاس ایجاد نمی گردد. دو روش نام برده شده تنها از احتمال شرطی برای ساخت مدل استفاده می کنند. کارایی بدست آمده با این روشها در بهترین حالت به 98% درصد رسیده است. در این تحقیق برای ارزیابی کارایی سیستمهای مختلف ارایه شده از معیارهای متفاوتی مانند ضریب کاپا و معیار recall، precision و f-value استفاده کرده ایم. در نهایت نیز بااستفاده از نتایج بدست آمده مشاهده گردید که برای شناسایی کسره اضافه استفاده از بافت متنی بهتر از استفاده از سایر ویژگیهای مورد استفاده می باشد.