نام پژوهشگر: بهرنگ پارسا

دسته بندی، شناسایی و استخراج پارامتر های سیگنال های صوتی به منظور تشخیص عیب واکه ها با استفاده از شبکه ی عصبی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی 1388
  بهرنگ پارسا   سید حسین ساداتی

در این پایان نامه، به منظور دستیابی به یک روش مناسب جهت تشخیص و ارزیابی تلفظ واکه-های ادا شده توسط فارسی زبانان و مقایسه ی آنها با تلفظ درست و بدون اشکال انگلیسی زبانان، از روش های شناسایی سیستم و شبکه ی عصبی استفاده شد. در فصل اول به ارائه ی ادبیات موضوع، اهداف تحقیق و روش های پیش رو برای انجام این پژوهش پرداخته شد. در فصل دوم، پس از تشریح مکانیزم گفتار و تولید اصوات در انسان و ارائه ی مقدماتی از روش-های مختلف معرفی شده در فصل قبل جهت آشنایی بیشتر، با کمک روش فانیکس، آواهای مختلف زبان انگلیسی اعم از واکه ها و هم خوان ها، دسته بندی شده و از میان آنها، تعدادی از آواهایی که فارسی زبانان به دلیل فقدان آنها در ساختار آواشناسی زبان فارسی و یا مأنوس شدن تلفظ نادرست آنها با واژگان این زبان عموماً اشتباه تلفظ می کنند، شناسایی و به تفکیک نوع اشکالات و عیوب گفته شده، انتخاب و با ذکر کلمات نمونه، مجدداً دسته بندی گردید. در فصل سوم، با تهیه ی یک پروتکل آزمایشی، کلمات انتخاب شده توسط جمعی از کاربران، با درجات مختلف تسلط به زبان انگلیسی ذخیره شد. تمامی شرایط مورد نظر جهت نمونه برداری درست اطلاعات تعیین شده، در نظر گرفته شده و به کاربران تفهیم شد. اطلاعات فردی و پیشینه ی زبان آموزی کاربران نیز در طی فرایند گفته شده، ثبت و اطلاعات آماری منتج از این اطلاعات، ارائه گردید. همین طور به منظور ارزیابی تلفظ های ذخیره شده، توسط چهار داور مسلط به زبان انگلیسی و به طور خاص، مطلع از روال و روند کار صورت گرفته در این تحقیق، امتیازدهی صورت گرفت و در پایان، میانگین امتیازات داده شده توسط داوران برای هر واکه، به عنوان خروجی مطلوب شبکه ی عصبی طراحی شده در فصل بعد، انتخاب شد. در فصل چهارم، به ارائه ی نتایج شبکه های عصبی طراحی شده پرداخته شد. ابتدا پس از استخراج پارامترهای سیگنال های به دست آمده در فصل قبل، برای مرتبه های سه تا چهارده مدل arx، با استفاده از روش شناسایی سیستم، نتایج به دست آمده از شبکه های عصبی طراحی شده برای چهار واکه ای که هر یک دارای یک دسته اشکالات تلفظی مورد بحث بودند، از طریق محاسبه ی مجذور میانگین مربعات مقایسه شده و مرتبه ی 9 که میانگین مقادیر به دست آمده برای آن، کمترین مقدار نسبت به بقیه بود، به عنوان مرتبه ی مناسب انتخاب گردید و بر این اساس، شبکه های پرسپترون چند لایه برای واکه های مختلف طراحی شد. از مجموع داده هایی که پردازش روی آنها صورت گرفته و اطلاعات استخراج شده به عنوان ورودی در اختیار شبکه قرار می گیرد، به طور متوسط برای هر کلمه، از 70 الگو برای آموزش شبکه استفاده شده و شبکه ی آموزش دیده، در شش مرحله و در هر مرحله توسط 10 الگو از مجموع 50 الگوی تست، مورد سنجش و ارزیابی قرار گرفت و در پایان، برای اطمینان از صحت کار و نتایج به دست آمده، از دو کمیت میزان همبستگی و مجذور میانگین مربعات برای دو دسته ی نمرات به دست آمده از طریق شبکه ی آموزش دیده و نمرات مطلوب که پیش از این توسط داوران داده شده بود، استفاده شد. به این صورت که برای هر یک از شش دسته ی ذکر شده، به طور جداگانه، میزان همبستگی امتیازات به دست آمده و امتیازات مطلوب محاسبه شده، مجذور میانگین مربعات امتیازات به-دست آمده و امتیازات مطلوب نیزمحاسبه گردید و میانگین این اعداد برای هر کلمه که نماینده-ی یکی از نمونه واکه های مورد نظر می باشد، به عنوان معیاری برای صحت فرایند آموزش، مورد محاسبه قرار گرفت. نتایج به دست آمده از آموزش شبکه، نشان می دهد که روش های به کار رفته در این تحقیق، به درستی انتخاب شده اند و می توان از آنها برای کارهای پیش رو نیز استفاده کرد. در مورد انتخاب کلمات، به نظر می رسد بهتر بود کلمات مناسب تری انتخاب می شدند که تمایز بین تلفظ های درست و نادرست، در آنها بیشتر به چشم می آمد. همان طور که در نمودارهای پایان فصل چهارم نشان داده شده است، در بعضی موارد، شبکه، امتیاز واکه ی مورد نظر را با اختلاف حدود 40 امتیاز، پیش بینی کرده است. این مساله، البته با توجه به دقیق نبودن و وجود اختلافاتی از این دست در چهار دسته امتیازات داده شده توسط داوران، تا حدودی طبیعی ست. اما وجود همین اختلاف امتیازها هم می تواند دلیلی برای تجدید نظر در بعضی کلمات انتخاب شده به عنوان شاخص واکه ی مورد نظر باشد. به عنوان یک مورد خاص، می توان از کلمه ی china نام برد که معمولا در تلفظ انگلیسی فارسی زبان ها، با اشتباه تلفظی / ?: / به جای / ? / همراه است. اما این تفاوت در تلفظ های ضبط شده، چندان واضح و مشخص نبوده و امتیازات داده شده توسط داوران نیز، از همبستگی کمتری با هم نسبت به دیگر کلمات برخوردار بود ولذا در شبکه های عصبی طراحی شده برای این کلمه، نتایج مناسبی به دست نیامد. نکته ی دیگر، تعداد الگوهای ورودی ست که به فرایند نمونه گیری و ضبط تلفظ کلمات بر می-گردد. برای طبیعی تر شدن جامعه ی آماری و در دست داشتن انواع متنوع تری از تلفظ های فارسی زبانان، بهتر است از اقشار مختلف جامعه، نمونه گیری صورت گیرد. در این تحقیق، با وجود تلاش های بسیاری که در این زمینه صورت گرفت، اما جامعه ی آماری به دست آمده، خالی از نقص نیز نبوده و به دلایل و معذوریت های مختلف، در ضبط و ذخیره سازی تلفظ بسیاری از اقشار جامعه، موفقیتی حاصل نشد. از آنجایی که نمونه برداری های مورد نظر، جهت انجام پردازش سیگنال و آموزش شبکه ی عصبی صورت گرفت، باید سعی می شد از ضبط صدا در شرایط استودیویی و بدون هیچ نویزی اجتناب کرده و نمونه برداری در شرایط طبیعی، اما حتی المقدور با حداقل نویز انجام شود که فراهم نمودن همین شرایط نیز در بسیاری از موارد، مقدور نبود. گذشته از این، مشکل دیگر در طی این فرایند، یافتن افراد بومی یا افرادی با پیشینه ی اقامت طولانی مدت در کشورهای انگلیسی آمریکایی زبان بود که تمایل به همکاری داشته باشند که این معضل به خصوص در یافتن خانم هایی با شرایط گفته شده، بیشتر به چشم می خورد. بدیهی ست در صورت مناسب بودن کلیه ی شرایط و تهیه ی الگوهای بیشتر، نتایج به دست آمده از شبکه های عصبی آموزش دیده نیز بهتر می شد.