نام پژوهشگر: منصور ولی
میثم خلیل ارجمندی محمد پویان
امروزه بروز ناهنجاری های صوتی، با توجه به افزایش رفتارهای اجتماعی ناسالم و استفاده نامناسب و غیر طبیعی از دستگاه تولید صدا، به طور فزاینده ای روبه رشد می باشد. از اینرو تشخیص ناهنجاری های دستگاه تولید گفتار در مراحل اولیه ابتلا به آن می تواند تاثیر بسزائی در تشخیص و درمان به موقع این بیماری ها داشته باشد. هدف این تحقیق بررسی انواع ناهنجاری هایی می باشد که منشاء آنها در تارهای صوتی است. بر این اساس در یک بررسی کیفی با اعمال تبدیل فوریه، تبدیل فوریه زمان-کوتاه و تبدیل موجک پیوسته میزان توانایی این روش ها در نمایش مشخصات تفکیک کننده سیگنال های واکه نرمال از غیرنرمال مورد ارزیابی قرار گرفته است. همچنین، قدرت طبقه بندی ویژگی های زمان-بلند در بازشناسی واکه-های نرمال از غیرنرمال تحقیق شده است. در میان روش های کاهش بعد ویژگی، آنالیز تفکیک خطی و آنالیز مولفه ی اساسی به همراه روش های انتخاب ویژگی مورد ارزیابی قرار گرفته اند. درنهایت، تکنیک تبدیل بسته موجک، با توجه به آنکه اطلاعات جزئی، اساسی و متمایزکننده ای را از سیگنال گفتار واکه به منظور بازشناسی ناهنجاری صوتی استخراج می کند، در جهت استخراج ویژگی های مناسب انتخاب شده است. از اینرو، توانایی ویژگی های انرژی و آنتروپی سیگنال در گره های خروجی درخت بسته موجک در بهبود نرخ بازشناسی مورد ارزیابی قرار گرفته است. الگوریتم بهینه نهایی شامل ویژگی-های آنتروپی استخراج شده از گره های خروجی بسته موجک به همراه آنالیز تفکیک خطی و طبقه بندی کننده ماشین بردار پشتیبان می باشد، که منجر به بازشناسی %100 شده است. روش پیشنهادی منجر به نرخ بازشناسی بالا در تشخیص ناهنجاری های صوتی و ارائه الگوریتم ساده تر شده است. همچنین مزیت دیگر نتایج پیشنهادی این است که گونه های متنوع تری از ناهنجاری در نظر گرفته شده است.
ایمان اسمعیلی منصور ولی
سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازشناسی آوا های گفتار فارسی طراحی شده است. به این ترتیب که بردارهای بازنمایی لگاریتم انرژی بانکهای فیلتر (lfbe) از سیگنال گفتار تلفنی و میکروفنی استخراج شده و به صورت توأمان به یک شبکه عصبی دو سویه تعلیم داده می شوند. در طی فرایند آموزش، از دانش آوایی نهفته در لایه مخفی شبکه استفاده شده، وزنهای شبکه در جهت افزایش صحت بازشناسی آوا اصلاح می شوند. سپس توسط همین شبکه کلیه بردارهای بازنمایی گفتار تلفنی و میکروفنی با چند دور گردش در شبکه اصلاح می شوند. فرآیند فوق، برای اصلاح مجدد بردارهای بازنمایی گفتار تلفنی و میکروفنی از روی بردارهای اصلاح شده قبلی، توسط شبکه عصبی دوسویه تکرار شده و آنها را بردارهای بازنمایی اصلاح شده دو مرحله ای می نامیم. سپس برای ارزیابی کارآیی شبکه دوسویه در اصلاح بردارهای بازنمایی، سه سری از مدلهای مخفی مارکف (hmm) برای بازشناسی آواها تعلیم داده می شوند. سری اول مدلهای تعلیم داده شده بر روی بردارهای بازنمایی اصلاح نشده که آنها را مدلهای مرجع می نامیم، سری دوم مدلهای تعلیم داده شده بر روی بردارهای بازنمایی اصلاح شده یک مرحله ای و سری سوم مدلهای تعلیم داده شده بر روی برداهای بازنمایی اصلاح شده دو مرحله ای هستند. با اعمال تبدیل کسینوسی گسسته بر روی بردارهای بازنمایی lfbe، بردارهای بازنمایی mfcc نظیر آنها بدست می آیند. صحت بازشناسی آوای گفتار میکروفنی با بردارهای اصلاح شده یک مرحله ای lfbe و mfcc به ترتیب 4 و 4/3 درصد و با بردارهای بازنمایی اصلاح شده دو مرحله ای lfbe و mfcc 3/5 و 7/4 درصد نسبت به مدل مرجع افزایش می یابد و درصد بازشناسی گفتار تلفنی با بردارهای بازنمایی اصلاح شده یک مرحله ای lfbe و mfcc 1/7 و 1/6 درصد و با بردارهای بازنمایی اصلاح شده دو مرحله ای lfbe و mfcc 2/8 و 3/9 درصد نسبت به مدل مرجع افزایش می یابد. به منظور محک زدن شبکه در شرایط عدم انطباق، مدلهای آموزش دیده با بردارهای بازنمایی میکروفنی توسط بردارهای بازنمایی تلفنی ارزیابی شده اند. در این شرایط، صحت بازشناسی مدل های تعلیم یافته توسط بردارهای بازنمایی میکروفنی که توسط بردارهای بازنمایی تلفنی اصلاح شده یک مرحله ای و دو مرحله ای ارزیابی شده اند به ترتیب 3/22 درصد و 6/26 درصد نسبت به مدل آموزش دیده با بردارهای بازنمایی اصلاح نشده افزایش می یابد. در ادامه روش اصلاح بردارهای بازنمایی مبتنی بر شبکه عصبی دوسویه با روشهای معمول تطبیق مدل (mllr, map وmllr+map) ترکیب می شوند. صحت بازشناسی ترکیب بردارهای اصلاح شده با تکنیکهای map, mllr و mllr + map در مدلهای hmm تعلیم داده شده با برداربازنمایی اصلاح شده دو مرحله ای به ترتیب 7/37 درصد، 6/39 درصد و 2/40 نسبت به مدل آموزش دیده با بردارهای بازنمایی اصلاح نشده، افزایش می یابد. نتایج به خوبی نشان می دهد که فرضیه ما مبنی بر توانایی شبکه عصبی در اصلاح بردارهای بازنمایی میکروفنی و تلفنی و موثر بودن ترکیب آن با روشهای تطبیق مدل صحیح است.
حجت محمدنژاد منصور ولی
عملکرد سیستم های بازشناسی گفتار (asr) زمانی که گفتار توسط نویز تخریب شده باشد، به شدت کاهش می یابد. روش های ویژگی های مفقود قصد دارند که این کاهش بازشناسی را با حذف مولفه هایی از نمایش زمانی- فرکانسی گفتار (اسپکتروگرام) که بیانگر نسبت سیگنال به نویز (snr) پایین باشند، کاهش دهند. این روش ها اثر خود را در نتایج صحت بازشناسی نشان می دهند که در مقابل اثر نویز جمعی، مقاوم بودن بالای خود را بروز می دهند. در این پایان نامه، ما از یک شیوه ی رایج جبران سازی دادگان که در آن عناصر مفقود، برای بدست آوردن اسپکتروگرام کامل بازسازی می شوند استفاده خواهیم کرد که از آن با عنوان جبران سازی مبتنی بر دادگان مفقود یاد می شود. در این شیوه برای تخمین مولفه های مفقود اسپکتروگرام، از همبستگی بین مولفه ها، استفاده می شود. در ادامه یک شیوه جدید مطرح می کنیم که الگوی ویژگی های مفقود را با دیدگاهی نو به عنوان مسئله جبران سازی دادگان مطرح می کند. در این روش از شبکه عصبی دوسویه بهره گرفته می شود که به صورت هم زمان بر روی دادگان تمیز و نویزی جهت بازشناسی آواهای گفتار آموزش داده می شود تا با انجام یک سری پردازش های غیر خطی و دوطرفه (جلوسو و برگشتی) بتوان از دانش نهفته در مدل، ناشی از یاد گرفتن گفتار تمیز و نویزی بهره گرفته و بردارهای بازنمایی گفتار را در جهت افزایش صحت بازشناسی آواهای گفتار بهبود بخشید. در هر دو روش ویژگی های کپستروم بدست آمده از اسپکتروگرام بازسازی شده، برای بازشناسی مورد استفاده قرار می گیرند بدون اینکه سیستم بازشناسی نیازی به اصلاح داشته باشد. روش مبتنی بر دادگان مفقود، از دو بخش شناسایی مولفه های مفقود و اصلاح آن ها تشکیل شده است. روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، از این قاعده مستثنی بوده چرا که نیازی به شناسایی مولفه های مفقود ندارد و بازسازی را در جهت هرچه شبیه تر شدن تمامی مولفه ها (خواه معتبر باشد خواه نامعتبر) به مولفه های گفتار تمیز صورت می دهد و این یک برتری بسیار چشمگیری است که در این تحقیق حاصل شده است؛ چرا که در عمل، بحث شناسایی مولفه های مفقود، که یک بحث چالش برانگیز در تمامی روش های بکارگرفته شده در جهت بازشناسی مقاوم گفتار است و ارتباط مستقیمی با میزان صحت بازشناسی دارد را حذف می کند. ارزیابی هایی که در این تحقیق بر روی دو روش ذکر شده صورت گرفت، بهبود 2/4 درصدی بر روی صحت بازشناسی بدست آمده برای گفتار نویزی تخریب شده توسط نویز با نسبت سیگنال به نویز 0 db با استفاده از روش اصلاح ویژگی مبتنی بر دادگان مفقود، حاصل کرد و بهمان نحو بهبود 5/8 درصدی را برای همان نرخ نویز تخریبی با استفاده از روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، به نمایش گذاشت. در آخر کار با ترکیب دو روش یاد شده، توانستیم پیشرفت چشمگیری در حدود 10 درصد در روند بازشناسی سیگنال های تخریب شده بدست آوریم.
محسن قدیانی منصور ولی
برای مقاوم سازی سیستم بازشناسی گفتار در برابر عوامل مزاحم محیطی (نویز جمع شونده، اثر اعوجاج کانال انتقال و نویزهای گذرا) سه ایده کلی وجود دارد: 1- استخراج ویژگی های مقاوم(robust feature extraction) 2- بهبود کیفیت بردارهای بازنمایی (feature enhancement) 3- اصلاح مدل بازشناسی صوتی (acoustic model compensation) در ایده اول سعی می شود تا از ویژگی ها و پارمترهایی از سیگنال گفتار برای ساخت بردارهای صوتی بازنمایی استفاده شود (feature هایی انتخاب شوند) که تنها تابعی از خود سیگنال گفتار بوده و ذاتا در برابر نویز مقاوم اند، یعنی در حضور نویز تغییر چندانی نمی کنند. در نتیجه بردارهای بازنمایی حاصل از این feature ها برای سیگنال گفتار تخریب شده توسط نویز تا حدود زیادی شبیه به بردارهای بازنمایی سیگنال گفتار تمیز هستند. بنابراین بردارهای بازنمایی استخراج شده در برابر نویز مقاوم خواهند بود. از جمله مهمترین تکنیک های مورد استفاده در این راستا، "نظریه دادگان مفقود" (missing feature approaches) است. در ایده دوم یعنی ارتقا کیفیت بردارهای بازنمایی ، این بردارها به یکی از روش های متداول (مانند mfcc) از فریم های سیگنال گفتار استخراج می شوند ، اما قبل از اعمال به مدل بازشناسی صوتی به گونه ای اصلاح می شوند که تا حد ممکن مشابه با بردارهای بازنمایی سیگنال گفتار تمیز باشند. سپس این بردارهای بازنمایی اصلاح شدهبه یکی از مدل های صوتی بازشناسی متداول اعمال می شوند تا کلاس آوایی مناسب برای هر بردار بازنمایی تعیین شود. در واقع می توان این گونه فرض کرد که یک بلوک پیش پردازنده بین بلوک های استخراج ویژگی و مدل صوتی قرار می گیرد که وظیفه آن اصلاح بردارهای بازنمایی صوتی است. تکنیک بردار سری تیلور (vector taylor series)از جمله بهترین روش های موجود در این زمینه به شمار می رود. سومین ایده بر پایه جبران سازی ضعف های مدل صوتی بازشناسی است. استخراج بردارهای بازنمایی به یکی از روش های معمول صورت می گیرد و در نتیجه بردارهای بازنمایی شامل ویژگی های سیگنال گفتار تخریب شده به مدل صوتی بازشناسی اعمال می شوند، اما مدل به گونه ای تقویت شده است که قابلیت استخراج کلاس های آوایی صحیح برای هر بردار بازنمایی را داراست. امروزه از روش های متفاوتی برای بالاتر بردن نرخ بازشناسی (recognition rate) استفاده می شود که بسته به مشخصات سیگنال گفتار (مقدار snr ، تلفنی بودن یا نبودن آن و اطلاعات اولیه موجود) و نویز موجود بر روی آن (نویز جمع شونده ، اثر اعوجاج کانال یا نویزهای گذرا) انتخاب می شوند. در بسیاری از موارد نیز از ترکیبی از این تکنیک ها برای کاراتر شدن سیستم بازشناسی گفتار استفاده می شود در چند سال اخیر ، دو تکنیک " نظریه دادگان مفقود" (missing feature approaches) و " بردار سری تیلور " (vts) به شکل گسترده ای در سیستم های بازشناسی گفتار به کار گرفته شده و تحقیقات وسیعی در زمینه افزایش کارایی آن ها صورت گرفته است. به گونه ای که در حال حاضر، این دو تکنیک پر کاربردترین و بهینه ترین متدهای مورد استفاده در بازشناخت سیگنال گفتار تخریب شده توسط نویز محیطی به شمار می روند. این دو تکنیک به ویژه در مواردی که نسبت سیگنال به نویز پایین است ، راندمان بسیار مناسبی دارند. تکنیک های حذف نویز جمع شونده و اثر کانال در حالت کلی فرضیاتی را در زمینه سیگنال گفتار تمیز و شرایط محیطی در نظر می گیرند و به این وسیله feature های گفتار نویزی را به گفتار تمیز تبدیل می کنند. در بین این تکنیک ها، vts طرفداران فراوانی دارد، چون این قابلیت را دارد که با یک مدل خطی ساده، اثرات اغتشاش های کاملا غیر خطی را حذف کند. در تکنیک vts ، feature های گفتار تمیز با مجموعی از یک توزیع گوسی(gmm) مدل می شوند و سپس پارامترهای این مدل) (?,m با استفاده از بسط تیلور بردارهای ویژگی سیگنال گفتار تخریب شده بر اثر نویز و کانال محاسبه می شوند. پارامترهای توزیع گوسی در نظر گرفته شده برای نویز و همچنین پارامترهای کانال انتقال از طریق اعمال الگوریتم em و با update شدن مکرر در طی چند iteration تخمین زده می شوند. با استفاده از الگوریتم vts می توان بردار ویژگی های سیگنال گفتار تمیز x را از روی سیگنال نویزی تخمین زد. در این حالت فرض می کنیم pdf بردار ویژگی گفتار تمیز با یک توزیع گوسی مدل می شود. در پروژه حاضر ، از بانک دادگان گفتار تلفنی فارسی farsdat به عنوان مجموعه دادگان تعلیم و تست سیستم بازشناسی گفتار استفاده می شود: ابتدا به سیگنال گفتار فوق ، نویز جمع شونده افزوده شده و سپس حاصل از یک کانال انتقال ناشناخته عبور می کند تا بانک دادگان گفتار تلفنی نویزی به دست آید. سپس این مجموعه به دو بخش دادگان train و دادگان test تقسیم می شود. دادگان train به سیستم بازشناسی گفتار اعمال شده و بردارهای بازنمایی سیگنال گفتار تخریب شده به روش mfcc استاندارد (هر بردار بازنمایی شامل 12 ضریب کپستروم و لگاریتم انرژی فیلتر بانک به همراه مشتقات اول و دوم آن ها) استخراج می شوند. سپس این بردارهای بازنمایی با استفاده از تکنیک vts اصلاح می شوند تا بردارهای حاصل تا حد ممکن نزدیک به بردارهای ویژگی گفتار تلفنی تمیز باشند. این بردارهای بازنمایی به مدل صوتی بازشناسی اعمال می شوند تا در پروسه تعلیم آن مورد استفاده قرار گیرند. پس از تعلیم سیستم ، از باقیمانده دادگان تخریب شده برای تست و ارزیابی عملکرد سیستم بازشناسی طراحی شده استفاده می کنیم. همین مراحل برای یک سیستم بازشناسی معمولی (بدون اصلاح بردارهای بازنمایی)انجام می شود و نتایج حاصل از دو روش (با اصلاح بردارهای بازنمایی و بدون اصلاح بردارهای بازنمایی) به ازای نسبت های سیگنال به نویز مختلف با هم مقایسه می شوند تا میزان بهبود ایجاد شده در عملکرد قابل اندازه گیری باشد.
سارا پورمحمدی منصور ولی
تحقیق حاضر به بررسی مجموعه تکینیک های گسترش مصنوعی پهنای باند (bwe ) سیگنال گفتارمی پردازد. امروزه با وجود پیشرفت چشمگیر در فن آوری ارتباطات، محدودیت های موجود در پهنای باند انتقال شبکه های تلفنی موجب کاهش کیفیت و ادراک پذیری سیگنال گفتار می گردد.گسترش مصنوعی پهنای باند، مولفه های نیمه بالایی طیف را به گفتار باند محدود تلفنی اضافه می کند و در اثر بازسازی سیگنال باند گسترده، قابلیت ادراک گفتار افزایش قابل قبولی خواهد یافت. در تحقیق حاضر فرض اساسی بر این است که همبستگی خوبی بین مولفه های طیفی باند پائین با بخشهای بالایی طیف گفتار وجود دارد. براساس مدل تولید گفتار انسان، مجموعه روش های مورد استفاده برای گسترش پهنای باند شامل دو مرحله مجزای گسترش سیگنال تحریک و تخمین پوش طیف فرکانس بالای گفتار هستند. مرحله بازسازی پوش دارای اهمیت بیشتری بوده و کلید اصلی دستیابی به کیفیت بالا در گسترش مصنوعی پهنای باند به شمار می رود. در این پایان نامه دو روش مدل ترکیب گوسی ( gmm ) و شبکه عصبی – که استفاده از آن در حوزه bwe چندان متداول نبوده است - برای تخمین پوش طیف فرکانس بالا پیاده سازی شده و برای گسترش سیگنال تحریک روش تاکردن طیف به کار رفته است. پارامترهای بازنمایی مورد استفاده برای بازتولید ضرایب فیلتر لوله صوتی و سنتز گفتار باند گسترده، ضرایب کپسترال فرکانسی مقیاس مل (mfcc ) و لگاریتم انرژی فیلتر بانک مل (lfbe ) هستند. مجموعه دادگان مورد استفاده timit می باشد. نتایج ارزیابی های عینی به دست آمده از پیاده سازی ها، بیانگر عملکرد بهتر شبکه عصبی نسبت به تکنیک gmm است. به گونه ای که مقدار بهبود ناشی از جایگزین کردن تکنیک gmm با شبکه عصبی برای تخمین پوش طیف، برای دو معیار اندازه گیری lsd و itakura-saito، به ترتیب برابر 9/2 دسی بل و 3/0 دسی بل برای بردار بازنمایی lfbe محاسبه می گردد. همچنین نشان داده شده است که بردارهای بازنمایی lfbe نسبت به mfcc به ازای هر دو تکنیک gmm و شبکه عصبی راندمان بالاتری دارند.
سیدایمان موسویان قهفرخی منصور ولی
بازشناسی گوینده به شناسایی فرد از روی سیگنال گفتار گفته می شود. در یک سیستم بازشناسی گوینده دو بخش اصلی مطرح است، بخش اول استخراج بردارهای بازنمایی مناسب و بخش دوم استفاده از یک مدل خوب که بتواند به بهترین نحو نشان دهنده گوینده متناظر با خودش باشد، که در زمینه شناسایی گوینده بردارهای بازنمایی mfcc و مدل gmm بسیار مرسوم و مورد توجه هستند. موضوع بسیار مهمی که در سال های اخیر مورد توجه محققان قرارگرفته است بحث مقاوم بودن یک سیستم بازشناسی گوینده و عملکرد خوب در محیط طبیعی می باشد. در یک سیستم بازشناسی با مدل gmm، نواحی همپوشانی گوسین ها مربوط به بردارهای بازنمایی مشترک بین افراد مختلف است، که خطای قابل ملاحظه ای را ایجاد می کند. در سال 2007 آقای سانیل با ارائه ی روشی برای حذف این نواحی توانست بهبود قابل ملاحظه-ای ایجاد کند ولی این روش به دلیل هزینه محاسباتی زیاد برای تعداد 8 گوینده اجرا شد. در این پایان نامه از gmm-ubm به دلیل حجم محاسبت کمتر و سرعت بالاتر استفاده شد. این مدل با ساخت یک مدل کلی برای همه ی افراد و سپس بروزرسانی کردن مدل برای تک تک افراد حجم محاسبات را کم کرده و قابلیت محاسبه ی سریع امتیازات را دارا می-باشد لذا باعث افزایش سرعت سیستم می شود. با بکارگیری gmm-ubm در روش مبتنی بر حذف نواحی همپوشانی ما توانستیم یک سیستم بازشناسی گوینده به ازای 70 گوینده تعلیم داده و بطور میانگین صحت شناسایی را به میزان1/1درصد برای دادگان تست با طول 5 ثانیه تا 2/4 درصد برای دادگان تست با طول 5 دقیقه نسبت به gmm-ubm افزایش دهیم.
صادق مسجودی منصور ولی
بر خلاف سیستم شنوایی انسان ها، سیستم های خودکار بازشناسی گفتار نسبت به نویز زمینه بسیار حساس هستند. این اثر ناشی از تفاوت مابین آمارگان مدل های گفتار تعلیمی است با آنچه که در شرایط واقعی از آنها استفاده می شود. جبران نکردن چنین عدم انطباقی، دقت سیستم های بازشناسی را به شدت کاهش می دهد. در این گزارش، جهت جبران عدم انطباق بین دادگان تعلیم و تست از یکی از روش های ویژگی مفقود تحت عنوان بازسازی مبتنی بر خوشه یابی استفاده شده است. در روش های معمول بازسازی مبتنی بر خوشه یابی، بردارهای بازنمایی لگاریتم انرژی فیلتر بانک های ورودی مربوط به دادگان تمیز تعلیمی خوشه بندی می شوند. سپس برای بازسازی بردارهای بازنمایی نویزی دو مرحله پردازش روی آنها صورت می پذیرد. در مرحله نخست مولفه های هر بردار بازنمایی نویزی ورودی به دو بخش قابل اطمینان و غیر قابل اطمینان تفکیک می شوند. در مرحله دوم مولفه هایی که برچسب غیرقابل اطمینان(ماسک ها) خورده اند بر اساس آمارگان نزدیکترین خوشه به آن بردار که بر مبنای مولفه های قابل اطمینان بردار شناسایی شده است، با استفاده از یکی از روش های ماکزیمم احتمال پسین بازیابی می شوند. در این پایان نامه ایده ای جدید مبنی بر استفاده مفیدتر از اطلاعات واقع در مولفه های غیر قابل اطمینان مطرح شده است. در این روش با استفاده از یک تابع عضویت فازی با فازی نمودن نسبت سیگنال به نویز(snr) تخمینی مولفه های مختلف بردارهای بازنمایی ضریبی تحت عنوان ضریب تصحیح به بردار بازسازی شده و متمم فازی آن به بردار بازنمایی نویزی تخصیص داده شده و بردار حاصل جمع این دو بردار به عنوان بردار بازسازی شده نهایی تلقی می شود. با فرض اینکه گام اول بازسازی مبتنی بر خوشه یابی یعنی تفکیک مولفه های هر بردار به دو کلاس قابل اطمینان و غیرقابل اطمینان به نحو مناسبی انجام شده باشد، ایده مطرح شده نویدبخش بهبود در نتایج بازشناسی بود. به منظور بازشناسی بردارهای بازسازی شده، ابتدا از آنها تبدیل گسسته کسینوسی گرفته و ویژگی های mfcc را از آنها استخراج نمودیم. جهت ارزیابی و مقایسه روش ها از ویژگی های mfcc روی دو مدل بازشناسی، یکی شبکه عصبی و دیگری مدل مخفی مارکف استفاده گردید. مطابق انتظار ارزیابی ها نشان دادند بازسازی ها هنگامی موثر واقع می شوند که گام نخست یعنی شناسایی مولفه های مفقود به نحو مناسبی صورت پذیرفته باشد. اگر مولفه های مفقود به طریق مناسب معین شده باشند، ایده فازی مطرح شده دقت بازشناسی شبکه عصبی را در نسبت های پایین سیگنال به نویز تا 5% و دقت بازشناسی حاصل از مدل مخفی مارکف را بین یک تا دو درصد نسبت به روش غیر فازی بهبود می بخشد. در ادامه پیاده سازی ها از روش سری تیلور برداری برای تخمین میانگین نویز استفاده شد و به کمک آن مقادیری را به عنوان نسبت سیگنال به نویز(snr) به مولفه های مختلف بردارهای بازنمایی تخصیص دادیم. سپس با قرار دادن آستانه ای به عنوان حد آستانه قابل اطمینان بودن روی مقادیر به دست آمده، مولفه ها را به دو کلاس قابل اطمینان و غیرقابل اطمینان تفکیک نمودیم. با تکرار مراحل قبل جهت بازسازی و بازشناسی بردارها بهبودی در نتایج حاصل نشد. این امر دلالت بر عدم کارایی روش به کارگرفته شده جهت تعیین ماسک ها دارد.
سید محمد صادقی منصور ولی
شناسایی خودکار زبان گفتاری به تشخیص زبان از روی سیگنال گفتار گفته می شود. این سیستم ها اغلب با مقایسه امتیاز تعلق سیگنال گفتار به زبان های مختلف تصمیم گیری می کنند. در این تحقیق برای اصلاح روش gmm-ubm که از روش های به روز بازشناسی زبان است، روشی جدید مبتنی بر بردارهای ویژگی منتخب مطرح شد که در آن تنها تعدادی از بردارهای ویژگی گفتار که به صورت هم پوشان در تمامی زبان ها وجود دارد و موجب ایجاد خطا می گردد، حذف گردد. در این روش با بکارگیری بردارهای ویژگی منتخب شیفت یافته کپسترال (sdc)، یک مدل مخلوط آمیزه ای (gmm) توسط دادگان غیرهم پوشان هر یک از زبان ها، از روی مدل پس زمینه جامع (ubm) تطبیق داده می شود. نتایج این روش با روش متداول gmm-ubm که روی دادگان ogi-ts برای شناسایی 5 زبان آموزش داده شده است و قبل از مرحله آموزش، نواحی سکوت با استفاده از آشکارسازی نواحی گفتاری (vad) حذف شده اند، مقایسه شده است. سیستم های بازشناسی برای سه دسته از فایل های گفتار آزمون 3 ثانیه ای، 10 ثانیه ای و 45 ثانیه ای ارزیابی شده اند و بهترین نتایج حاصله در روش مبتنی بر بردارهای منتخب نسبت به روش gmm-ubm مبتنی بر vad برای فایل های گفتار آزمون 3 ثانیه ای، 10 ثانیه ای و 45 ثانیه ای به ترتیب منجر به 29/6، 47/5 و 76/2 درصد بهبود در نرخ بازشناسی زبان (lir) شده است. در پایان برای بهبود عملکرد سیستم بازشناسی، تصمیم گیری نهایی برای انتخاب زبان هدف به عهده یک شبکه عصبی مصنوعی نهاده شده است که به عنوان یک پس پردازش گر امتیازات خروجی عمل می نماید.
احسان عکافی منصور ولی
پرخیشومی از رایج ترین اختلالات در کودکان دارای شکاف کام است. عموماً برای کاهش این نقیصه نیاز به عمل های جراحی است و بنابراین ارزیابی خیشومی بودن برای بررسی تأثیر عمل های جراحی و همچنین طراحی جلسات گفتاردرمانی که بعد از عمل های جراحی نیاز است، حیاتی می باشد. مدل های تمام قطب مانند ar برای مدل سازی سیستم لوله صوتی افراد دارای شکاف کام به دلیل صفرهایی که در پاسخ فرکانسی فیلتر لوله صوتی این افراد ظاهر می شود، دقیق نیستند، بر این اساس در این پایان نامه یک روش کمّی جدید برای تخمین میزان پرخیشومی بودن ارائه شده است. در روش ارائه شده میزان پرخیشومی بودن با کمّیتی که از محاسبه فاصله بین بردار ضرایب کپستروم استخراج شده از ضرایب مدل ar و مدل arma بدست آمده ارزیابی شده است. روش k-means و روش بیز برای یافتن حد آستانه مناسب برای طبقه بندی دادگان به کار رفت. با پیاده سازی الگوریتم پیشنهادی برای مجموعه دادگان شامل واکه های /a/ استخراج شده از کلمه آزمون /pamap/ که توسط 13 فرد دارای شکاف کام و 22 فرد نرمال بیان شده است، صحت تراز شده 18/82 درصد برای طبقه بندی گویش ها و صحت تراز شده 72/97 درصد در سطح افراد بدست آمد. از آنجایی که روش ارائه شده تنها به پردازش کامپیوتری دادگان نیاز دارد، نسبت به روش های کلینیکی دیگر، روشی ساده و غیر تهاجمی است.
ربابه شنکایی منصور ولی
از آنجاییکه احساسات می توانند بر نحوه صحبت افراد تأثیر بگذارند، با پردازش سیگنال صحبت افراد می توان اطلاعات زیادی از آن استخراج نمود. در این مطالعه سعی شده با استخراج ویژگی های پروزودیک (پیچ و انرژی)، راه های هوایی(فرمنت ها) و پالس چاکنای از سیگنال گفتار، افراد افسرده و سالم از همدیگر تمایز داده شوند. همچنین در این مطالعه پایگاه داده ای به زبان فارسی تهیه شده است که در آن چهار گروه از دانش آموزان دبیرستانی سالم، افسرده بدون درمان، افسرده قبل از درمان و افسرده بعد از درمان دو نوع متن علمی و احساسی را خوانده اند. طبقه بندی ویژگیها با استفاده از ماشین بردار پشتیبان صورت گرفته است. نتایج نشان می دهد که متن علمی در تمایز بین افراد افسرده و سالم نتایج بهتری نسبت به متن احساسی دارد. همچنین پروتوکول درمانی با تغییر میانگین تست بک افراد افسرده از 21 به 19 نتیجه مطلوبی را در جهت درمان افراد به همراه داشته است. که این نتیجه در پردازش سیگنال گفتار آنها نیز با 92 درصد صحت مورد تایید قرار گرفته است.
ایمان عسگری منصور ولی
لکنت زبان یکی از مهمترین و رایج ترین اختلالات گفتاری است. مهمترین رخدادهای لکنت زبان نیز شامل تکرار، کشش و مکث می باشد. گفتار درمانگر در پروسه درمان فرد دارای لکنت زبان، باید یک ارزیابی از میزان ناروانیهای گفتار شخص قبل و بعد از درمان داشته باشد اما این ارزیابی بصورت کیفی بوده و نتیجه ارزیابی نیز به شدت تحت تاثیر عوامل محیطی است که بیمار در آن قرار دارد. روشهای پردازش گفتار ابزار مناسبی برای کمی کردن این ارزیابی و قابلیت استفاده از آن در شرایط مختلف محیطی را فراهم می کنند. انواع روشهای پردازش گفتار این ارزیابی را از طریق قطعه بندی و طبقه بندی رخدادها انجام می دهند. از آنجا که بیشتر تحقیقات انجام شده در این حوزه قطعه بندی را به صورت دستی انجام داده و سپس به طبقه بندی ناروانی های گفتار توسط طبقه بندهای مختلف می پردازند از شناسایی خودکار ناروانیها فاصله می گیرند لذا در این پایان نامه روش های مجزایی برای قطعه بندی و شناسایی خودکار ناروانیِ کشش و تکرار ارائه شده که در آن نیازی به طبقه بندی ناروانیهای گفتار نمی باشد. در روش ارائه شده محل ناروانی های کشش و تکرار در گفتار فرد دارای لکنت زبان شناسایی می گردند. دادگان مورد استفاده در این تحقیق 18 سیگنال گفتار محتوی 65 نمونه ناروانی کشش و 17 سیگنال گفتار محتوی 67 نمونه ناروانی تکرار می باشد که از دادگان گفتاری uclass جدا شده اند. الگوریتم پیشنهادی برای شناسایی خودکار محل کشش مشتمل بر فریم بندی سیگنال، قطعه بندی سکوت/صوت و شباهت سنجی بین فریمهای مجاور در هر قطعه گفتار می باشد. برای شباهت سنجی از ویژگیهای mfcc گفتار استفاده شده است و در نهایت در بهترین الگوریتم پیشنهادی این رساله صحت %15/81 در شناسایی خودکار محل وقوع ناروانی کشش بدست آمده است. برای شناسایی خودکار محل ناروانی تکرار، الگوریتم مشابه قبل بوده با این تفاوت که شباهت سنجی بین قطعات گفتاری مجاور هم صورت می گیرد. در این حالت نتایج صحت %6/74 را نشان می دهد. از آنجا که رایج ترین راه ارزیابی لکنت زبان استفاده از یک گفتار درمانگر و شمارش دستی رخدادهای لکنت زبان است و این روش زمان بر و با خطاهای زیاد همراه می باشد، روش ارائه شده جهت کمک به گفتار درمانگران در ارزیابی بیماران دارای لکنت زبان بسیار مفید می باشد.
مسعود فرحی منصور ولی
در پژوهش حاضر با استفاده از یک سطح آستانه روی انرژی سیگنال گریه در سطح فریم، قسمت های سکوت را از سیگنال گریه نوزاد شناسایی و حذف می کنیم. پس از استخراج ویژگی، آنها را می بایست به طبقه بندی کننده svm اعمال نماییم. جهت کاهش بُعد یا ویژگی معولاً از pca استفاده می شود. در پیاده سازی این پژوهش با محاسبه میانگین ویژگی های مستخرج از فریم های غیرسکوت، کاهش بُعد انجام شده است. کاهش حجم محاسبات و افزایش سرعت اجرای برنامه از مزایای استفاده از این روش نسبت به pca است. جهت طبقه بندی دو کلاس سالم و ناشنوا از دو نوع داده "کامل" و "قطعه بندی شده ی یک ثانیه ای" استفاده کردیم. در طبقه بندی سیگنال های قطعه بندی شده یک ثانیه ای با بردار ویژگی 7mfcc و مشتق اول آن به بهترین صحت بازشناسی (52/98 %) رسیدیم. در طبقه بندی سیگنال های کامل با بردار ویژگی 9mfcc و مشتق اول آن به بهترین صحت بازشناسی (54/95 %) دست یافتیم. در طبقه بندی چهار کلاس سالم، دارای درد، گرسنه و دارای کمبود اکسیژن با سیگنال های قطعه بندی شده یک ثانیه ای بعنوان ورودی و با استخراج ویژگی 7mfcc به صحت بازشناسی 24/76 % دست یافتیم. در طبقه بندی سیگنال های کامل از چهار کلاس بالا و استخراج ویژگی های 9mfcc، جیتر، شیمر به بهترین صحت بازشناسی (56/78 %) دست یافتیم.
مریم ملاشاهی منصور ولی
در بیماری پارکینسون(pd) ، صوت سریعتر و بیش از دیگر زیرسیستمهای گفتار تحت تاثیر قرار می گیرد. هدف از این پژوهش بررسی معلولیت ناشی از اختلال صوت متعاقب پارکینسون در افراد فارسی زبان و یافتن پارامترهایی است که این معلولیت های صوتی را به خوبی نشان دهد با ثبت سیگنال صوتی ناشی از تلفظ واکه ها و سپس استخراج ویژگیهای مناسب از آنها، می توان اختلال در حرکت تارهای صوتی فرد مبتلا به پارکینسون را شناسایی کرده و از روی آن قادر خواهیم بود تا بیماری را حتی قبل از بروز سایر علائم بالینی تشخیص دهیم. در این تحقیق، 27 فرد مبتلا به پارکینسون( 15مرد و 12 زن) و 21 فرد سالم (10 مرد و 11 زن ) با میانگین سنی 18/8±59/60 (مرد94/8 ± 6/61 و زن 3/7 ± 33/59 ) در بیمارستان حضرت رسول اکرم(ص) دانشگاه تهران، انتخاب و سیگنال صوتی آنها بصورت ادای 6 واکه فارسی ثبت شد. از سیگنالهای صوتی بدست آمده از هر فرد دو نوع ویژگی استخراج شد. ویژگی نوع اول، با محاسبه ضرایب ویولت در سه سطح بسته ویولت و سپس محاسبه آنتروپی آنها در 8 سطح بدست آمد. ویژگی دوم پارامتر جیتر صوت است که میانگین تغییرات پیچ گفتار فرد را اندازه گیری می کند. این دو نوع ویژگی به یک طبقه بند نوع ماشین بردار پشتیبان (svm) داده شد و صحت بازشناسی فرد سالم از بیمار ارزیابی گردید. استفاده از ویژگیهای آنتروپیِ ضرایب ویولت، به تنهایی به میزان 73.2% قابلیت تشخیص افراد مبتلا به پارکینسون از سالم را فراهم کرد، این نتیجه بر روی داده هایی بدست آمد که در پزوهش های گذشته اعلام شده بود که هیچ تفاوت معناداری بین صوت افراد سالم و مبتلا به پارکینسون مشاهده نشده بود . در اغلب افراد مبتلا به پارکینسون فارسی زبان، اختلال صوت ناشی از بیماری مشاهده می شود، با توجه به افراد مبتلا به پارکینسون در سنین بالا دچار این بیماری می شوند و حضور آنها در مراکز درمانی به سختی انجام می پذیرد، تست صوت راهکاری بسیار موٍثر به منظور تشخیص افراد مبتلا به پارکینسون می باشد.