نام پژوهشگر: فرشاد الماس گنج
غزال شیخی فرشاد الماس گنج
با توجه به اینکه زبان فارسی زبانی نسبتا هجامحور است در این پروژه تقطیع سیگنال گفتار فارسی به واحدهای هجایی مورد توجه قرار گرفته است. هدف از این پروژه آن است که تنها با استفاده از سیگنال گفتار و کمیت های پروزودیک آن، تقطیع به واحدهای هجایی در محیط تمیز و آلوده به نویز با صحت قابل قبولی انجام شود. در این کار ابتدا انرژی زمان کوتاه سیگنال گفتار مورد پردازش قرار گرفته است. روش های مورد استفاده در این زمینه عبارتند از روش آستانه ثابت، روش آستانه متغیر، استفاده از تاخیر تجمعی و استفاده از نرم کننده فازی. نتایج حاکی از آن است که در محیط عاری از نویز روش نرم سازیِ فازیِِ تابع انرژی به ترتیب نسبت به روش های آستانه ثابت و آستانه متغیر بهترین صحت را نشان می دهد. با این حال نسبت درج مرز اضافه در آن زیاد است. در شرایط آلوده به نویز نیز روش تاخیر تجمعی علیرغم صحت پایین کمترین افت صحت را نشان می دهد. پس از آن روش نرم سازی فازی قرار می گیرد.امکان استفاده از منحنی فرکانس پایه در تقطیع هجایی نیز مورد بررسی قرار گرفته است. به این منظور از مدل های ساده منحنی فرکانس پایه در سطح کلمات استفاده شده است. نتایج نشان می دهند استفاده از این مدل ها به تنهایی، حتی در تقطیع کلمات مجزا به واحدهای هجایی صحت قابل-قبولی ندارد. بنابراین در نهایت امکان ترکیب ویژگی های منحنی فرکانس پایه(ناپیوستگی منحنی و مقدار میانگین آن) با روش های مبتنی بر تابع انرژی مورد بررسی قرار گرفته است. نتایج بررسی ها نشان می دهند استفاده از ناپیوستگی منحنی فرکانس پایه می تواند خطای درج مرز اضافه را در روش نرم سازی فازی کاهش دهد. استفاده از میانگین فرکانس پایه نیز می تواند میزان افت صحت را در این روش کاهش دهد.در نهایت نتایج حاکی از آن است در شرایط تمیز با استفاده از این روش درحدود %93 از مرزها با خطایی کمتر از 50 میلی ثانیه آشکار می شوند. ضمن آنکه خطای حذف و درج جمعا در حدود %10 است. در حضور نویز نیز از ترکیب روش تاخیر تجمعی با روش فازی به منظور افزایش میزان مقاومت به نویز استفاده شده است. در حضور نویز با نسبت سیگنال به نویز 10 دسی بل در حدود %7/86 از مرزها با خطایی کمتر از 50 میلی ثانیه آشکار می شوند. ضمن آنکه مجموع خطای حذف و درج در حدود %15 است.
آرش محمدی فرشاد الماس گنج
با رشد روزافزون سیستمهای بازشناسی خودکار گفتار و گسترش کاربرد سیستمهای فوق در کاربردهای عملی و محیطهای واقعی مبحث بازشناسی گفتار به بستر اصلی تحقیقات دانشگاهی در زمینه پردازش گفتار بدل شده است. مقاوم سازی سیستمهای خودکار بازشناسی گفتار در برابر نویز امری ضروری جهت استفاده از چنین سیستمهایی در محیطهای واقعی است. در این پایان نامه مقاوم سازی بازشناسی گفتار پیوسته در سطح واج در حوزه بازنمایی بستر تحقیقات قرار گرفت و جهت نیل به این هدف از روش ویژگیهای از دست رفته در حوزه بازنمایی استفاده شده است. در روش مورد بررسی ابتدا به هر کدام از اجزاء اسپکتروگرام سیگنال نویزی با توجه به تخریب ناشی از نویز برچسب قابل اعتماد و غیرقابل اعتماد زده می شود و اجزایی که برچسب غیرقابل اعتماد خورده اند از نمایش حذف می شوند. با توجه به افزونگی ذاتی اطلاعات در سیگنال گفتار می توان انتظار داشت که در دقت بازشناسی با استفاده از اجزای باقیمانده و غیرنویزی بهبود حاصل شود. دو رویکرد برای برخورد با اسپکتروگرام ناقص مطرح است: رویکرد ناقص پیش از بازشناسی و استفاده از مدلهای معمول است که در این پایان نامه رویکرد دوم مورد بررسی قرار گرفته است. مساله اصلی در رویکرد دوم چگونگی بازسازی ویژگیهای از دست رفته با استفاده از ویژگیهای قابل اعتماد است. جهت بازسازی پس از پیاده سازی الگوریتمهای پیشنهادی در کارهای پیشین سه ایده جدید ارایه گردید. نخست استفاده از ویژگیهای قابل اعتماد است. جهت بازسازی پس از پیاده سازی الگوریتمهای پیشنهادی در کارهای پیشین سه ایده جدید ارایه گردید. نخست استفاده از خوشه بندی آوایی جهت بهبود روش خوشه بندی معمولی. مدل سازی بردارهای طیفی با استفاده از توزیع لاپلاس و تخمین ویژگیهای از دست رفته بااستفاده از پارامترهای توزیع لاپلاس ایده دوم این پایان نامه بوده و در نهایت سومین ایده بهره گیری از همبستگی های زمانی جهت بازسازی اسپکتروگرام ناقص با استفاده از کالمن فیلتر می باشد.
پگاه طیرانیان حسینی فرشاد الماس گنج
پردازش سیگنال های گفتاری بیماران و مقایسه ی آنها با سیگنال های گفتاری ثبت از افراد سالم، یکی از رایج ترین روشهایی است که با استفاده از آن می توان به بررسی میزان ناهنجاری قسمت های مختلف دستگاه تولید گفتار در انسان پرداخت. هدف از به کارگیری روش های غیرتهاجمی، انجام امور تشخیصی و ارائه ی راهکارهای پیشگیرانه، کمک درمانی و درمانی است. با بهره گیری از چنین روش هایی، می توان با ثبت سیگنال گفتاری افراد توسط یک میکروفون و با صرف هزینه و زمان کم، به بررسی احتمال بروز گونه های بدخیمی از بیماری های جهاز صوتی، به ویژه حنجره و تارهای صوتی، در مراحل اولیه ی آن ها پرداخت. در این پایان نامه، به استخراج ویژگی های خطی سیگنال صوتی و بررسی آن ها پرداخته شده است. این ویژگی ها برای ناهنجاری های متفاوت، توسط چند نوع طبقه بندی کننده، از یکدیگر جدا می شوند و برای بهبود نتایج، از الگوریتم ژنتیک و الگوریتم های موسوم به درخت بهینه استفاده می شود. نتایج حاصل نشان می دهد که امکان جداسازی ناهنجاری ها، با تغییر الگوریتم های بهینه یابی به شدت تغییر می کند و به دست آوردن بهترین روش انتخاب ویژگی بهینه، می تواند راهکار مناسبی برای رسیدن به هدف جداسازی ناهنجاری ها باشد. برای مثال برای جداسازی ناهنجاری پولیپ و تشنج از یکدیگر، با اعمال الگوریتم ژنتیک بر ویژگی های مرحله ی پنجم ویولت، به نتیجه ی 75% خواهیم رسید. حال آنکه، اعمال این الگوریتم بر ویژگی های حاصل از معیارهای هلینگر، فیشر و عدم شباهت، به ترتیب نتایج 80%، 82.5% و 90% را ایجاد خواهد کرد. از طرفی، به جمع آوری دادگان بومی پرداخته شده است و روش های خود را بر این دادگان نیز اعمال کرده و به نتایجی که در فصل 7 مشاهده خواهید کرد دست یافتیم.
ایمان صراف رضایی فرشاد الماس گنج
بهبود نتایج بازشناسی سیستم های بازشناس خودکار گفتار، یکی از عرصه های مهم پیش روی محققان حوزه پردازش و بازشناخت گفتار است. علی رغم فعالیت های انجام یافته، نتایج به دست آمده از این سیستمهای ماشینی هنوز به نتایج بازشناسی سیستم شنوایی انسان نرسیده است. بناباین از آنجا که عملکرد سیستم بازشناسی گفتار در مقایسه با بازشناس های معمولی ماشینی محسوب می گردد، می توان امید داشت که با الهام گرفتن از عملکرد سیستمی و فیزیولوژیکی سیستم شنوایی انسان، نتایج بازشناسی این ماشین ها بهبود یابند. یکی از روش هایی که می توان به وسیله آن دقت بازشناسی واج سیستم را در شرایط تمیز و نویزی بهبود بخشید، استفاده از واحدهای زیر کلمه ای بزرگتر از واج می باشد، بازشناسی خوکار واج ها در گفتار پیوسته بسیار مشکل می باشد، زیرا تشخیص یک واحد توسط حس شنیداری فقط مربوط به آن واج نیست، بلکه قطعات مجاور آن نیز روی درک آن اثر می گذارند. تحقیقات محققان نشان می دهند که راه طبیعی درک یک زبان توسط مغز انسان بوسیله نگه داری و درک هجا می باشد و نه واج. همچنین سیستم شنوایی انسان قادر است تقریبا 200 میلی ثانیه از سیگنال گفتار را بدون اینکه اطلاعات مهم آن از بین برود، درک کند، که این مقدار، همبستگی مناسبی با طول یک هجا دارد. علاوه بر اینها طول زمانی هجا، کمتر از طول زمانی واج، به تغییرات نرخ صحبت گوینده وابسته می باشد. واحدهای زیر کلمه ای بزرگتر از واج به دلیل اینکه شامل فریم های زمانی بیشتری نسبت به آواها هستند، بهتر می توانند تغییرات تلفظی موجود در گفتار را مدل کنند. بسیاری از ویژگی های پروزودیک گفتار نیز با استفاده از هجاها، آسانتر و بهتر مدل می شوند. همچنین بهبود دقت و مقاومت بازشناسی با افزودن اطلاعات مرزهای واحدهای زیر کلمه ای با سامانه بازشناسی گفتار نیز تایید شده است . هدف از وارد کردن اطلاعات مرز، افزایش کارایی بازشناسی و کاهش زمان بازشناسی و همچنین مقاوم کردن سیستم در مقابل نویز می باشد. ما در این پایان نامه از واحدهای زیر کلمه ای بزرگتر از واج، در سیستم بازشناسی گفتار پیوسته زبان فارسی استفاده نمودیم. به این منظور واحدهای مختلفی مانند نیم هجا، هجا و واحدهای cv را به شکل های مختلف مورد آزمایش قرار دادیم. نتایج آزمایشات نشان می دهند که استفاده از واحدهای cv نسبت به بقیه واحدها، دقت و صحت سیستم را بیشتر افزایش می دهد. استفاده از این واحد، دقت سیستم بازشناسی واج گفتار تمیز و گفتار آلوده به نویز سفید 10db را به ترتیب حدود 5/5 درصد و 5/4 درصد، افزایش بخشید. کار دیگری که در این پایان نامه انجام شد، استفاده از اطلاعات مرز در سیستم بازشناسی گفتار بود. برای این کار ما اطلاعات مرز را به صورت یک بردار ویژگی، به ویژگی های معمول بازشناسی اضافه کردیم. این اطلاعات مرز را به صورت های مختلفی تعریف و تست نمودیم. با توجه به آزمایش های انجام شده به این نتیجه رسیدیم، که هنگامی که محل وقوع واج را به صورت یک ویژگی اضافی به سیستم بدهیم، این امر باعث افزایش مقاومت سیستم در برابر نویز می گردد. برای مثال دقت بازشناسی با استفادهاز این ویژگی و برای گفتار آلوده به نویز سفید، حدود 4%بهبود پیدا می نماید. برای بازشناس مرز واج از یک شبکه عصبی tmlp استفاده نمودیم.
بهرام وزیرنژاد فرشاد الماس گنج
در این رساله به ارائه روشهایی برای مدلسازی تلفظ در واژگان برای بهبود عملکرد سیستم بازشناسی گفتار پیوسته پرداختیم. تلفظ تحت تاثیر عوامل متعددی از جمله عوامل وابسته به گوینده و مستقل از گوینده می باشد. این عوامل می توانند موضعی و فرا موضعی باشند. بخشی از تحقیق حاضر به بررسی آماری میزان و نحوه تاثیر این عوامل از جمله نرخ بیان، احتمال وقوع کلمه، جایگاه هجا در کلمه، موضع تکیه در کلمه روی تلفظ در گفتار پیوسته تخصیص یافته است. در بخشهای بعدی با در نظر داشتن این عوامل به طراحی و آموزش مدل های تلفظی پرداختیم. مدل های ترکیبی آماری بعنوان یک مدل با کارایی بالا در این رساله طراحی و معرفی گردیدند. این مدل ها ترکیبی از قواعد تلفظی و درخت های تصمیم تعمیم یافته می باشند. نام درخت های تصمیم تعمیم یافته ناظر به این واقعیت است که هر یک از این درخت های تصمیم برای گروهی از کلمات با ساختار هجایی مشابه طراحی و آموزش می یابند و از این طریق اطلاعات تلفظ روی این گروه از کلمات را برای آموزش خود استفاده می نمایند. در تحقیقات مشابه تا کنون هر درخت تصمیم برای یک کلمه واحد طراحی و آموزش داده می شد. این نکته باعث قابلیت منحصر به فرد این نوع طراحی در آموزش درخت ها با استفاده از دادگانی با حجم محدود است که با راهکار های قبلی هرگز امکان پذیر نبود. ضمنا برای هر کلمه جدید که در دادگان آموزش دیده نشده است نیازی به آموزش مدل جدید نیست و درخت های موجود قادرند گونه های تلفظی آن را تولید نمایند. قواعد تلفظی بعنوان دومین قطعه از مدل های ترکیبی نیز بطور ذاتی قادرند اطلاعات تلفظ وابسته به متن واجی را از دادگانی با حجم متوسط یاد گیرند. مدل های ترکیبی در سه نوع ارائه گردیدند. نوع اول از این مدل های موسوم به مدل های ترکیبی ایستا برای تولید گونه های تلفظی کلمات از ساختار هجایی کلمه، هویت واج ها در مواضع مختلف، احتمال وقوع کلمه، جایگاه هجا در کلمه، موضع تکیه در کلمه و زمینه واجی برای تولید واژگان حاوی گونه های تلفظ بهره می برند. استفاده از واژگان حاصل از این مدل ها منجر به بهبودی معادل با 4/4% نسبت به واژگان مرجع در صحت بازشناسی گفتار شد. مدل های ترکیبی پویا علاوه بر این عوامل، نرخ صحبت را در تولید واژگان مورد نظر قرار می دادند. بهره گیری از این دسته از واژگان منجر به بهبودی معادل با 3/6% نسبت به واژگان مرجع در صحت بازشناسی گفتار پیوسته شد. در آخرین بخش از این رساله با توجه به اهمیت گوینده در بروز تنوعات تلفظی به ارائه قواعد تلفظی تطبیق یافته به گوینده در مدل های ترکیبی پویا پرداختیم و از این طریق مدل هایی را طراحی نمودیم که به نحو موثری ویژگی های گوینده را در تولید دسته های واژگانی حاوی تلفظ مورد استفاده قرار می دهند. با بکارگیری مدل های ترکیبی پویای تطبیقی در سیستم بازشناسی گفتار پیوسته بهبودی معادل با 1/8% تا 1/10% نسبت به واژگان مرجع در سیستم بازشناسی گفتار پیوسته مشاهده شد.
عزیزه راستگار فرشاد الماس گنج
دراین تحقیق طراحی و بکارگیری سیستمهای بازشناسی گوینده ارائه شده است. بازشناسی گوینده، استفاده از یک ماشین جهت بازشناسی یک شخص از یک عبارت بیان شده است. این سیستمها می توانند به دو روش عمل کنند : شناسایی یک شخص بخصوص یا تآیید ادعای شخص مدعی، شناسایی یک شخص با استفاده از ویژگیهای فیزیکی از قبیل گفتار، نمونه ای از اهمیت تجاری در زمینه امنیتی است. بازشناسی گفتار یک روش شناسایی شخص، مبتنی بر استخراج مشخصه از لغات صحبت شده و سپس طبقه بندی آنها بصورت وابسته به یک شخص است. هدف از اجرای این پروژه، بکارگیری سیستمی است که قادر به شناسایی یک شخص از نمونه گفتارش باشد. نتایج حاصل از این کار برای سیستم های وابسته به متن و مستقل از متن صادق می باشد. مشخصات بکارگرفته شده توسط این سیستم که دو نمونه گفتار را مقایسه می کند عبارتند از : تخمین pitch، اطلاعات طیفی (ضرائب ویولت) و ضرائب مل کپستروم. این مشخصات جهت ایجاد خصوصیات گفتار به کار می روند که در یک پایگاه داده ذخیره می گردند. در مرحله بعدی از یک نمونه گفتار تست با استفاده از الگوریتم های مذکور ویژگیها استخراج گردیده و با ویژگیهای گفتار ذخیره شده در پایگاه داده توسط شبکه عصبی مقایسه می شود و نتایج حاصله که حاکی از شخص شناسایی شده می باشد بدست می آید. در روش وابسته به متن انجام گرفته در این پروژه، یک گروه 30نفری از مرد وزن مورد آزمایش قرار گرفتند و برای روش مستقل از متن، از 50 گوینده دادگان فارس دات استفاده گردید. نتایج حاصل از بازشناسی، برای روش اول 100 درصد صحت بازشناسی و برای روش دوم 4 درصد خطا را نشان می دهند که در مقایسه با روش mfcc تقریبا 4 درصد بهبود حاصل گردیده است. برای افزایش درصد بازشناسی می توان از ترکیب ویژگیهای استخراج شده استفاده نمود. همچنین در این پروژه استفاده از ویژگیهای prosody باعث کاهش خطا در بازشناسی در حدود 10 درصد شده است.
فرهاد فغانی حمیدرضا ابوطالبی
چکیده ندارد.