مسعود گراوانچی زاده

بهبود کیفیت گفتار با استفاده از الگوریتم های بهینه سازی اتفاقی

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1388
لاله بدری اصل مسعود گراوانچی زاده

بهسازی سیگنال گفتار آلوده به نویز یکی از مسائل مهم در پردازش سیگنال گفتار می باشد. در این پژوهش، هدف بررسی روشهای بهسازی سیگنال گفتار دوکاناله توسط الگوریتم های بهینه سازی اتفاقی (stochastic optimization algorithms) و ارزیابی عملکرد آنها با معیارهای استاندارد مختلف است. معمولاً برای طراحی سیستمی که بتواند به صورت وفقی نویز را از سیگنال آغشته به نویز کم کند، از الگوریتم های مبتنی بر گرادیان (gradient-based algorithms) استفاده شده است. ولی این روش ها در جستجوی نقطه مینیمم ممکن است در مینیمم محلی (local minimum) به دام بیافتند، که سبب کاهش کارآمدی سیستم بهسازی گفتار دوکاناله با استفاده از الگوریتم های مبتنی بر گرادیان می شود. به همین جهت، در این پایان نامه از الگوریتم های بهینه سازی اتفاقی برای حذف وفقی نویز استفاده شده است. این الگوریتم ها با انتخاب نقاط تصادفی در فضای جستجو و تغییر دادن مکان آنها به صورت هوشمند، فضای خطا را جستجو می کنند تا به نقطه مینیمم کلی برسند. همچنین در این پایان-نامه، برای بالا بردن عملکرد الگوریتم بهینه سازی ازدحام ذرات (spso)، روش های ابتکاری بر مبنای بهینه سازی اتفاقی پیشنهاد شده اند که شامل الگوریتم بهینه سازی کوانتوم وفقی ازدحام ذرات بر مبنای تولید مثل غیرجنسی (araqpso)، الگوریتم بهینه سازی ازدحام ذرات بر مبنای تولید مثل جنسی (srpso) و الگوریتم بهینه سازی ازدحام ذرات بر مبنای یادگیری (lpso) می باشند. در الگوریتم araqpso، ذراتی که فضا را جستجو می کنند، به صورت غیرجنسی تکثیر می شوند. افزودن این قابلیت به ذرات، سبب به وجود آمدن جستجوی محلی وفقی در اطراف ذرات می شود که متناسب با شایستگی آنهاست. در الگوریتم srpso، جمعیت اولیه به دو زیرگروه مذکر و مونث تقسیم می گردد که روش جستجو در هر کدام از آنها متفاوت است. همچنین، عملگرهای تقاطع و جهش سبب افزایش قابلیت الگوریتم در پیدا کردن راه حل بهینه می شوند. در نهایت، الگوریتم پیشنهادی دیگری به نام lpso را مطرح می کنیم که در آن از مدلی با چندین زیرگروه مبتنی بر روش های یادگیری اطلاعات (knowledge learning) و تغییر وفقی بهترین ذره (adaptive dynamic global best) استفاده کرده ایم.

First 15 pages

بهبود کیفیت گفتار بر پایه روش های زیر فضائی با استفاده از تکنیک های حذف نویز ادراکی

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1388
ساناز قایمی مسعود گراوانچی زاده

بهبود کیفیت سیگنال گفتار (speech enhancement)، نقش مهمی در سیستم های مخابراتی صوتی ایفا می کند. تکنیک های بهبود کیفیت سیگنال گفتار برای سمعک ها و وسایلی که در محیط های سیار استفاده می شوند، مانند تلفن های موبایل و hands free کاربرد زیادی دارند. روش های زیادی برای کاهش اثر نویز در سیگنال های صوتی ارائه شده است. از این میان می توان به روش های مبتنی بر تفریق طیفی، فیلتر وفقی، فیلتر وینر و تبدیل موجک اشاره نمود. همچنین تکنیک های متفاوتی جهت کاهش اثر نویز با استفاده از روش های غیر خطی نیز وجود دارد. در میان روش های ذکرشده جهت کاهش اثر نویز، می توان از تکنیک تجزیه به مقادیر منفرد (singular value decomposition; svd) در راستای بهبود کیفیت سیگنال ها از جمله سیگنال گفتار سخن گفت. روش های بهبود کیفیت گفتار در کنار حذف نویز از سیگنال گفتار باعث ایجاد اغتشاش و اعوجاج می شوند. اعوجاج واغتشاش با اعمال فیلتر نرم کننده طیف سیگنال گفتار بهبود یافته، کاهش می یابد، که این فیلتر از مشخصات سیستم شنوایی انسان کمک می گیرد. در این پایان نامه ابتدا روش های زیرفضای سیگنال ادراکی موجود را بررسی کرده و سپس الگوریتم های جدید زیرفضای سیگنال ادراکی به نام های pcritqsvd (perceptual constrained rank independent truncated quotient svd)، pcmritqsvd (perceptual constrained modified ritqsvd) و pcmritqsvd-pso (pcmritqsvd-particle swarm optimization) پیشنهاد می شوند. کارایی روش های زیرفضای سیگنال ادراکی جدید در مقایسه با روش های سنتی بهبود کیفیت سیگنال گفتار، بهبود داده می شود. معیارهای ارزیابی مختلفی بالا بودن کارایی این روش ها را نسبت به روش های قبلی نشان می دهند.

First 15 pages

جداسازی سیگنال صحبت بر پایه ica برای بهبود کیفیت گفتار

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1389
معصومه حسام مسعود گراوانچی زاده

تاکنون انواع مختلفی از تکنیک های بهبود گفتار مورد مطالعه قرار گرفته اند. از آنجایی که نویزهای متنوعی در محیط وجود دارند، هیچ یک از تکنیک های بهبود گفتار برای حذف همه انواع نویز مناسب نیستند. علاوه بر نویز پس زمینه در محیط، وجود سیگنال های تداخلی صحبت و همچنین انعکاس-های محیط، مسئله بهبود گفتار را پیچیده تر می کند و لزوم الگوریتم های حذف پژواک و تفکیک منابع را برای این منظور فراهم می آورد. اخیراً جداسازی کور منبع برای مخلوط های کانولوتیو در حوزه فرکانس به عنوان روشی برای تفکیک منابع صوتی معرفی شده است. در این روش از یکی از الگوریتم های ica همچون infomax به طور جداگانه در هر فرکانس، برای جداسازی مولفه های فرکانسی منابع استفاده می شود. الگوریتم infomax با اندازه گام ثابت از نظر همگرایی و پایداری دارای معایبی است. اگر اندازه گام کوچک انتخاب شود، سرعت همگرایی کاهش می یابد و اگر بزرگ انتخاب شود، ممکن است باعث ناپایداری الگوریتم شود. در بخشی از این پایان نامه روشی بر پایه تکنیک pso برای تعیین اندازه گام مناسب در الگوریتم infomax پیشنهاد می کنیم که موجب همگرایی بیشتر الگوریتم می شود. از سویی پس از جداسازی مولفه های فرکانسی منابع در هر فرکانس، برای بازسازی صحیح سیگنال ها از روی مولفه های فرکانسی در حوزه زمان باید مولفه های فرکانسی مربوط به هر یک از منابع دسته بندی شوند. این مسئله، جایگشت در حوزه فرکانس نام دارد و روش های متعددی برای حل آن وجود دارد. در بخش دیگری از این پایان نامه روشی برای حل مسئله جایگشت با استفاده از همبستگی نسبت توان (power ratio) مولفه های فرکانسی در حالت overdetermind، یعنی وقتی که تعداد میکروفون ها بیشتر از تعداد منابع باشد، پیشنهاد می شود.

First 15 pages

مکان یابی منابع صوتی با استفاده از روش های مستقیم پارامتری در حوزه فرکانس

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1390
امین شکارلو مسعود گراوانچی زاده

مطالب موجود در این پایاننامه به دو بخش اصلی مکانیابی و ردیابی تقسیم میشوند. روشهای چند مسیری برای مکانیابی منبع صوتی به صورت گسترده به دو دسته اصلی مستقیم و غیرمستقیم تقسیم میشوند. روشهای مستقیم به طور کلی، مکانهای منبع نامزد را جستجو و نامزد با احتمال زیاد را انتخاب میکنند که در نتیجه مکانیابی تنها در یک مرحله صورت می گیرد. روش بررسی شده برای مکانیابی در این پایاننامه، الگوریتم تخمین حداکثر احتمال از روشهای مستقیم میباشد که در حوزه فرکانس پیاده سازی شده است و در آن در مورد پیچیدگی محاسبات، مدل پژواک و تخمین ماتریس های بهره برای آرایه میکروفونی جهتی بحث شده و راهکاری بهینه برای هرکدام ارائه شده است. در ابتدا، در این الگوریتم مکانیابی، برای تخمین نویز موجود در محیط از بخشهای ساکت سیگنال صوتی استفاده شده است. سپس، برای بهبود کارکرد الگوریتم مکانیابی، تخمین نویز به روش مارتین بکار رفته است. بخش دوم از این پایاننامه به ردیابی منبع صوتی اختصاص داده شده است. در این بخش یک الگوریتم ردیابی ارائه شده که شامل روش مکانیابی منبع معرفی شده در بخش اول میباشد. میدانیم که راندمان الگوریتمهای مکانیابی در ردیابی منبع صوتی به خاطر حضور پژواک محیط کاهش مییابد. الگوریتم ردیابی استفاده شده در این پایاننامه روش فیلتر ذرات میباشد. با اعمال فیلتر ذرات و به خاطر وجود معادلات دینامیک منبع در این فیلترها، خطاهای موجود در روشهای مکانیابی مرسوم تا حدود زیادی کاهش می یابند و عملکرد روش مکانیابی بهبود مییابد. برای بهبود عملکرد فیلتر ذرات، یک تابع شرط پیشنهاد شده است. این تابع سبب کاهش پراکندگی ذرات و بهینه تر شدن کیفیت ردیابی میشود. ردیابی منبع صوتی در ابتدا با استفاده از روش تخمین حداکثر احتمال در مرحله مکانیابی، و سپس با اعمال تابع شرط در مرحله ردیابی، صورت می پذیرد. نتایج شبیه سازی حاکی از بهبود عملکرد مکانیابی با اعمال الگوریتم پیشنهادی فیلتر ذرات میباشد.

First 15 pages

جداسازی تک گوشی گفتار بی صدا بر پایه ی آنالیز ترکیب شنیداری

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1390
پریا دادور مسعود گراوانچی زاده

جداسازی تک گوشی گفتار از تداخل صوتی موضوع بسیار چالش انگیزی است. پژوهش های بسیاری در زمینه ی آنالیز ترکیب شنیداری محاسباتی (casa) به منظور جداسازی تک گوشی گفتار صدادار (voiced speech) از ترکیب های صوتی انجام شده است. با این وجود، جداسازی گفتار بی صدا (unvoiced speech) به عنوان یکی از چالش های مهم casa باقی مانده است. گفتار بی صدا به دلیل داشتن انرژی نسبتاً ضعیف و دارا نبودن ساختار هارمونیکی، در برابر تداخل بسیار آسیب پذیر است، که این مسأله جداسازی گفتار بی صدا را بسیار دشوار می سازد. در این پایان نامه، سیستم جدیدی به روش کاهش طیفی زیرباندی مبتنی بر نسبت سیگنال به نویز (snr-based sbss) برای جداسازی گفتار بی صدا از تداخل غیرگفتار ارائه می شود. در سیستم پیشنهادی، پس از انجام آنالیز محیطی و یک عمل پیش پردازش، برخی ویژگی های مهم سیگنال ترکیب استخراج می شوند. سپس، جداسازی گفتار بی صدا در دو مرحله صورت می گیرد: قسمت بندی و گروه بندی. در مرحله ی قسمت بندی، ابتدا گفتار صدادار و بخش های متناوب سیگنال تداخل حذف می شوند. سپس، با استفاده از ibm صدادار، فعالیت نویز در کانال های فرکانسی به )روش جدید آشکارسازی فعالیت کانالی نویز cnad) آشکار می شود و نسبت سیگنال به نویز سیگنال ورودی پیش پردازش شده تخمین زده می شود. آنگاه، انرژی نویز در هر کانال تخمین زده می شود و روش پیشنهادی snr-based sbss برای تولید قسمت های زمانی-فرکانسی در بازه های بی صدا به کار می رود. در مرحله ی بعد، قسمت های گفتار بی صدا بر اساس مشخصات فرکانسی گفتار بی صدا، با استفاده از یک روش آستانه گذاری ساده، گروه بندی می شوند. مقایسه ها و ارزیابی های اصولی با مدل hu & wang 2011 نشان می دهند که سیستم پیشنهادی، عملکرد سیستم های رایج جداسازی گفتار بی صدا را از نظر کیفیت و قابلیت فهم، به میزان قابل توجهی، بهبود می بخشد.

First 15 pages

جداسازی تک گوشی گفتار بر اساس pitch

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1390
صنم ایمانی شاملو مسعود گراوانچی زاده

حضور نویز در محیط های طبیعی غیرقابل اجتناب است. استخراج گفتار مورد نظر (هدف) از نویز پس زمینه دارای حوزه کاربرد وسیعی از قبیل تشخیص خودکار گفتار، وسایل کمک شنوایی و سیستم های مخابراتی راه دور میباشد. یک شنونده انسانی توانایی قابل توجهی در جداسازی ترکیب صوتی و توجه به یک صوت هدف دارد. این فرآیند ادراکی، آنالیز ترکیب شنیداری (auditory scene analysis) نامیده میشود. هدف آنالیز ترکیب شنیداری محاسباتی (computational auditory scene analysis) شبیه سازی عمل پردازش صوت توسط انسان میباشد. بسیاری از کاربردها، نظیر مخابرات راه دور و بازیابی اطلاعات صوتی، نیازمند راه حل تک گوشی هستند. برای سیگنال های تک گوشی (تک میکروفونه)، باید ویژگیهای ذاتی گفتار یا تداخل در نظر گرفته شوند. در این پایاننامه، اساس فرآیند جداسازی منحنی گام است که ابتدا، از گفتار جدا شده، بر اساس گام غالب، تخمین زده شده و سپس، با توجه به شرط های روانی-صوتی (psychoacoustic) تصحیح میشود. مشکل اصلی در سیستمهای پیشین casa، جداسازی نامناسب گفتار صدادار در ناحیه فرکانس بالا میباشد. در این پایاننامه، دو الگوریتم جدید برای بهبود فرآیند جداسازی گفتار صدادار، به ویژه در ناحیه فرکانس بالا، پیشنهاد شده است. الگوریتم اول از تابع خود-همبستگی پوش بهبود یافته (enhanced envelope autocorrelation function) و همبستگی پوش پاسخ بین کانالی برای برچسب گذاری واحدهای زمان-فرکانسی استفاده میکند. الگوریتم دوم مبتنی بر کلاس بندی واحدهای زمان-فرکانسی به گفتار صدادار و نویز غیرگفتار، در ناحیه فرکانس بالا، میباشد. نتایج مقایسه روشهای پیشنهادی با مدل hu, wang نشان میدهد که بطور کلی، فرآیند جداسازی گفتار صدادار به طور قابل توجهی در ناحیه فرکانس بالا بهبود یافته و در عین حال ردیابی گام بهتری صورت گرفته است. همچنین، الگوریتم پیشنهادی دوم نتایج بهتری را نسبت به الگوریتم اول، در امر جداسازی گفتار صدادار از نویزهاای غیرگفتار، ارائه میدهد.

First 15 pages

تشخیص احساس بر مبنای گفتار

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1389
سارا ژاله پور محمد علی طینتی

تشخیص خودکار احساسات (aer) مساله ای بسیار مهم، در عرصه تعامل انسان و ماشین (hci) می باشد. با افزایش روزافزون محبوبیت کامپیوترها در زندگی ما، تحقیق درباره ی تعامل بین انسان ها (کاربران) و کامپیوترها نیز بیشتر مورد توجه قرار گرفته است. قابلیت تشخیص احساس توسط کامپیوترها با دقتی همانند انسان ، به منظور ایجاد رابطه ای طبیعی و دوستانه بین انسان و کامپیوتر، بسیار حائز اهمیت بوده و با مجهز شدن به چنین سیستم تشخیص احساسی، کامپیوتر ها قادر به تشخیص حالت احساسی کاربران و واکنش متناسب با آن می گردند. در این پایان نامه، سیگنال گفتار به منظور ایجاد سیستم تشخیص خودکاری که قادر به بازشناسی احساسات انسانی باشد، مورد تحلیل قرار گرفته و مجموعه ای جدیدی از ویژگی های طیفی ارائه شده است. تمام ویژگی های صوتی مورد نظر از فریم های متوالی سیگنال گفتار استخراج و ویژگی های آماری این فریم ها به عنوان بردار ویژگی در نظر گرفته می شوند. بعد از کاهش و استخراج ویژگی های مورد نظر، توسط سه طبقه بند: شبکه عصبی پرسپترون، ماشین بردار پشتیبان و k نزدیکترین همسایگی در شرایط تمیز و آلوده به نویز، کلاس بندی حالت احساسی برای هفت کلاس احساسی از ? پایگاه داده ی emo-db، saveeو enterface’05 انجام می گیرد. نتایج نشانگر دقت بسیار مطلوب طبقه بندی با استفاده از این ویژگی ها می باشند.

First 15 pages

بهبود سیگنال گفتار با تخمین ماسک دودویی ایده ال

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - پژوهشکده برق و کامپیوتر 1391
رضا احمدنیا مسعود گراوانچی زاده

این پایان نامه به دنبال ارائه روش هایی برای بهبودی سیگنال گفتار آلوده به نویز با رویکرد ارتقاء قابلیت فهم گفتار است. ماسک دودویی ایده ال (ibm) که هدف اصلی بحث آنالیز محاسباتی ترکیب شنیداری معرفی شده است، به عنوان ابزاری برای افزایش قابلیت فهم سیگنال گفتار مورد توجه قرار گرفته است. این ماسک در کنار توانایی که در افزایش قابلیت فهم دارد، مشکلاتی نیز همراه با آن وجود دارد. با توجه به تعریف ibm، که مبتنی بر نسبت انرژی سیگنال تمیز به انرژی سیگنال نوبز در واحد های زمان- فرکانس است، در این پایان نامه استفاده از ماسک نرم تری موسوم به ماسک چند گانه ایده ال (imm) پیشنهاد شده است که مشکلات مربوط به ibm را تا حد زیادی برطرف می کند. استفاده از قابلیت ibm و imm در حالت تک گوشی نیازمند تخمین چنین ماسکی از سیگنال آلوده می باشد. در این پایان نامه، همچنین، روش هایی برای استخراج imm پیشنهادی ارائه می شوند که مبتنی بر آموزش و طبقه بندی و با هدف مقاوم بودن به انواع نویز ها و سطوح مختلف snr می باشند. در روش اول، از ویژگی طیف مدولاسیون دامنه و شبکه عصبی، در روش دوم، از کمترین مجموع مربعات خطا و در روش سوم استفاده از ویژگی gfcc ونوعی codebook برای تخمین snr واحد ها و نهایتاً، برای تخمین imm پیشنهادی، استفاده شده است. سیگنال های پردازش شده با ماسک های ایده ال و تخمینی دودویی و چندگانه از منظر کیفیت، با میزان افزایش snr سیگنال خروجی، و از منظر قابلیت فهم، با معیارهای pesq و تست شنوایی مورد ارزیابی قرار می گیرند. نتایج ارزیابی عملکرد بهتر imm پیشنهادی را نسبت به ibm نشان می دهد. نتایج روش های تخمین imm با نتایج الگوریتم اخیر در تخمین ibm مقایسه می شوند که هر یک از روش های فوق نتایج خوبی را نشان می دهند.

پیشگویی قابلیت فهم گفتار مبتنی بر مدل ادراکی میکروسکوپی

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر 1392
فرزانه قویمی مسعود گراوانچی زاده

کاهش قابلیت فهم گفتار در شرایط نویزی یکی از متداول ترین مشکلات شنونده ها، به ویژه افراد دارای ضعف شنوایی است. توانایی پیش بینی قابلیت فهم می تواند باعث بهبود طراحی سیستم های صوتی و توسعه الگوریتم های کمک شنوایی در امر توانبخشی شود. روش های معمول برای پیش بینی قابلیت فهم، به شکل ماکروسکوپی عمل می کنند، به این معنی که ویژگی های ماکروسکوپی سیگنال، مانند طیف بلند مدت یا نسبت سیگنال-به-نویز (snr) در باندهای فرکانسی مختلف برای محاسبه استفاده می شوند. در مقابل، یک روش میکروسکوپی محاسبات خود را براساس ویژگی های طیفی- زمانی گفتار که شنونده درک می کند، قرار می دهد. در مدل میکروسکوپی، ساختار خاص طیفی- زمانی سیگنال صحبت احتمالا به گونه ای پردازش می شود که بسیار مشابه سیستم شنوایی انسان است. در این پایان نامه، یک مدل میکروسکوپی دوگوشی برای پیشگویی قابلیت فهم گفتار پیشنهاد شده است. ساختار مدل بر مبنای مدل تک گوشی ادراکی .jürgens et al و مدل پیشنهادی دوگوشی با استفاده از سلول های تحریک و ممانعت (ei cells) قرار دارد. ساختار مدل شامل دو مرحله آموزش و تست می باشد. در مرحله آموزش، ابتدا، سیگنال های گفتار الگو برای گوش های چپ و راست با نویز پس زمینه جمع شونده دلخواه، به عنوان ورودی به واحد پیش پردازش اعمال می شود، این پیش پردازش شامل فیلتربانک گاماتون، مدل سلول مویی و حلقه های انطباق می باشد. سپس، سیگنالهای پیش پردازش شده گوش های چپ و راست، وارد واحد پردازش دوگوشی می گردند. درنهایت ، سیگنال های بدست آمده از مسیرهای تک گوشی و دوگوشی توسط فیلتربانک مدولاسیون بطور جداگانه پردازش می شوند. حاصل این مراحل پردازش، نمایش های درونی (irs) برای سیگنال های الگوی تک گوشی و دوگوشی است. به طریق مشابه در مرحله تست، برای سیگنال های ورودی تست گوش های چپ و راست نیز مراحل پردازشی ذکر شده در بالا اعمال شده و نمایش های درونی (irs) برای سیگنال های تک گوشی و دوگوشی تست بدست می آیند. در نهایت، نمایش های درونی بدست آمده برای سیگنال های الگو و تست توسط سیستم بازشناسی گفتار dtw مقایسه می شوند تا سیگنال الگویی از مجموعه الگوهای ممکن دردسترس که کمترین فاصله را با سیگنال تست دارد، به عنوان سیگنال تشخیص داده شده انتخاب شود. میزان پیشگویی قابلیت فهم گفتار بر اساس نسبت تعداد سیگنال های درست تشخیص داده شده به تعداد کل سیگنال های الگو محاسبه می شود. ارزیابی مدل تحت انواع مختلف نویز (نویز شبه گفتار، همهمه، و گفتار معکوس) و چیدمان های مختلف فضایی منابع تداخل (بعبارتی، مکان های متفاوت منابع اخلال) انجام می گیرد. به منظور تعیین دقت نتایج، پیشگویی های مدل با نتایج آزمایشات شنوایی بر حسب آستانه دریافت گفتار (srt) مقایسه می شود. برای انجام آزمایشات شنوایی، 9 شنونده در فرآیند آزمایشات روان ادراکی شرکت دارند تا مقادیر srt را در شرایط شنوایی گوناگون اندازه گیری شود. در مورد نویز شبه گفتار، سه نوع آزمایش با بکارگیری یک منبع ، دو منبع و سه منبع نویز انجام می شود. ارزیابی نتایج برای این نوع نویز تطابق خوبی را در مورد مقادیر پیشگویی مدل با مقادیر اندازه گیری شنوایی ذهنی نشان داده و کارآیی بالای مدل را تایید می کند. برای نویز های همهمه و گفتار معکوس، تنها یک منبع نویز در آزمایش ها بکار رفته است. اما، برخلاف نویز شبه گفتار، در مورد این نوع از نویزها، هماهنگی خوبی بین پیشگویی های مدل و اندازه گیری های ذهنی مشاهده نمی شود.

First 15 pages

پیشگویی قابلیت فهم گفتار در افراد دارای ضعف شنوایی

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده برق و کامپیوتر 1394
هادی جمشیدی اوانکی مسعود گراوانچی زاده

یک معیار اندازه گیری قابلیت فهم که همبستگی زیادی با نتایج تست های شنوایی دارد، دارای اهمیت بسیاری در بسیاری از کاربرد ها از جمله طراحی ادوات کمک شنوایی می باشد. این پایان نامه به مسئله ی پیشگویی قابلیت فهم سیگنال گفتار برای شنونده های دارای ضعف شنوایی می پردازد که راه حل پیشنهادی آن در خصوص شنونده های عادی نیز به عنوان شرایط خاصی که در آن میزان ضعف شنوایی قابل اغماض است، کاربرد پذیر است. در این روش، ابتدا یک شبیه ساز ضعف شنوایی، با استفاده از داده های شنوایی سنجی بیماران دارای وزوز گوش در یک یا دو گوش خود، آثار مختلف ضعف شنوایی را مدل می کند. سپس، با توجه به اینکه ضعف شنوایی حسی-عصبی در قالب اثر ارتقاء سطح آستانه شنوایی در توزیع زمانی و از طریق آلایش غیرخطی در توزیع طیفی سیگنال گفتار اثر می گذارد، مدل پیشنهادی ابتدا به محاسبه مزیت دوگوشی می پردازد و سپس براساس رابطه ی یافته شده بین اطلاعات مشترک محاسبه شده میان پوش سیگنال های آلوده و تمیز و نرخ تشخیص گفتار معیار آستانه ی ادراک گفتار (srt) را در شرایط مختلف به دست می آورد. روش پیشنهادی بر خلاف بسیاری از مدل های پیشین خود در مرحله ی نهایی پیشگویی نیازی به نتایج آزمون های عینی قابلیت فهم گفتار ندارد. srt دوگوشی برای 13 شنونده با شنوایی عادی، برای 3 نوع منبع تداخل در 14 پیکربندی مختلف شامل شرایط یک، دو و سه منبع تداخل و srt تک گوشی برای 20 شنونده با شدت های مختلف ضعف شنوایی حسی-عصبی یک طرفه و دوطرفه اندازه گیری شد. ارزیابی نتایج پیشگویی مدل های پایه و پیشنهادی و مقایسه آن ها با اندازه گیری ها نشان داد که میانگین ضریب همبستگی بین srt های پیش بینی-شده و اندازه گیری شده حدود 93/0 بوده و میانگین خطای بین آن ها از 2 دسی بل کمتر است. به طور خلاصه، مدل پیشنهادی در پیشگویی قابلیت فهم سیگنال های گفتار vcv آلوده به نویز جمع شونده عملکرد بسیار خوبی دارد و عملکرد آن همچنین از مدل های پایه، بدون نیاز به تنظیم پارامترهای مدل با استفاده از اندازه-گیری های عینی برای وضعیت مورد آزمایش، بهتر است.

تصدیق هویت گوینده با استفاده از مدل مخلوط گوسی

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1386
امیر کریم پور مسعود گراوانچی زاده

چکیده ندارد.

First 15 pages

بهبودی کیفیت سیگنال گفتار با استفاده از پردازش سیگنال دو گوشی

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز 1387
منیره دباغچیان مسعود گراوانچی زاده

چکیده ندارد.

First 15 pages

نام پژوهشگر: مسعود گراوانچی زاده