علی دهقان فیروزآبادی

نام پژوهشگر: علی دهقان فیروزآبادی

بهبود عملکرد سیستم های مکان یابی منبع گفتار در محیط های واقعی

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه یزد 1388
علی دهقان فیروزآبادی حمیدرضا ابوطالبی

مکان یابی منبع گفتار یکی از زیر شاخه های سیستم های پردازش گفتاری می باشد. در این پژوهش مکان یابی منبع گفتار با استفاده از روش های مبتنی بر srp مدنظر بوده است. روش استفاده شده در این پژوهش روش srp-phat است. روش srp-phat در مکان یابی منبع گفتار تحت شرایط انعکاسی، مقاوم می باشد. در حقیقت این روش که بر مبنای شکل دهی پرتو آرایه میکروفونی بنا نهاده شده است، سعی می کند با جستجوی فضا، ماکزیمم انرژی در فضا را پیدا کند. به همین منظور این روش برای مکان یابی نیازمند جستجوی کامل فضا می باشد. این امر باعث می شود که روش srp-phat حجم محاسبات بالایی را به خود اختصاص بدهد. روش های مختلفی از جمله src و cfrc برای کاهش حجم محاسبات معرفی شده اند که سعی می کنند طی یک فرآیند تکرار شونده، فضای جستجو را کوچک و کوچک تر کرده تا به مکان منبع منتهی شود. در این پژوهش روش srp-phat و روش های کاهش حجم محاسبات src و cfrc تحت سه سناریوهای مختلف شبیه سازی شده است: محیط نویزی، محیط انعکاسی و محیط نویزی و انعکاسی توأم. همچنین آزمایش ها برای سه موقعیت مختلف گوینده، انجام شده است: گوینده جلوی آرایه، گوینده در کنار آرایه و گوینده در گوشه ی اتاق. در ادامه روش هایی برای کاهش بیشتر حجم محاسبات و افزایش دقت روش srp-phat ارائه شد. روش جستجوی فضا بر مبنای تخمین doa و فضای قطاع بندی شده از روش هایی بود که در این پژوهش مطرح گردید. نشان داده شد که این روش حجم محاسبات را به مقدار قابل توجهی کاهش داده و همچنین باعث افزایش دقت روش srp-phat می شود. در ادامه دو شکل آرایه ای جدید پیشنهاد شد که باعث افزایش دقت سیستم مکان یابی منبع گفتار شدند. در انتها نیز روش جدید مکان یابی srp-ml پیشنهاد شده است که در شرایط نویزی و نیز نویزی و انعکاسی توأم، دقت به مراتب بالاتری را نسبت به روش srp-phat دارا می باشد. دقت این روش در شرایط انعکاسی کمی بدتر از روش srp-phat است.

First 15 pages

توسعه و بهبود روش های مکان یابی چند منبع گفتار همزمان

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده مهندسی برق و کامپیوتر 1393
علی دهقان فیروزآبادی حمیدرضا ابوطالبی

هدف از این رساله، مکان یابی چند گوینده هم زمان از روی سیگنال های گفتار هم پوشانی دار گوینده ها است. روش های مبتنی بر تابع همبستگی متقابل تعمیم یافته (gcc) از مهم ترین روش های مطرح در این زمینه هستند. این روش ها در شرایط نامطلوب آکوستیکی دقت مناسبی نداشته و هم چنین نمی توانند گوینده های نزدیک به هم را به خوبی مکان یابی کنند. مشکل دیگر نیز، الیاسینگ فضایی در سیگنال های میکروفونی است که باعث تخریب اطلاعات ورودی سیستم می شود. محور کلی روش های پیشنهادی در این رساله، پردازش های زیرباندی برای بهره گیری از عدم هم پوشانی محتوای فرکانسی گفتار گویندگان مختلف است. در اولین روش پیشنهادی، سیگنال های میکروفونی نخست به باندهای مختلفی (به صورت یکنواخت) تقسیم بندی می شوند. سپس تابع gcc برای همه زوج میکروفون ها در همه زیرباندها محاسبه شده و نمودار هیستوگرام محل دو قلّه اول تابع gcc برای هر زیرباند بدست می آید. در ادامه، با استفاده از روش متوسط گیری وزن دار، این هیستوگرام ها ترکیب و از روی هیستوگرام نهایی، راستای دو گوینده ی همزمان تخمین زده می شود. هر چند این روش افزایش دقت مکان یابی را به دنبال دارد، ولی مسأله ی الیاسینگ فضایی و لزوم مشخص بودن تعداد گوینده، دو مشکل اصلی باقیمانده در این روش است. دوّمین روش پیشنهادیِ این رساله، هدف خود را بر روی تخمین تعداد گوینده و حذف الیاسینگ فضایی قرار می دهد. با استفاده از روش خوشه بندی k-means و اصل silhouette، روشی مبتنی بر پردازش های زیرباندی برای تخمین تعداد گوینده معرفی و سیستم مکان یابی به حالت بیش از دو گوینده تعمیم می یابد. سپس به منظور حذف الیاسینگ فضایی، آرایه میکروفونی دایره ای تودرتو پیشنهاد داده می شود که می تواند الیاسینگ فضایی را برای میکروفون های دور از هم حذف کند. علاوه بر این، با بهره گیری از یک بلوک تخمین نویز و استفاده وفقی از فیلترهای phat و ml، دقت سیستم در تخمین راستای گوینده در حضور نویز و انعکاس افزایش می یابد. در دو روش قبلی، فیلترهای استفاده شده بدون توجه به محتوای فرکانسی سیگنال گفتار اعمال می شود. در قسمت سوم رساله، استفاده از فیلترهای گاماتون را پیشنهاد می دهیم که متناسب با سیستم شنوایی انسان بوده و بر روی محتوای فرکانس پایین طیف سیگنال گفتار، قدرت تفکیک فرکانسی بالاتری دارند. ترکیب استفاده از این بانک فیلتر با روش زیرباند کردن با آرایه تودرتو، اگرچه حجم محاسبات را کمی بالا می برد ولی دقت تخمین های بدست آمده را تا حد مطلوبی افزایش می دهد. در ادامه برای کاهش بار محاسباتی، با تخمین طیف سیگنال گفتار از روش pwelch، فیلترهای گاماتون فقط بر روی نواحی پردامنه طیف گفتار بکار گرفته شده و سپس پردازش های زیرباندی با آرایه تودرتو بر روی خروجی فیلترهای گاماتون اعمال می شود. این اقدام ضمن حفظ دقت تخمین در حد روش قبلی، حجم محاسبات را تا حد خوبی کاهش می دهد. ارزیابی های این رساله بر روی سناریوهای مختلف محیطی اعم از انعکاسی، نویزی، و نویزی و انعکاسی توأم و هم چنین بر روی داده های واقعی و شبیه سازی و به ازای یک، دو و سه گوینده هم زمان انجام شده است. در ارزیابی های انجام شده، روش subband-gcc با روش های fullband و هم چنین subband-srp مقایسه شده است که برتری روش پیشنهادی را نشان می دهد. هم چنین در ادامه روش های پیشنهادی آرایه های تودرتو، فیلتر گاماتون و تخمین طیف نیز مورد ارزیابی و مقایسه قرار گرفته است که نتایج نشانگر برتری روش های پیشنهادی نسبت به روش های مرسوم می باشد.