نام پژوهشگر: محمد احدی سرکانی
مسعود میررضایی محمد احدی سرکانی
در این پژوهش، وظیفه مشخص سازی گفتار مربوط به هر گوینده خاص در یک فضای متشکل از چندین گوینده بدون همپوشانی میان گویندگان با فرض مشخص بودن تعداد گویندگان می باشد. در اینجا هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و تا حد امکان، گفتار هر گوینده را بدون دانستن اطلاعات قبلی از وی و هر گونه آموزش برای سیستم، برچسب گذاری نماید یعنی مشخص نماید که کدام گوینده و در چه زمانی صحبت کرده است. به همین منظور ابتدا در فصل اول آشنایی مختصری با مبحث خوشه بندی و بخش بندی گوینده در یک فضای چند گوینده و معرفی کارها وروشهای انجام شده در این زمینه، خواهیم داشت وبه پیاده سازی یکی از معروفترین آنها با نام distbic به منظور مقایسه با روش پیشنهادی می پردازیم. به منظور تست روشهای مطرح شده در این پژوهش از دو داده گفتاری که یکی از آنها darpa timit و دیگری داده فارسی فارس دات (farsdat) می باشد، استفاده شده است. در فصل دوم به شرح کامل روش جداسازی و برچسب زنی با استفاده از mutual information می پردازیم و بیانی از نحوه محاسبه آن و بهینه سازی آن به وسیله الگوریتم ژنتیکgenetic algorithm (ga) خواهیم داشت. در فصل سوم به بیان الگوریتم پیشنهادی به وسیله بهینه ساز دسته ذرات یا particle swarm optimization(pso) پرداخته می شود و نتایج آن با روشهای پیشین مقایسه می گردد. در فصل چهارم به منظور مقاوم سازی الگوریتم ارایه شده با استفاده از ga نسبت به محیط های نویزی با استفاده از روش autocorrelation-based noise subtraction (ans) اقدام به مقاوم کردن آن نموده ایم و نتایج حاصل از آنها را بیان می نماییم و در انتها نیز نتیجه گیری و پیشنهاداتی برای کارهای آینده بیان گردیده است که نشان دهنده بهتر بودن روش ارایه شده نسبت به سایر روشهای موجود می باشد.
حسین مالکی محمد احدی سرکانی
روشی که در این پایان نامه به تشریح آن خواهیم پرداخت، یک روش در حوزه ی موقعیت یابی منابع صوتی است. در این روش که تحت عنوان lbss(localization by source separation) نامگذاری نموده ایم. از یک باکس کوچک 4 میکروفونه به عنوان مکانیاب برای هر تعداد منبع صوتی مستقل و با فرض تعامد و استقلال منابع بهره جسته ایم، لیکن یک قسمت مجزا را با n میکروفون برای جداسازی n منبع صوتی در نظر گرفته ایم که کار جداسازی سیگنالها را برعهده دارد، سیگنالهای جداسازی شده بر طبق یک الگوریتم معین، به عنوان مرجع موقعیت یابی برای باکس مکانیابی n منبع صوتی به حداقل 3n+1 میکروفون (به منظور داشتن 3n تاخیر برای مکانیابی) نیاز خواهد بود. این درحالیست که پیچیدگی زیاد الگوریتمها سبب آن شده تا مکانیابی منابع صوتی زمانبر و با خطای زیاد صورت پذیرد. در روش پیشنهادی ما، ضمن کاهش تعداد میکروفونها به n+4 میکروفون ( به منظور موقعیت یابی n گوینده)، افزایش سرعت و دقت مکانیابی تا حد بسیار بالایی مشاهده می شود. فعالیت پیش رو در جهت بالا بردن کیفیت، سرعت و همچنین ثابت نگه داشتن دقت برای تعداد زیاد منابع صوتی، در شرایط آزمایشگاهی و در مقیاس کوچک صورت پذیرفته است. محاسبات و نتایج تئوری روشنگری این واقعیت است که با توجه به اینکه جداسازی منابع صوتی، برای تعداد میکروفونهای بیش از تعداد منابع صوتی فرایندی تحقق یافته و انجام پذیر است، می توان از روشی تلفیقی برای مکانیابی این منابع بهره جست، که البته با توجه به اینکه سخت افزار بسیار کوچکتری مورد نیاز خواهد بود و همینطور از الگوریتمهای پیچیده استفاده نمی شود، انتظار داریم تا سرعت محسباتی بالاتر از روشهای مرسوم مکانیابی منابع صوتی باشد.