نام پژوهشگر: ابوالقاسم صیادیان
محمدحسین رادفر ابوالقاسم صیادیان
در این رساله روش جداسازی سیگنال دو گوینده زمانی که فقط به سیگنال مخلوط دریافت شده از یک میکروفون دسترسی داریم مورد بررسی قرار می گیرد. یطور کلی روش های جداسازی سیگنال در حالت تک میکروفونه به دو گروه تقسیم می شوند: گروه اول روش های را شامل می شود که اصول حاکم بر سیستم شنوایی انسان را برای جداسازی دنبال می کنند و گروه دوم روش های که با استفاده از اطلاعات قبلی از دو گوینده سیگنال مخلوط را مدل می کنند. هدف اصلی این رساله یوشش نقاط ضعف روش های موجود است. برای این منظور چهار راه حل ارایه می گردد: (1) ترکیب روش های گروه اول و دوم. این روش علاوه بر اینکه مزایای هر دو روش را حفظ می کند مستقل از گوینده ها می باشد. (2) الگوریتمی برای تخمین فرکانس های اصلی دو گوینده زمانی که فقط به سیگنال مخلوط دسترسی داریم ارایه می شود. فرکانس های اصلی دو گوینده به عنوان ویژگی متمایز کننده دو گوینده در گروه اول کاربرد دارند. (3) روش تعمیم یا فته ای برای روش های مدل سازی وابسته به گوینده بر اساس شناسایی گوینده ها از سیگنال مخلوط ارایه می شود. به این ترتیب می توان روش های وابسته به گوینده را به تعداد نامحدودی از گوینده ها تعمیم داد. (4) براساس روش تخمین کمینه کردن متوسط مربعات خطا فیلتر جدیدی بنام ماسک نرم برای جداسازی سیگنال دو گوینده ارایه می شود. علاوه بر ارایه روش های جدید جداسازی در این رساله دو تقریب بنام های تقریب ماکزیمم-مخلوط و ماسک دودویی که در روش های جداسازی کاربرد فراوانی دارند مورد تحلیل قرارگرفته و با استفاده ازروش های ریاضی اثبات می شوند. اهمیت این تحلیل ها از آن جهت که دیدگاه جدیدی با مستدلات ریاضی برای ابزارهایی که به مدت 20 سال بصورت تجربی مورد استفاده قرار می گرفته ارایه می شود.
ساناز علیزاده ابوالقاسم صیادیان
تغییرات مشخصه آکوستیکی واج ها تحت متن های مختلف موجب شده است که در پیاده سازی سیستم-های بازشناسی گفتار، از واحد های گفتاری وابسته به متن مانند هجا و نیم هجا که اثرات آواهای مجاور را نیز در نظر می گیرند، استفاده شود. با توجه به اینکه زبان فارسی از دسته زبانهایی می باشد که دارای ساختار هجایی ساده ای است، در این تحقیق واحد گفتاری نیم هجا برای مدلسازی طیفی مورد توجه قرار گرفته است و آزمون های متعددی برای تصدیق مطلب فوق در طی انجام پروژه صورت گرفته است. به علت فقدان پایگاه داده فارسی مبتنی بر نیم هجا، تلاش زیادی جهت طراحی متن و جملات مورد نیاز برای پایگاه داده در طی این تحقیق انجام پذیرفته است و داده های گفتاری مربوط به دو گوینده زن و دو گوینده مرد برای ارزیابی مدلها بیان و ضبط شده و به صورت با سرپرستی در سطح واکه و نیم هجا برچسب زده شده است. با توجه به اینکه تشخیص نیم هجاها، ابتدا از آشکارسازی سکوت و واکه آغاز می گردد، در اولین قدم تمام توجه ما به آشکارسازی واکه ها معطوف شده است. در بازشناسی واکه ها، از ترکیب مدل آماری مارکوف پنهان با پارامترهای آکوستیکی مانند انرژی میانگذر استفاده شده است. در این پروژه محدوده واکه ها با بهره مندی از ویژگی های مدل آکوستیکی مانند سادگی، سرعت و ناوابسته بودن آن به گوینده ها، مشخص شده است. سپس با ترکیب نتایج حاصل از پارامترهای آکوستیکی و مدل آماری مارکوف پنهان به نتایج بسیار مناسبی در بازشناسی واکه ها دست یافتیم. در این پروژه در بهترین حالت ها، در گفتار پیوسته به خطای 98/8% و در گفتار گسسته به خطای 87/2% دست یافتیم.
مهدی فلاح معافی ابوالقاسم صیادیان
در این پایان نامه روشهای جداسازی سیگنالهای گوینده و موزیک، زمانی که فقط به سیگنال مخلوط دریافت شده از یک میکروفون دسترسی داریم مورد بررسی قرار می گیرد. بطور کلی روشهای جداسازی سیگنال در حالت تک میکروفونه به دو گروه تقسیم می شود : گروه اول روش هایی را شامل می شوند که اصول حاکم بر سیستم شنوایی را برای جداسازی انتخاب می کنند و گروه دوم روش هایی که با استفاده از اطلاعات قبلی از دو منبع، جداسازی را انجام می دهند. با توجه به تحقیقاتی که صورت گرفته در این پایان نامه روش گروه دوم مورد بررسی قرار می گیرد و هدف این پایان نامه بهبود روشهی مبتنی بر مدل برای بهتر جداسازی منابع صوتی می باشد. غالبا در مدل سازی منابع از مدل مخلوط گوسی و مدل چندی سازی برداری استفاده می شود به علت دقیقتر بودن مدل چندی سازی برداری نسبت به مدل مخلوط گوسی از این مدل در این پروژه استفاده شده است و روشهایی جهت بهبود مدل سازی چندی سازی برداری ارایه شده است. برای جداسازی سیگنالهای منابع از فریم سیگنال مخلوط تخمین های mixmax،meanmix، maxlmix و psdmix ارایه شده است و نتایج نشان می دهد که تخمین psdmix نسبت به تخمین های دیگر بهینه است. در فاز جداسازی، دو روش فیلتر ماسک و جداسازی مبتنی بر عناصر کتاب کد ارایه گردیده است. در روش فیلتر ماسک با استفاده از ماسک های خطی و غیر خطی کیفیت صدای جداسازی شده بهبود داده شده است. در این روش با استفاده از استدلال ریاضی نشان داده می شود که نوعی فیلتر ماسک غیر خطی بهینه برای هر یک از تخمین ها وجود دارد. در روش جداسازی مبتنی بر عناصر کتاب کد، برای بهبود صدای جدا سازی شده از فاز طبیعی بردارهای آموزشی و همزمان سازی بین فریم ها متوالی استفاده می شود تا صدای جداسازی شده از لحاظ معیارهای شنوایی بهبود یابد. در نهایت روشهای مذکور بر روی داده های عملی واقعی پیاده سازی شد. و به نتایج امیدوار کننده ای منتج گردید.
ملیحه قیدی ابوالقاسم صیادیان
درسیستم های بازشناسی گفتار انتخاب واحد گفتاری مناسب، از اهمیت ویژه ای برخوردار است. جهت انتخاب واحد آکوستیکی مناسب، در نظر گرفتن ساختار و ویژگی های زبان مورد استفاده، بسیار مهم است. با توجه به این که ساختار هجایی زبان فارسی تقریبا همانند زبان های هندی، چینی و ژاپنی ساده و محسوس است، در این تحقیق، واحد زیر کلمه نیم هجا به عنوان واحد آکوستیکی مناسب در زبان فارسی مورد توجه ما قرار گرفته است. با توجه به اینکه پایگاه داده گفتاری مبتنی بر نیم هجاها در زبان فارسی موجود نمی باشد، تلاش های زیادی جهت طراحی و پیاده سازی پایگاه داده گفتاری مناسب مبتنی بر نیم هجاها در طی انجام این تحقیق، صورت گرفته است. برای ارزیابی مدل ها، داده های گفتاری مربوط به دو گوینده زن و دو گوینده مرد ضبط شده و به صورت با سرپرستی در سطح واکه و نیم هجا برچسب زده شده است.در این پایان نامه، به عنوان اولین قدم جهت تشخیص واحدهای نیم هجا در سیگنال گفتار، به آشکارسازی و بازشناسی واکه ها پرداخته شده است. سعی شده با ترکیب روش ماشین های بردار پشتیبان و روش استفاده از ویژگی های آکوستیکی ، کارایی سیستم در این بخش تا حد ممکن بهبود داده شود. از پارامترهای آکوستیکی نظیر انرژی میان گذر به دلیل ویژگی های مناسبی چون سادگی محاسبات و ناوابسته بودن به گوینده، به منظور تشخیص اولیه محل واکه ها استفاده شده است. سپس از قدرت متمایز سازی خوب ماشین های بردار پشتیبان جهت طبقه بندی واکه ها و تعیین مرز دقیق تر آنها، بهره مند شدیم و به نتایج بسیار مناسبی دست یافتیم. در این تحقیق، برای دادگان گفتار گسسته در صد خطای کل 68/1% و برای گفتار پیوسته در صد خطای کل 86/4% حاصل شد. در مقایسه با نتایج حاصل از دو روش دیگر یعنی مدل مارکوف پنهان و مدل قطعه بندی نرم بر روی همین پایگاه داده، در می یابیم که ماشین های بردار پشتیبان در کاربردهای طبقه بندی بسیار کارآمد هستند. البته دست یابی به دقت بالا با استفاده از این روش، مستلزم صرف هزینه محاسباتی بیشتر و زمان آموزش طولانی تر خواهد بود.
مهدی اسلامی ابوالقاسم صیادیان
در این رساله به مطالعه و پیاده سازی سیستم تبدیل گفتار با کیفیت بالا پرداخته شده و روش های افزایش کیفیت و بهبود عملکرد آنها در زبان فارسی مورد بررسی قرار گرفته است. در سیستم های تبدیل گفتار، گوینده a (مبدا) عباراتی را بیان می کند و هدف از آن عبارت است از تغییر متکلم جملات بیان شده از گوینده aبه گوینده b(مقصد). کاربرد سیستم های تبدیل گفتار در ساخت پایگاه دادگان گفتاری جهت کاربرد در سیستم های تبدیل متن به گفتار و بازشناسی گفتار است. همچنین این سیستم قابل استفاده در صداگذاری فیلم ها و ... می باشد. در این قبیل کاربردها، صدای هر گوینده در محیط استودیو ضبط شده است و نیازی به پردازش بلادرنگ ندارد. روش آماری مبتنی بر gmm بهترین کارایی را در مقایسه با روش های دیگر دارد. این روش بعلت دخالت دادن تمامی خوشه ها در تولید یک بردار برای گوینده جدید، دارای حالت بلـورشدگی(کاهـش وضوح) در صدای بازسازی شده می باشد به گونه ای که بازسازی صدا (با تغییر گوینده) توسط روشهای مذکور نسبت به حالت کاملاً طبیعی، فاصله زیادی دارد. در روش gmm(2) از مدل های متعدد gmm برای مدلسازی هر واج استفاده نموده ایم. همچنین در مرحله متناظرکردن خوشه های هر حالت، قبل از اعمال الگوریتم dtw از یک تبدیل lmr برای انطباق بیشتر پارامترهای دو حالت متناظر از دو گوینده استفاده می شود. در روش gmm(3) به منظور ارایه تخمـین دقیـق تر سیگـنال گفـتاری و کیفـیت بالاتـر سیگنال تـبدیل شده، از مـدل ghm استفـاده می شودکه از کارکردی بهتر نسبت به روش قبل برخوردار است. در الگوریتمgmm(4) ویژگی های گفتار بطـور پیوسته با استفاده از همبستـگی میان ویژگی های گفتـار گوینده مبدا و مقصد، تغییر می نمایند. به منظور غلبه بر هموار شدگی طیفی ناشی از متوسط گیری آماری، از واحدهای آوایی نیمه هجا، به عنوان کوچکترین واحدهای آوایی شامل اطلاعات عروضی گفتار استفاده می شود. همچنین با توجه به مزایای ghm، از آن به عنوان آنالیز و سنتز کننده استفاده می شود. در این رساله به ارایه روشی می پردازیم که علاوه بر ویژگی های درون قابی، از ویژگی های برون قابی (دینامیکی) برای یافتن بردار تبدیل یافته از گفتار گوینده a به گفتار گوینده b استفاده می کند. این روش مبتنی بر vq بوده و در آن از یک ساختار شبکه برای یافتن یکی از بهترین مسیرها جهت نگاشت دنباله ای از قاب های گفتاری مربوط به کتاب کد گوینده a به کتاب کد گوینده b استفاده می شود. معیار بهینگی در یافتن مسیر عبارت است از: حفظ ویژگی های دینامیکی گفتار گوینده بعلاوه پیوستگی طیفی در گفتار تبدیل یافته.نوآوری دیگر ارایه شده، استفاده از نیمه هجا به عنوان کوچکترین واحد گفتاری در برگیرنده اطلاعات عروضی از گفتار گوینده است که متناسب با ساختار زبان فارسی می باشد. در نهایت به کمک اصلاحات مناسب دیگری که در روش یادگیری و طراحی تبدیلهای خطی مورد نیاز انجام شده است، به عملکرد بسیار مناسبی در تبدیل گفتار در مقایسه با روشهای رایج نایل شده ایم.
محمد نظری ابوالقاسم صیادیان
زبان از اجزای بسیار زیادی تشکیل شده است که کوچکترین جزء یا واحد آن واج است. همه زبانهای بشری به واج تجزیه می شوند بنابراین در نخستین مرحله لازم است واجها با هم ترکیب شوند تا واحدهای بزرگتری مانند تکواژ و یا واژه ساخته شوند. از دیدگاه سیستمی در یک سیستم بازشناسی الگو پس از فرایندهای پیش پردازش نمونه های زمانی گفتار ویژگی های مناسب از نمونه های زمانی استخراج می شود. سپس بردار ویژگی های استخراج شده به مدلی عرضه می شود تا تطبیق آن با مدل بررسی شود. سپس بردار ویژگی های استخراج شده به مدلی عرضه می شود تا تطبیق آن با مدل بررسی شود. میزان این تطبیق و مقایسه با دیگر الگوها به عنوان معیار بازشناسی شناخته می شود. در این پایان نامه هدف ارایه روش جدیدی برای بهبود بازشناسی واجهای مصوت در گفتار پیوسته به کمک روشهای ترکیبی gmm و svm می باشد. در اینجا مساله بازشناسی واجهای مصوت در گفتار پیوسته مورد بررسی قرار می دهیم و از یک مدل آماری برای حل این مساله استفاده می کنیم و سپس به بهبود روشهای موجود می پردازیم.
علیرضا بایسته تاشک ابوالقاسم صیادیان
در این پایان نامه سیستمی برای تشخیص سریع و چهره در تصاویر رنگی ارایه می شود هدف این سیستم پیدا کردن محل چهره های موجود در یک تصویر در حداقل زمان ممکن و دقت مطلوب می باشد سیستم پیشنهادی در این پایان نامه مبتنی بر یک روش دو مرحله ای می باشد در مرحله ی نخست به کمک اطلاعات رنگ قضای حستجو کاهش می یاد به این ترتیبی نواحی که مکن است چهره در آن وجود داشته باشد مشخص می شوند و لازم نیست کل تصویر را برای یافتن چهره حستجو نماییم در مرحله بعد هر یک از نواحی جستجو به وسیله یک طبقه بندی کننده بررسی می شود و چهره های موجود در آن ها استخراج می گردند. مزیت عمده ی این ساختار دو مرحله ای این می باشد که قابل اعمال به تصاویر خاکستری می باشد. در طراحی طبقه بندی کننده از ویژگی ها دو بعدی غیر استاندارد استفاده شده است تعداد این ویژگی ها برای یک تصویر بسیاز زیاد بوده و در وهله اول این مطالب که کدام ویژگی ها به بهترین نتایج طبقه بندی منجر می شوند مشخص نمی باشد به همین دلیل در این سیستم بهترین مولفه ها توسط یک الگوریتم انتخاب ویژگی انتخاب شده و از آنها برای آموزش طبقه بندی کننده استفاده می شود در این سیستم برای تشخیص چهره در یک ناحیه توسط یک پنجره کوچک با اندازه ی 20 × 20 در چند مقیاس جستجو می شود از آنجایی که در هر موقعیت از تصویر می بایست عمل استخراج ویژگی و طبقه بندی انجام شود برای بالا بردن سرعت جستجو دو راهکار عمده دراین سیستم مد نظر قرار گرفته است اولا یک روش بسیار سریع برای محاسبه ویژگی استفاده شدهاست ثانیا در این سیستم برای طبقه بندی از یک طبقه بندی کننده با ساختار آبشاری استفاده شده است که سرعت طبقه بندی را بشدت افزایش می دهد . نتاتج حاصله نشان می دهند که نرخ شناسایی سیستم ارایه شده برای مجموعه ی تصاویر رنگی گردآوری شده 77/93 می باشد نرخ شناسایی برای پایگاه داده mlt-cum 89 با 20 خطا می باشد و زمان لازم برای یافتن چهره ها در یک تصویر به نحوی می باشد که سیستم قادر است در نرخ fps با وضوح تصویر 240 × 320 به صورت بلادرنگ عمل ناید
مهسا رشیدی ابوالقاسم صیادیان
اولویت کانال صوت در سیستمهای مخابرات سیار، ارسال گفتار فشرده با استاندارد مخصوص می باشد. بدلیل وجود کدک گفتار خاص کانال صوت، مخابره داده از طریق مودمهای معمولی موجود ممکن نمی گردد. از ویژگیهای منحصر به فرد این سرویس که در ارسال از طریق کانال داده وجود ندارد، امنیت در امر مخابره می باشد. این ویژگی سبب شده است استفاده از این سرویس در کاربردهای امنیتی که عدم شنود اطلاعات در اولویت بالاتری از نرخ مخابره می باشد بسیار حایز اهمیت باشد. بعلاوه این سرویس از همان کانال صوت انجام می پذیرد که البته بدلیل استفاده دو منظور از آن (مکالمه صوتی و ارسال داده) تعریف بازه مخابره داده برای دمدولاتور طراحی شده مسیله مهمی می باشد. ارسال داده بر روی کانال صوت بدلیل وجود سیستم vad(voice activity detector) و فشرده ساز (regular pulse rpe-ltp excitation-long term prediction) شامل مشکلات عدیده ای است، که به منظور جلوگیری از حذف داده های ارسالی توسط vad و انجام مخابره در کانال صوتی منطبق بر کدکهای با نرخ پایین نیازمندبه سیگنالهای شبه گفتاری عستیم که بتوانیم با نگاشت بیتهای داده بر روی این سیگنالها به امر ارسال نایل گردیم. مسیله ارسال بلادرنگ داده نیازمند تحقیقات مفصلی است که بدلیل حجم بالای کار و منابع محدود تنها به ارسال داده که به نوعی اصل کار می باشد بسنده نمودیم. بنابراین در این پایان نامه به بررسی روشهای متفاوت برای مخابره داده بر روی کانال صوت تمام نرخ شبکه gsm(global system for mobile communications) پرداختیم. تمرکز اصلی بر طراحی مودمی مناسب برای مخابره داده با نرخ 800bps می باشد، که علاوه بر تطابق با کدک گفتار rpe-ltp بتوانند اطلاعات دیجیتالی را با کمترین خطا مخابره و در گیرنده استخراج نمایند. در نتیجه بخش عمده ای از کار به طراحی مناسب این مودم اختصاص می یابد. در روشهای پیشنهادی ما، داده دیجیتال توسط پارامترهای اساسی سیگنال گفتار نظیر پارامترهای پوش طیف، فرکانس گام و انرژی سیگنال منتقل می گردند. تولید سیگنال شبه گفتار با دو روش آنالیز و سنتز هارمونیکی و lpc مور بررسی قرار می گیرد. نهایتا تأثیر دو مرحله ترنسکدینگ داده بر روی این حاملها از لحاظ تعداد بیتهای دچار خطا شده (معیار bit error rate) مورد بررسی قرار خواهد گرفت. در پایان نیز نتایج حاصل از ارسال 800bps داده را با احتمال خطای بیت 023/0 درصد در کانال ریلی فیدینگی با سیگنال به نویز 10db ارایه می دهیم.
محسن فرهادلو ابوالقاسم صیادیان
عملکرد سیستمهای گفتاری در محیط های نویزی دچار اختلال گردیده و کارایی آنها با افتی قابل توجه روبرو می شود. تلاش در جهت بهبود عملکرد و کارایی این گونه سیستم ها، گسترش شاخه ای از پردازش سیگنال گفتار تحت عنوان بهسازی گفتار را به دنبال داشته است. در این پایان نامه پس از بررسی اجمالی راهکارهای مختلف بهسازی گفتار، به این نتیجه رسیدیم که هم روش ها و تکنیک های کلاسیک بهسازی گفتار و هم روش ها و تکنیک های غیر کلاسیک به نوبه خود از اهمیت برخوردارند. به همین دلیل در راستای کارهای اخیری که در طبقه کلاسیک بهسازی گفتار انجام شده اند، روش quantile چندگانه را برای تخمین نویز پیشنهاد دادیم. سپس به سراغ روشهایی رفته که از اطلاعات اولیه برای بهسازی گفتار استفاده می کنند (روشهای غیر کلاسیک) در این راستا نیز روشی را که از کتاب کدهای گفتار و نویز برای تخمین همزمان سیگنال و نویز استفاده می کند، ارائه نمودیم. اکثر روشهای غیر کلاسیک در بهسازی گفتار روشهای آماری و ریاضی محض هستند و به ویژگی های ادراکی گفتار انسان توجهی ندارند. در تکنیک ارائه شده از یک تابع اعوجاج چند باندی استفاده می کنیم که مطابق با ویژگی های شنیداری گوش انسان طراحی گردیده است.
میثم عسگری ابوالقاسم صیادیان
آشکارساز فعالیت گفتاری (vad) یکی از بخش های بسیار مهم در پردازش گرهای سیگنال های صوتی بوده و در بسیاری از سیستم های مخابراتی و صوتی نظیر فشرده سازی گفتار، بازشناسی گفتار، به سازی گفتار، سیستم های مخابراتی بدون سیم و بسیاری دیگر از سیستم های ارتباطی مورد استفاده قرار می گیرد. vadها برای آشکارکردن سیگنال ورودی و برچسب زدن آن به دو کلاس گفتار و غیر گفتار مورد استفاده قرار می گیرند. این تقسیم بندی کارایی بیشتری برای سیستم های مخابراتی و پردازش صوت ذکر شده به همراه دارد. به عنوان مثال، در یک سیستم مخابرات موبایل، معمولا 60 درصد از زمان محاوره را سیگنال گفتار اشغال می کند و مابقی آن سیگنال غیر گفتاری است که حاوی اطلاعات مفیدی نمی باشد بنابراین، اگر در این مورد سیستم vad مورد استفاده قرار گیرد و تنها بخش گفتاری سیگنال ارسال شود، مزایایی از قبیل کاهش ظرفیت مورد نیاز کانال و توان مصرفی را برای سیستم فوق به همراه خواهد داشت. به عنوان نمونه ای دیگر می توان به کاربرد آن در سیستم های به سازی گفتار اشاره کرد که در آنها می توان از vad در تخمین نویز زمینه سود جست و آمارگان نویز را از بخش های غیر گفتاری برچسب زده شده توسط vad تخمین زد. تاکنون روش های متعددی در این زمینه مطرح شده اند که کارایی آنها وابستگی زیادی به شرایط نویز زمینه ی موجود در محیط دارد. به گونه های از کارایی اکثر روشهای موجود، تحت شرایطی که توان نویز بر توان گفتار غالب باشد و یا آمارگان نویز متغیر با زمان باشد، کاسته خواهد شد. از این رو، رویکرد این پایان نامه در جهت ارائه روشی موثر در تشخیص نواحی گفتار و غیرگفتار در شرایطی است که نویز زمینه غیرایستان بوده و سطح توان نویز نیز بیش از سطح توان گفتار باشد. به این منظور با ایجاد شرایط مورد نظر به کمک نویزهای غیر ایستان استانداردی هم چون نویز babble، صحت روش های موجود و نیز روش مطرح شده مورد بررسی قرار گرفته است. با توجه به تعریف مسأله ، دو روش پیشنهادی در این پایان نامه مطرح گشته است. روش اول بر مبنای مفهوم انتروپی است. نتایج بدست آمده از این روش حاکی از آن است که این طرح در حضور نویزهای ایستان و شبه ایستان عملکرد خوبی حتی در شرایطی که توان نویز بر توان سیگنال غالب باشد، دارد. اما در مواجه با نویزهای غیر ایستانی چون babble ناتوان است. روش دوم مطرح شده، فعالیت آشکارسازی فریم های گفتاری از غیر گفتاری در حضور نویز غیرایستان و در شرایطی که توان نویز بر توان سیگنال غالب است را دارد.