نام پژوهشگر: بابک ناصرشریف
نغمه مرادی لاکه بابک ناصرشریف
یک سیستم بازشناس گفتار باید بتواند یک سیگنال گفتار بیان شده را مستقل ازگوینده، ابزار انتقال و محیط بیان گفتار به یک پیغام متنی تبدیل کند. یکی ازچالش های موجود در بازشناسی گفتار استفاده از سیستمهای بازشناس گفتار در محیط های واقعی است که در آنها نویز یا اثرات کانال همواره وجود دارد. این عوامل خصوصیات آماری سیگنال گفتار و ویژگی های آن را تغییرمی دهد به طوری که مدل آموزش یافته ای که ازروی گفتاربدون نویز بدست می آید نمی تواند بیانگرخصوصیات آماری داده های نویزی نیز باشد. این عدم تطابق بین محیط های آموزش وآزمایش دقت بازشناسی را شدیداًتحت تأثیرخودقرارمی دهد. برای مقابله با تاثیر نویز بر سیگنال گفتار سه روش کلی وجود دارد: بهبودگفتار، جبران ویژگی و تطبیق مدل. روشهای بهبود گفتار نویز را در سطح سیگنال گفتار کاهش می دهند و بر روی ویژگیها یا مدلهای آماری گفتار تغییری صورت نمی دهند. روشهای جبران ویژگی کاهش نویز را در مرحله استخراج ویژگی یا پس از پایان آن با انجام پس پردازش انجام می دهند. روشهای تطبیق مدل نیز با تبدیل و تغییر پارامترهای مدل آماری گفتار، مدل را با ویژگیهای نویزی گفتار تطبیق می دهند. دراین پایان نامه دو روش با استفاده ازترکیب روش های بهبود گفتار و روشهای جبران ویژگی پیشنهاد گردیده است. در روش پیشنهادی اول ابتدا ازیک فیلتر اصلاح شده مبتنی بر تفاضل طیف موسوم به خطای مربعات کمینه (mmse) برای کاهش نویز در سطح سیگنال استفاده می شود. سپس برای جبران تاثیر اعوجاجات ایجاد شده در سطح سیگنال گفتار و در نتیجه ویژگیهای استخراجی آن، یک فیلتر موقت مبتنی بر داده، بر دنباله ویژگیها اعمال می شود. در روش پیشنهادی دوم ، پس از معرفی و انجام یک پردازش وابسته به نسبت سیگنال به نویز بر روی ویژگیهای مل کپستروم، از فیلتر کردن موقت مبتنی بر داده ویژگیها استفاده می شود. این روشها بر روی دادگان aurora 2 ، مورد ارزیابی و آزمایش قرار گرفته اند. نتایج نشان می دهد که روشهای ترکیبی پیشنهادی درصد بازشناسی بهتری از دیگر روشها دارند. علاوه بر اینکه فیلترهای مبتنی بر داده در کاربرد بازشناسی موفق تر از فیلترهای ثابت هستند. با استفاده از این روشها درصد دقت بازشناسی نسبت به سیستم پایه ( ضرایب مل کپستروم) بطور متوسط در حدود 17% افزایش یافته است.
سیده لیلا نژادهاشمی اسدالله شاه بهرامی
استخراج ویژگی و اندازه گیری شباهت در فضای ویژگی ها دو مرحله اصلی در یک سیستم بازیابی تصویر مبتنی بر محتوا هستند. از این رو در چنین سیستمی شناسایی روش های مناسب برای توصیف محتوای تصویر و همچنین تطبیق تصویر پرسش با تصاویر موجود در دادگان به روشی که به بهترین شکل منعکس کننده قضاوت انسان درباره میزان شباهت ها باشد، از اهمیت بسیاری برخوردار است. یکی از روش های استخراج ویژگی، استخراج ویژگی از بافت به عنوان یکی از عناصر اصلی تصویر است. در این راستا، تبدیل موجک گسسته با توجه به امتیازاتی از قبیل پیاده سازی کارآمد و امکان تحلیل تصویر در مقیاس های مختلف، پرکاربردترین روش برای استخراج ویژگی ها از بافت به شمار می آید. اما در سال های اخیر به دلیل کاستی هایی که مهمترین آن ضعف در تعیین جهات مختلف موجود در یک تصویر است، تبدیلات چندمقیاسی دیگری نیز مورد توجه قرار گرفته اند. تبدیل موجک مختلط با درخت دوگانه از جمله راهکارهایی است که برای غلبه بر کاستی های تبدیل موجک گسسته پیشنهاد شده است. هدف در این پایان نامه ارائه روشی مبتنی بر تبدیلات موجک برای استخراج ویژگی هاست، به طوری که هم از لحاظ توانایی در توصیف محتوای بافت و هم از لحاظ زمان بازیابی کارآمد باشد. به این منظور ابتدا با استفاده از زیرباندهای به دست آمده از تبدیل موجک مختلط با درخت دوگانه، بردارهای ویژگی ساخته می شوند. این بردارها بر اساس انرژی زیرباندها و مدل سازی آماری توزیع ضرایب زیرباندها با استفاده از تابع گاوسی تعمیم یافته (ggd) به دست می آیند. سپس با اعمال تبدیلات کاهش بعد خطی و غیر خطی به بردارهای ویژگی چند مقیاسی مذکور، ضمن کمک به بهنگام نمودن فرایند بازیابی، توصیف موثرتری از تصاویر به دست می آید. این تبدیلات عبارتند از روش های خطی تحلیل متمایزساز خطی (lda ) و lpp و روش های غیرخطی kernel lda و kernel lpp. در پایان به منظور کلاس بندی بردارهای ویژگی کاهش بعد یافته از سه کلاس بند k نزدیک ترین همسایه (knn)، ناایو بیز (nb) و ماشین بردار پشتیبان (svm) استفاده شده است. نتایج به دست آمده بر روی دو دادگان تصویری استاندارد vistex و brodatz گویای کارآیی و کارآمدی چارچوب پیشنهادی برای سیستم بازیابی تصویر مبتنی بر محتوا در این پایان نامه است.
صونا قوینلی کر جلیل سیفعلی هرسینی
یکی از مراحل اصلی در روند بازشناسی گفتار، استخراج ویژگی ها می باشد. در حقیقت ویژگی های مربوط به نمونه های هر کلاس باید بگونه ای از کلاس های دیگر متمایز شده باشند که سیستم بازشناسی گفتار در شرایط مختلف مانند نویز نیز عملکرد مناسبی از خود نشان دهد. تبدیل ویژگی می تواند پس از استخراج ویژگی بکار رود تا به این متمایزسازی کمک نماید. روش های تبدیل ویژگی را می توان به دو گروه خطی و غیرخطی تقسیم نمود. ویژگی های جدید در تبدیلات خطی براساس میانگین وزن دار ویژگی های اصلی بدست می آیند. اما تبدیلات غیرخطی با یک نگاشت غیرخطی عمل تبدیل را انجام می دهند. روش های مبتنی بر هسته و برخی روش های مبتنی بر خمینه از این گروه هستند. یکی از روش های تبدیل ویژگی مبتنی بر خمینه که دارای دو نسخه خطی و غیرخطی است، تصویر حافظ خصوصیات محلی (lpp) است که در بازشناسی گفتار و دیگر شاخه های بازشناسی الگو بکار گرفته شده است. علیرغم اینکه این روش برای بازشناسی گفتار در حضور نویز مفید به نظر می رسد، اما به تمایز بین واحدهای گفتاری توجه ندارد. از این رو هر دو نوع خطی و غیرخطی آن طوری اصلاح شده است که متمایزسازی بین کلاس ها را هم در نظر بگیرد. در این پایان نامه برای نخستین بار روش خطی تصویر حافظ خصوصیات محلی متمایزساز برای بازشناسی گفتار در حضور نویز پیشنهاد شده است . در این راستا دو روش اصلاح شده بکار گرفته شده است. از سوی دیگر پیشنهاد شده است که بجای تصویر حافظ خصوصیات محلی مبتنی بر هسته (نسخه غیر خطی با نام klpp) از ترکیب آنالیز مولفه های اصلی مبتنی بر هسته (kpca) با نسخه های خطی اصلی و متمایزساز تصویر حافظ خصوصیات محلی استفاده شود. به این ترتیب در ابتدا با استفاده از روش kpca متعامدسازی دادگان در فضایی غیرخطی با ابعاد بالاتر صورت می گیرد و سپس با استفاده از روش های مبتنی بر lpp دادگان با حفظ همسایگی به روی یک خمینه گفتاری نگاشت می یابند. این روش ها برای غلبه بر نویزهای توأم جمع پذیر و کانال پیشنهاد شدند. این روش ها بر روی دادگان aurora2 مورد ارزیابی و آزمایش قرار گرفته اند. نتایج نشان می دهد که روش های ترکیبی پیشنهادی دقت بازشناسی بهتری نسبت به روشی مشابه دارند. با استفاده از این روش ها درصد بازشناسی نسبت به سیستم پایه (ضرایب مل کپستروم) بطور متوسط در حدود 5/16? افزایش یافته است.
محمدحسین حسینی امینی بابک ناصرشریف
متداول ترین و کاراترین ویژگی ها برای بازشناسی گفتار، ضرایب فرکانسی مل کپستروم هستند. این ویژگی ها از طریق اعمال تبدیل کسینوسی گسسته بر لگاریتم انرژیخروجی های بانک فیلترِ مِل بدست می آیند. تبدیل کسینوسی گسسته در حالت کلی در فشرده سازی و ناهمبسته سازی دادهها به صورت نیمه بهینه عمل می کند. این موضوع یکی از علل کاهش عملکرد ویژگی های مل کپستروم در محیطی است که نویزهای جمع پذیر وجود دارند. در این رساله پیشنهاد می شود که با جایگزینی توابع تخمینی حاصل از برنامه نویسی ژنتیک به جای تبدیل کسینوسی گسسته بر ضعف های یاد شده غلبه شود. پنج تابع برازش مختلف برای برنامه ریزی ژنتیک در این مقاله مورد استفاده قرار گرفته است. تابع اول با هدف تعامد لگاریتم انرژی خروجی های بانک فیلترِ مِل، تابع دوم با هدف دوم قطری سازی ماتریس کواریانس آن ها ، و تابع سوم برای افزایش پراکندگی بین کلاسی و کاهش پراکندگی درون کلاسی (معیار فیشر) مد نظر قرار گرفته است. تابع چهارم از ترکیب دو تابع اول و سوم مذکور در فوق و تابع پنجم از ترکیب توابع دوم و سوم به دست می آید. نتایج بدست آمده بر روی پایگاه داده گفتار aurora 2 نشان می دهد که هر پنج تابع پیشنهادی سبب افزایش دقت بازشناسی نسبت به روش استاندارد استخراج ضرایب مل کپستروم و نیز استفاده از آنالیز مولفه های اصلی به همراه این ضرایب می گردد. علاوه بر اینکه در بین این پنج تابع برازندگی، تابع پنجم که قطری سازی ماتریس کوواریانس لگاریتم های انرژی زیرباندهای مل را توام با معیار فیشر در نظر می گیرد، موفق تر از بقیه عمل می کند. افزایش متوسط درصد بازشناسی بر روی سه مجموعه دادگان aurora 2 به میزان 20% نسبت به ضرایب مل کپستروم گواهی بر این ادعا است.
سارا ابدالی بابک ناصرشریف
یک رویکرد برای جداسازی موسیقی از گفتار به عنوان یک مساله جداسازی منابع تک کاناله، روش عامل بندی نامنفی ماتریس(nmf) است. در این روش، طی روندی تکراری، طیف نگار سیگنال مخلوط به طیف نگار سیگنال های سازنده اش(منبع) تجزیه می شود. در این راستا، در مرحله آموزش nmf استاندارد، طیف نگار هر سیگنال منبع، به صورت ضرب دو ماتریس با درایه های نامنفی، موسوم به ماتریس های وزن و پایه عامل بندی می شود. این ماتریس ها طی روندی تکراری مبتنی بر یک تابع هزینه تخمین زده می شوند. یک مشکل روش nmf استاندارد، مستقل در نظر گرفتن عناصر ماتریس پایه در تابع هزینه است. یک روش برای حل این مشکل در نظر گرفتن پیوستگی زمانی طیف با افزودن عبارتی تنظیم کننده به تابع هزینه می باشد. در این پایان نامه پیشنهاد می شود علاوه بر افزودن عبارت تنظیم کننده، ماسک وینر به عنوان پس پردازش بر سیگنال جدا شده گفتار در خروجیnmf اعمال شود تا کیفیت سیگنال جدا شده بهبود یابد. نتایج آزمایش ها، نشانگر موفقیت به کار گیری روش پیشنهادی در بهبود کیفیت جداسازی برای دو تابع هزینه مبتنی بر (kullback-leibler(kl و itakura-saito(is) درnmf است.