نام پژوهشگر: ناهید علینقی زاده

بازشناسی گوینده مبتنی بر روشهای ادغام اطلاعات در سطح تصمیم
پایان نامه سایر - دانشکده صدا و سیمای جمهوری اسلامی ایران 1391
  ناهید علینقی زاده   علی جبار رشیدی

در میان تمام فناوریها و روشهای تشخیص هویت زیستی، بازشناسی گوینده بر مبنای اطلاعات صحبت را میتوان طبیعیترین و اقتصادیترین روش برای سیستمهای ارتباط انسان-ماشین دانست. همچنین توسعه فناوری پردازش صحبت باعث تقویت بسیاری از کاربردهای بازشناسی گوینده شده است. از آنجا که یکی از مهمترین زمینههای تحقیقاتی فعال که در سالهای اخیر در بسیاری از کاربردها باعث بهبود عمده در بازشناسی گوینده شده است استفاده از روشها و مدلهای ادغام اطلاعات در سطوح مختلف میباشد محور اصلی در این پژوهش، بهبود دقت بازشناسی گوینده با استفاده از ادغام اطلاعات در سطح تصمیم است. در این پایان نامه رویکرد استخراج ویژگیهای جدیدی بر پایه ضرایب کپسترال جهت فراهم سازی منابع تصمیم گیری مورد استفاده در ادغام تصمیم مد نظر قرار گرفته و با توجه به اینکه مشتقات هر تابع بخشی از ویژگیهای مستتر در آن را به نمایش میگذارد از مشتق اول و دوم ضرایب کپسترال مل-فرکانس به عنوان بردارهای ویژگی ثانویه استفاده نموده ایم. این رویکرد به مفهوم استفاده و بهرهگیری همزمان از اطلاعات نهفته در بردار ویژگی، تغییرات(بردار سرعت) و نرخ تغییرات(بردار شتاب) ویژگی میباشد. پس از بازشناسی گوینده مبتنی بر این سه بردار ویژگی به صورت مجزا، جهت بهبود دقت و صحت نتایج بازشناسی و شناسایی، اقدام به طراحی چارچوب ادغام اطلاعات در سطح تصمیم نمودهایم. استفاده همزمان از این بردارهای ویژگی در بستر ادغام تصمیم تاکنون توسط محققان گزارش نشده است. استفاده از روشهای مناسب جهت خوشه بندی بردارهای ویژگی از جمله روش کوانتیزه کردن برداری و همچنین توابع تعیین اندازه شباهت از جمله فاصله ماهالانوبیس و فاصله حداکثر شباهت مبتنی بر حد آستانه از دیگر کارهای مهم انجام شده در پژوهش می باشد. در مرحله ادغام تصمیم، نتایج بازشناسیهای اولیه را با استفاده از روشهای ادغام تصمیم از جمله روشهای رأیگیری، رتبه بندی و روش امتیازدهی ترکیب و نتیجه را به عنوان بازشناسی نهایی استفاده ایم. نتایج نشان دهد که روشهای ادغام تصمیم باعث بهبود قابل توجه در دقت بازشناسی گوینده نسبت به حالت بدون ادغام شود. از نتایج دیگر این است که استفاده همزمان از اطلاعات مستتر در بردارهای تغییرات ضرایب کپسترال و بردارهای نرخ این تغییرات برای بازشناسی گوینده باعث بهبود کارایی سیستم بازشناسی گوینده میشود.