نام پژوهشگر: محمدحسین حسینی امینی
محمدحسین حسینی امینی بابک ناصرشریف
متداول ترین و کاراترین ویژگی ها برای بازشناسی گفتار، ضرایب فرکانسی مل کپستروم هستند. این ویژگی ها از طریق اعمال تبدیل کسینوسی گسسته بر لگاریتم انرژیخروجی های بانک فیلترِ مِل بدست می آیند. تبدیل کسینوسی گسسته در حالت کلی در فشرده سازی و ناهمبسته سازی دادهها به صورت نیمه بهینه عمل می کند. این موضوع یکی از علل کاهش عملکرد ویژگی های مل کپستروم در محیطی است که نویزهای جمع پذیر وجود دارند. در این رساله پیشنهاد می شود که با جایگزینی توابع تخمینی حاصل از برنامه نویسی ژنتیک به جای تبدیل کسینوسی گسسته بر ضعف های یاد شده غلبه شود. پنج تابع برازش مختلف برای برنامه ریزی ژنتیک در این مقاله مورد استفاده قرار گرفته است. تابع اول با هدف تعامد لگاریتم انرژی خروجی های بانک فیلترِ مِل، تابع دوم با هدف دوم قطری سازی ماتریس کواریانس آن ها ، و تابع سوم برای افزایش پراکندگی بین کلاسی و کاهش پراکندگی درون کلاسی (معیار فیشر) مد نظر قرار گرفته است. تابع چهارم از ترکیب دو تابع اول و سوم مذکور در فوق و تابع پنجم از ترکیب توابع دوم و سوم به دست می آید. نتایج بدست آمده بر روی پایگاه داده گفتار aurora 2 نشان می دهد که هر پنج تابع پیشنهادی سبب افزایش دقت بازشناسی نسبت به روش استاندارد استخراج ضرایب مل کپستروم و نیز استفاده از آنالیز مولفه های اصلی به همراه این ضرایب می گردد. علاوه بر اینکه در بین این پنج تابع برازندگی، تابع پنجم که قطری سازی ماتریس کوواریانس لگاریتم های انرژی زیرباندهای مل را توام با معیار فیشر در نظر می گیرد، موفق تر از بقیه عمل می کند. افزایش متوسط درصد بازشناسی بر روی سه مجموعه دادگان aurora 2 به میزان 20% نسبت به ضرایب مل کپستروم گواهی بر این ادعا است.