عباس وحدت آزاد

نام پژوهشگر: عباس وحدت آزاد

انتخاب ویژگی¬های صوتی جهت افزایش کارایی تشخیص گوینده در سیستم¬های مستقل از متن مجموعه بسته بر پایه همجوشی مدل¬ها

پایان نامه دانشگاه تربیت معلم - تهران - دانشکده فنی 1392
عباس وحدت آزاد منوچهر کلارستاقی

یکی از تکنیک¬های شناسایی هویت مبتنی بر زیست سنجی که به عنوان یک روش مناسب مورد توجه محققان بوده است، روش مبتنی بر استفاده از گفتار است. سیگنال گفتار حاوی چندین سطح اطلاعاتی است. در سطح نخست حاوی اطلاعات گفتاری شامل واژه ها و پیغام های بیان شده است. ولی در سطح دوم حاوی اطلاعات مربوط به خصوصیات گوینده گفتار شامل ویژگیهای مجرای گفتاری، احساسات و ... است. با توجه به هزینه کم و سهولت انتقال صوت از طریق تلفن، امروزه استفاده از آن در تشخیص هویت افراد مورد توجه قرار گرفته است. به طور کلی سیگنال گفتار شامل دو بخش کلی مفهوم گفتار و هویت گوینده است. زمینه شناخت گوینده مربوط به تکنیک¬هایی برای استخراج مشخصات گوینده از روی سیگنال است .در مغز انسان به راحتی گوینده¬های آشنا از یکدیگر تفکیک و تشخیص داده می¬شوند، ولیکن آنچه که برای تشخیص گوینده در سیستم¬های مصنوعی لازم است، شناخت و استخراج مشخصات گوینده از روی سیگنال گفتار آن¬ها است. هر شخصی یک الگوی صدای منحصر به فرد دارد که او را از دیگران متمایز می سازد. در صورتی که دو شخص صداهای مشابه داشته باشند، شباهت معمولاً ظاهری است و از طریق آنالیز الگوهای صدا، تمایز بین آن¬ها با یک درجه بالایی از دقت امکانپذیر است. با ظهور کامپیوترهای رقومی، آنالیز مشخصات مختلف صدای شخص با استفاده از روش¬هایی امکان پذیر شده است. الگوریتم¬های پردازش سیگنال رقومی قدرتمند برای جداسازی مشخصات ویژه یک الگوی صدا و مقایسه این الگوها با یک نسخه ذخیره شده جهت پی بردن به این که شخص صحبت کننده چه کسی است در دسترس هستند. با این الگوریتم¬ها، شناسایی صحیح یک شخص در صورتی که گفتار او توسط عواملی چون نویز محیطی، نویز حاصل از انتقال گفتار بر روی کانال¬های مخابراتی و مانند آن مخدوش نشده باشد، با یک احتمال خطای کوچک قابل قبول امکان پذیر است . به منظور افزایش دقت سیستم¬های بازشناسی گفتار و گوینده تلاش¬های بسیاری انجام شده است. که در گروهی از آن¬ها سعی شده، مستقیمأ از گفتار ویژگی¬های کاراتری استخراج شوند. در دسته ای دیگر تلاش شده تا از میان ویژگی¬های استخراج شده، ویژگی¬های موثرتری که حاوی اطلاعاتِ مربوط به گوینده بیشتری هستند، انتخاب شوند.