نام پژوهشگر: محمد مهدی همایون پور

تشخیص خودکار محدوده سنی با استفاده ابربردارها
پایان نامه وزارت علوم، تحقیقات و فناوری - موسسه آموزش عالی شهاب دانش - دانشکده مهندسی برق 1392
  ملک محمد کرمی نْژاد   محمد مهدی همایون پور

تشخیص محدوده سنی توسط کامپیوتر از مسائل هوش مصنوعی و یکی از مسائل طبقه بندی الگوست که هر گروه سنی در آن نشان دهنده یک کلاس است. در این پایان نامه کلاس بندی بر اساس گروه های سنی کودکان 7-3 سال و 12-8 سال بدون تفکیک جنسیتی و گروه های سنی 20-13 سال، 30-21 سال، 40-31 سال، 50-41 سال و افراد بالای 50 سال با تفکیک جنسیتی انجام می گیرد. در اکثر کارهای مشابه انجام شده، دسته بندی سنین بین 20 تا 50 سال بعنوان یک دسته با تفکیک جنسیتی در نظر گرفته شده است که از این نظر، دسته بندی در این پایان نامه با آنها متفاوت می باشد. مجموع کل گویندگان 363 نفر می باشد که 70 درصد آنها برای مرحله آموزش و 30 درصد برای مرحله آزمایش در نظر گرفته شد. اولین مرحله برای آموزش مدل اکوستیکی، استخراج ویژگیهای مناسب توصیف کننده کلاسها میباشد. ویژگیهای طیفی بکار رفته در این پایان نامه ضرایب کپسترال مبتنی بر بانک فیلتر با توزیع فرکانسی مل یا ضرایب mfcc همراه با مشتقات ضرائب mfcc می باشد. ویژگی های طیفی استخراج شده از گویش های مختلف گویندگان با اندازه های مختلف دارای ابعاد ثابت نبوده لذا نمی توانند بطور مستقیم بعنوان ورودی ماشین بردار پشتیبان svm مورد استفاده قرار گیرند. بنابراین برای رفع این مشکل از ابربردارها استفاده گردید. ابتدا با استفاده از تمامی بردارهای ویژگی حاصل از گویش های گویندگان زن و مرد با سنین مختلف انتخاب شده برای مرحله آموزش، یک مدل gmm سراسری بنام مدل gmm-ubm ساخته شد. این مدل اطلاعات صوتی اکثر گویندگان را در بر خواهد داشت. آنگاه با استفاده از بردارهای ویژگی هر گویش و به کمک روش تطبیق پسین (map)، مدل gmm-ubm برای آن گویش تطبیق داده شد. بردارهای میانگین مولفه های گوسیِ مدلِ تطبیق یافته هر گویش به دنبال هم قرار گرفته و یک ابربردار برای آن گویش تشکیل گردید. با توجه به ابعاد بالای ابربردارها، با استفاده از روش کاهش بعد pca، ابربردارها به ابعاد پایین تر کاهش داده شدند. اینکار در کاهش حجم محاسبات تاثیر بسزایی دارد، ضمن اینکه می تواند به افزایش دقت در تشخیص محدوده سنی نیز منجر گردد. ابربردارهای گویندگان هر محدوده سنی محاسبه و این کار برای کلیه محدوده های سنی انجام شد. به ابربردارهای هر محدوده سنی برچسب آن محدوده سنی اختصاص داده شد و با استفاده از روش طبقه بندی svm، برای هر محدوده سنی یک مدل ساخته شد. مدل svm، هر محدوده سنی، آن محدوده را از سایر محدوده ها متمایز می سازد. سیستم تشخیص محدوده سنی ساخته شده در این پروژه با استفاده از دادگان گفتاری تهیه شده در آزمایشگاه پردازش هوشمند داده های چند رسانه ای دانشکده مهندسی کامپیوتر دانشگاه صنعتی امیرکبیر که برای همین منظور طراحی و ضبط گردیده است، آموزش داده و ارزیابی شده است. این پایگاه داده بخشی از محدوده های سنی را پوشش نمی داد که در این پروژه بخش بیشتری از آن با ضبط تعدادی از گویندگان تکمیل گردید. با این وجود برای پوشش کامل همه محدوده های سنی ناچار به استفاده از گفتار گویندگانی از دادگان فارسدات شدیم. در انجام این پایان نامه توانستیم با استفاده از ابربردارها، تکنیک کاهش ابعاد pca روی ابربردارهای حاصله از میانگین مولفه های گوسی تطبیق یافته و استفاده از طبقه بندی کننده svm (ls-svm) به دقت 75.33% برای تعیین محدوده سنی گویندگان دست یابیم.