نام پژوهشگر: محمدصادق رستمی

سنتز جملات فارسی با استفاده از قواعد گویشی و کسره بین کلمات
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه سمنان - دانشکده برق و کامپیوتر 1391
  محمدصادق رستمی   سعید مظفری

با پیشرفت چشمگیر علوم رایانه در چند دهه ی اخیر و پررنگ تر شدن نقش آن در زندگی بشر، علوم مختلفی در کنار آن بوجود آمده و رشد کرده اند. یکی از این علوم هوش مصنوعی است و خود نیز به شاخه های متعددی تقسیم می شود که یکی از آن ها پردازش زبان طبیعی است. از شاخه های پردازش زبان طبیعی می توان به تبدیل متن به گفتار اشاره کرد که بیش از پنج دهه بر روی این موضوع کار شده است. در تبدیل متن به گفتار، هدف این است که رایانه قادر باشد تا یک متن را با صدای طبیعی –صدای انسان- بخواند. بدین منظور دو کار باید صورت گیرد: پردازش متن، سنتز گفتار. حدود دو دهه است که زبان فارسی نیز در پردازش رایانه ای مورد توجه قرار گرفته است. برای سنتز گفتار، از سه روش عمده استفاده می شود. روش اول که سعی در مدل سازی دقیق سیستم تولید گفتار انسان دارد، روش دوم که براساس استفاده از فیلترهای سری-موازی برای مدل کردن آواها بنا شده است و روش سوم که از قطعات از پیش ضبط شده استفاده می کند. آزمایشات نشان داده است که روش سوم، گفتار طبیعی تری تولید می کند. هدف از این پایان نامه، تولید گفتار طبیعی در زبان فارسی، با توجه به این سه موضوع است: تکیه ی کلمات، آهنگ جملات و کسره ی اضافه. در روش پیشنهادی، سنتز گفتار بر اساس استفاده از قطعات از پیش ضبط شده به نام دایفون است که دلایل استفاده از آن نیز مطرح شده است. ابتدا با توجه به بحث های زبان شناسی، نقش کلمات در جملات تعیین می گردد و با کمک آن، نوع کلمه مشخص می شود و با دانستن نوع کلمه، جایگاه تکیه در آن استخراج می گردد. سپس نوع جملات مشخص شده و با توجه به آن آهنگ جملات تعیین می شود. همچنین باید جایگاه کسره های اضافه در متن نیز مشخص گردد. با توجه به این مطالب، دایفون ها در هفت حالت استخراج می شوند و در زمان سنتز گفتار، با توجه به تکیه ی کلمات و آهنگ جملات و مکان کسره ی اضافه کنار هم قرار می گیرند. بررسی نتایج نشان می دهد از آن جا که آهنگ جملات و تکیه کلمات و پیوستگی در مکان های کسره ی اضافه، درون قطعات از پیش ضبط شده –دایفون ها- موجود است، استفاده از این روش نوای گفتار طبیعی تری نسبت به برخی سیستم های موجود، تولید می کند. معیار مقایسه نیز mos بوده است که این مقدار در روش پیشنهادی برای طبیعی بودن و اعمال نوای گفتار در چند حالت مختلفی که بررسی شده است، حدود 4.5 به دست آمده است.