مونا حاجی مومنی

نام پژوهشگر: مونا حاجی مومنی

طبقه بندی کلمات متن تایپی فارسی - انگلیسی بر حسب نوع قلم، در قالب نظریه بیزی، و با استفاده از ویژگی های فیلتر گابور

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1387
مونا حاجی مومنی حمیدرضا امین داور

طبقه¬بندی کلمات در متون تایپی برحسب نوع قلم، کاربردهای فراوانی در پردازش اتوماتیک اسناد و نوشته¬ها دارد که در دنیای امروز هم رایج شده و هم ضروری به نظر می¬رسد. در این میان، نفس عمل طبقه¬بندی از هر نوع که باشد در افزایش دقت و بهبود عملکرد کل مسأله به شدت موثر خواهد بود. مثالی از این دست می¬تواند طبقه¬بندی کلمات یک صفحه از لعت¬نامه¬ای باشد که هر نوع قلم، اطلاعات جانبی مختلفی را در مورد کلمه مذکور نمایان سازد: قلم ضخیم نشانه شروع یک مدخل جدید باشد و قلم مایل جایگاه دستور زبانی کلمه. قلم عادی با فونت کوچک اطلاحات را مشخص می¬کند و قلم عادی با فونت بزرگتر، معنی را. آنچه در این پروژه بدان پرداخته شده است، پیاده سازی الگوریتمی در طبقه¬بندی کلمات یک متن تایپی، برحسب نوع قلم نگارش آن است. بنابراین فرض می¬شود که کلمات متن مورد نظر با یکی از چهار نوع قلم عادی، مایل، ضخیم، و مایل ضخیم، نوشته شده¬اند و هدف، طبقه¬بندی آنهاست. از دیدگاه کلی، هدف پروژه، یافتن یک توزیع احتمال است که پارامترهای آن، توصیف کننده کلاس¬های مورد نظر در مسأله فیزیکی¬اند. کل روند تحقیق در سه بخش قابل پردازش است. بخش اول، توصیف فیزیک مسأله به فضای ریاضی ویژگی¬هاست. بخش دوم، انتخاب توزیع احتمالی برای مدل کردن فضای به دست آمده است، و بالاخره بخش سوم، به کارگیری روشی برای تخمین پارامترهای مدل احتمال مذکور. پیداست که از نظر موضوعی، در دسته تخمین¬ مدل¬های احتمال پارامتری جای داریم. به این موضوع، قالب بیزی هم اضافه می¬شود، و پارامترهای مدل احتمال، متغیرهای تصادفی با توزیع احتمال پیشین فرض می¬شوند. با این زمینه، تکیه اصلی بر الگوریتمی تکرارشونده در زمینه تقریب¬های توزیعی است که همراه با یک مدل توزیع احتمال جدید، زیربنای تحلیلی پروژه را تشکیل می¬دهند. منظری که از ابتدا تا انتهای این نوشته، سعی در توصیف آن داریم، در واقع ارتباط این دو مورد است، «تا که قبول افتد و که در نظر آید».

۱۵ صفحه ی اول