نام پژوهشگر: سهراب خانمحمدی
پدرام صالحپور محمدرضا فیضی درخشی
در این پایان نامه خلاصه سازی استخراجی متون زبان فارسی مورد توجه قرار گرفته است. با توجه به شیوه های معمول امتیازدهی برای خلاصه سازی، در این پایان نامه سعی بر این است که شیوه lsa را که کمتر در زبان فارسی به آن پرداخته شده است، به کار گرفته شود و نتایج به دست آمده آن ارزیابی گردد. در شیوه lsa با استفاده از ماتریس تکرار واژه ها متن سعی بر این است که ساختارهای مخفی در متن شناخته شود. آزمایش های انجام شده با استفاده از متون پیکره همشهری انجام شدند. این متون شامل ?? متن خبری از روزنامه همشهری بوده است و هر یک از آنها به طور متوسط بیش از ?? جمله داشته اند. این متون در ژانرهای اجتماعی سیاسی و ادبی قرار گرفته بودند. به عنوان ارزیابی میزان عملکرد الگوریتم خلاصه های تولیدی نسبت به خلاصه های دستی تولید شده به وسیله انسان بررسی شدند. در ادامه بهبودهایی برای الگوریتم lsa ارایه و مورد ارزیابی قرار گرفتند. این بهبودها در امتیاز استفاده شده پایه در الگوریتم lsa بوده است. بهبودهای پیشنهادی در این پایان نامه شامل امتیاز لغوی با برقراری ارتباط میان کلمات هم معنی، امتیاز گرامری با در نظر گرفتن طول جملات به عنوان امتیاز تقویت کننده هر جمله و ترکیب امتیاز mmr برای هر جمله در ماتریس تکرار عبارات است که به ترتیب دو تغییر اولی موجب بهبود عملکرد الگوریتم lsa به طور متوسط بیش از ?? و امتیاز mmr آن را در حدود ??.?? تقویت نمود. در ادامه عملکرد الگوریتم در برابر عدم تعیین صحیح مرزها مورد ارزیابی قرار داده شد. خلاصه سازی چند سنده نیز در این پایان نامه مورد بررسی قرار گرفت و عملکرد الگوریتم lsa پایه و الگوریتم lsa بهبودیافته با تمام تغییرات مورد ارزیابی قرار گرفت که عملکرد الگوریتم lsa بهبود یافته با در نظر گرفتن تمام تغییرات بیش از ?? بهتر از الگوریتم lsa پایه بوده است. در ادامه تاثیر جملات تکراری در خلاصه چند سنده مورد ارزیابی قرار گرفت و میزان تاثیر آن به نمایش گذاشته شده است.
حمید قدیری سهراب خان محمدی
چکیده ندارد.