نام پژوهشگر: سیامک اسمعیلی
سیامک اسمعیلی جمشید باقرزاده
با افزایش استفاده از اینترنت، مکالمات متنی با استفاده از کامپیوتر محبوبیت زیادی یافته است. با این روش در فضای اینترنت، داده های بسیار زیادی تولید می شود، که موقعیت خوبی برای کاوش این نوع داده ها بوجود می آورد. ما اعتقاد داریم که بدست آوردن اطلاعات مفید از داده های مکالمات متنی اینترنتی می تواند در بهبود ایجاد ارتباط با استفاده از کامپیوتر نقش مهمی داشته باشد. در ایران با توجه به اینکه غالبا از اسکریپت ثانویه (فارسی با اسکریپت انگلیسی) برای نوشتن پیام های غیررسمی استفاده می شود، انتظار می رود که لهجه ها، گویش ها و تکه کلامها در اینگونه پیام ها انعکاس یافته و در نتیجه نزدیکی بیشتری بین زبان محاوره و زبان نوشتار وجود داشته باشد. با توجه به این نزدیکی به نظر میرسد ارتباطی بین متون ارسالی افراد در چت و ویژگی های فرستنده ی آنها وجود دارد. در این پژوهش ابتدا پیام های افراد مختلف را جمع اوری شده است، سپس پیش پردازشی روی آنها انجام خواهیم داد تا پیام ها از نظر تعداد و طول به حالت یکنواخت برسند و در مرحله بعد پیام های پیش پردازش شده به عنوان ورودی به الگوریتم های کلاس بندی وارد شده است . دقت این الگوریتم ها با هم مقایسه شده و ثابت شده است که الگوریتم های نیوبیزین و svm نتایج قابل قبولی تولید می کنند.