نام پژوهشگر: سیامک اسمعیلی

شناسایی ویژگی های افرادی که به زبان فارسی چت می کنند
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه ارومیه - دانشکده فنی 1392
  سیامک اسمعیلی   جمشید باقرزاده

با افزایش استفاده از اینترنت، مکالمات متنی با استفاده از کامپیوتر محبوبیت زیادی یافته است. با این روش در فضای اینترنت، داده های بسیار زیادی تولید می شود، که موقعیت خوبی برای کاوش این نوع داده ها بوجود می آورد. ما اعتقاد داریم که بدست آوردن اطلاعات مفید از داده های مکالمات متنی اینترنتی می تواند در بهبود ایجاد ارتباط با استفاده از کامپیوتر نقش مهمی داشته باشد. ‎ در ایران با توجه به اینکه غالبا از اسکریپت ثانویه (فارسی با اسکریپت انگلیسی) برای نوشتن پیام های غیررسمی استفاده می شود، انتظار می رود که لهجه ها، گویش ها و تکه کلامها در اینگونه پیام ها‎‎ ‏انعکاس یافته و در نتیجه نزدیکی بیشتری بین زبان محاوره و زبان نوشتار وجود داشته باشد. با توجه به این نزدیکی به نظر میرسد ارتباطی بین متون ارسالی افراد در چت و ویژگی های فرستنده ی آنها وجود دارد.‎ در این پژوهش ابتدا پیام های افراد مختلف را جمع اوری شده است، سپس پیش پردازشی روی آنها انجام خواهیم داد تا پیام ها از نظر تعداد و طول به حالت یکنواخت برسند و در مرحله بعد پیام های پیش پردازش شده به عنوان ورودی به الگوریتم های کلاس بندی وارد شده است . دقت این الگوریتم ها با هم مقایسه شده و ثابت شده است که الگوریتم های نیوبیزین و ‎svm‎‏ نتایج قابل قبولی تولید می کنند.