نام پژوهشگر: فرزانه سرافراز
فرزانه سرافراز محمدابراهیم شیری
هدف از این پروژه استفاده از پیکره ی متنی وبلاگ های فارسی برای استخراج اطلاعات زبان شناختی و یافتن مدلی برای تولید خودکار متن فارسی است. مهم ترین ابزار مورد نیاز برای حل مسایل مختلف به روش تجربی در حیطه ی پردازش زبان طبیعی وجود پیکره ی زبانی بزرگ و متعادل است در زبان فارسی با رشد کمی وبلاگ های فارسی در سال های اخیر چنین پیکره ی متنی بزرگی در وجود دارد. این پیکره با اینکه خصوصیات یک پیکره ی متعادل را ندارد. اما ویژگی هایی دارد که آن را برای تحلیل زبان شناختی مناسب می کند. برای اینکه پیکره ی بسیار ناهمگن وبلاگ های فارسی را که در زمان ها و موقعیت های مختلف نوشته شده و نویسنده های متعدد دارد. تبدیل به پیکره ی مناسبی برای پردازش ماشینی کنیم روی آن انواعی از پیش پردازش ها انجام می دهیم و سپس با روش های مختلف آماری ویژگی های زبان شناختی آن را بررسی می کنیم. در پایان مدلی برای تولید خودکار متن مشابه پیشنهاد می کنیم و نتایج حاصل از تولید خودکار متن را ارزیابی می کنیم