نشانه گذاری آماری متون فارسی مبتنی بر محتوای وب

پایان نامه
چکیده

با گسترش روزافزون رسانه های ذخیره سازی الکترونیکی و رسانه های ارتباطی، و همچنین پیشرفت سریع علم کامپیوتر و فراگیر شدن آن، امروزه با حجم عظیمی از متون نوشتاری دیجیتال و اسناد الکترونیکی مواجه هستیم. با گسترش اینگونه اسناد، پردازش اسناد و متون مورد نظر از بین حجم عظیمی از اطلاعات متنی به صورت دستی کاری دشوار و در عمل غیرممکن خواهد بود. از این رو پردازش خودکار متون نوشتاری مورد توجه قرار می گیرد. برای انجام پردازش خودکار متون نوشتاری به کوچکترین واحد معنی دار متن یا کلمات بامفهوم نیاز داریم. از این روست که نشانه گذاری به معنی تشخیص و استخراج این کلمات بامفهوم یا نشانه ها از متون نوشتاری، به یکی از مسائل اساسی در پردازش زبان های طبیعی تبدیل شده است. از جمله کاربردهای نشانه گذاری در موتورهای جستجو هست. با توجه به ساختار زبان فارسی، در این زبان با مشکلات خاص خود مواجه هستیم. وجود رسم الخط های مختلف و سبک های نگارش متفاوت در زبان فارسی، باعث شده فاصله، معیار قطعی و دقیقی برای تشخیص مرز کلمه نباشد. ابهام یونیکد برای حروف "ک" و "ی"، افعال و کلمات مرکب، تولید کلمات جدید و همچنین ورود واژه ها از زبان های دیگر که در بکارگیری حروف برای نوشتن این کلمات ابهام ایجاد می کند، از دیگر مشکلاتی هستند که برای نشانه گذاری، با آن ها روبه رو هستیم. در فصل دوم با بررسی اهم روش های نشانه گذاری، به این نتیجه رسیدیم که تعداد زیادی از الگوریتم های نشانه گذاری، زیر مجموعه یکی از چهار دسته کلی تر روش های مبتنی بر قواعد، آماری، مبتنی بر فرهنگ واژگان و یادگیری بوده، که هرکدام مزایا و معایب خود را دارند. با بررسی روش های انجام شده برای زبان فارسی، مشخص شد اکثر این روش ها با استفاده از روش های مبتنی بر قواعد و مبتنی بر فرهنگ واژگان به نشانه گذاری می پردازند. از جمله مشکلات این روش ها می توان به نیاز داشتن دانش زبان شناسی اعم از معنایی و نحوی، کاربردی نبودن برای زبان هایی با استثنائات زیاد و شکست خوردن در مواجه با کلمات جدید اشاره کرد. با توجه به محدود بودن این روش ها، جواب حاصل از آن ها، در مقایسه با روش های آماری و یادگیری از اطمینان کمتری برخوردار است. برای استفاده از روش های آماری و یا یادگیری نیاز به یک پیکره متنی است. پیکره ای که بتوان با استفاده از آن، اطلاعات آماری را برای روش های آماری استخراج کرد و یا پیکره ای برچسب خورده با مقوله نحوی که نشانه گذاری شده اند و یکی از مناسب ترین منابع زبانی برای یادگیری قواعد نشانه گذاری در روش های یادگیری می باشند. توجه به این نکته ضروری به نظر می رسد که نشانه گذاری برای موضوعات گوناگون، روند متفاوتی را می طلبد، و ممکن است نشانه گذاری که برای سیستم تشخیص گفتار طراحی شده باشد، برای یک سیستم ترجمه ماشینی نتیجه مطلوبی نداشته باشد. از این روست که برای هر هدفی باید نشانه گذار متناسب با آن هدف طراحی کرد. از طرف دیگر هیچ یک از روش های ارائه شده برای زبان فارسی به جهت استفاده در موتورهای جستجو طراحی نشده اند و با توجه به اینکه در موتورهای جستجو مطلوب آنست که علاوه بر افعال مرکب و اسامی جمع، کلمات همسایه ای که به هم وابستگی معنایی دارند از جمله صفت وموصوف و مضاف ومضاف الیه نیز به عنوان یک نشانه در نظر گرفته شوند، بنابراین روش های موجود برای استفاده در موتورهای جستجو کارائی لازم را از خود نشان نمی دهند. هدف از انجام این پایان نامه، پیشنهاد سیستمی برای نشانه گذاری کلمات متون و نوشته ها جهت استفاده در موتورهای جستجو بود. برای این منظور با استفاده از روش های آماری و شبکه های عصبی، سعی بر طراحی سیستمی شد که بتواند اهداف ذکر شده را تحقق بخشد. در فصل سوم ایده ی اصلی برای نشانه گذاری کلمات مطرح گردید. در فصل مذکور روش آماری پیشنهادی ارائه گردید. در روش پیشنهادی که شامل 4 فاز بود، متن نوشتاری به عنوان ورودی به فاز اول داده می شد و نشانه ها از فاز آخر دریافت می گردید. با استفاده از فراوانی تکرار دوکلمه ای ها و فاصله فراوانی تکرار دوکلمه ای های همسایه، عبارات نشانه گذاری شدند. سپس ایده استفاده از شبکه های عصبی ارائه گردید که کارائی روش آماری پیشنهادی را بهبود بخشید. این روش با استفاده از شبکه های عصبی به دسته بندی عباراتی که از فاز 3 به فاز 4 آمده بودند، پرداخت. شبکه طراحی شده با بهره گرفتن از ویژگی هایی چون فراوانی تکرار تک کلمات، فراوانی تکرار دوکلمه ای ها و تعداد کلمات عبارات، عبارات فاز چهارم را به یکی از دو دسته نشانه یا غیرنشانه تخصیص می داد. نتایج حاصل از پیاده سازی نشان دادند روش های آماری پیشنهادی و بهبودیافته، باعث بهبود قابل توجهی در روش معمول شده اند. روش معمول می توانست در حدود 62/3? از کلمات متون مختلف را به درستی نشانه گذاری کند که با اعمال روش های آماری پیشنهادی و بهبودیافته، میانگین بازدهی سیستم به ترتیب به 81/4? و 89/6? افزایش یافت.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

تکنیک‌های خلاصه‌سازی چندسندی خودکار متون فارسی مبتنی بر الگوریتم‌های فرااکتشافی

هدف:ارائه الگوی خلاصه‌سازی استاندارد متون فارسی با رویکرد تبدیل مسئله خلاصه‌سازی به مسئله بهینه‌سازی توسط الگوریتم‌های فرااکتشافی سازگار. روش‌شناسی: در این پژوهش از اسناد استاندارد پیکره چندسندی «پاسخ» که شامل 50 موضوع مختلف از انواع گونه‌های خبری از خبرگزاری‌های پرببینده ایران، برای ارزیابی استفاده شده است. هر موضوع حاوی 20 سند و همچنین 5 خلاصه چکیده‌ای ...

متن کامل

ارائه یک روش مبتنی بر گرایش معنایی برای طبقه‌بندی چندبرچسبی محتوای فیلم‌ها به‌کمک متون زیرنویس آن‌ها

پی‌بردن به محتوای تصاویر متحرک و ژانر آن‌ها، همواره امری پیچیده و مسئله‌ای باز برای پژوهشگران بوده است. فعالیت‌های متعددی توسط پژوهشگران برای پی‌بردن به محتوای فیلم‌ها انجام پذیرفته است. اکثر فعالیت‌های صورت‌گرفته در این زمینه با استفاده از پردازش صوت یا تصویر فیلم‌ها بوده است. اخیراً گروهی از پژوهشگران ایده استفاده از متون زیرنویس فیلم‌ها را برای پی‌بردن به محتوای فیلم‌ها مطرح نموده و پردازش مت...

متن کامل

غنی سازی محتوای آموزش الکترونیکی مبتنی بر وب معنایی

در دنیای امروز به منظور کاهش هزینه یادگیری از طرفی و هزینه وقت از طرف دیگر که نمی توان از آن چشم پوشی کرد، بهره گیری از سیستمهای جدید یادگیری همچون یادگیری الکترونیکی جایگاه خود را نمایان ساخته است. محققان تلاش می کنند برای پایین آوردن هزینه آموزش مستقل از زمان با تکیه بر فناوری های جدید بتواند علاوه بر آموزش موثر هزینه تولید را با بهره گیری از دانش اشتراکی در محیط وب کاهش داده و با تنوع بخشی م...

خلاصه سازی ماشینی آماری متون فارسی

در این تحقیق سیستمی جهت خلاصه سازی آماری متون فارسی طراحی و پیاده سازی شده است.

نقطه گذاری، نگاره ها و نشانه ها در نسخه خطی «ترجمه فارسی تورات»(747 هـ. ق.)

نقطه­گذاری­ها و کاربرد نشانه­های نسخ از مسائلی است که در بررسی نسخه­های خطی و نسخه­شناسی باید بدان دقت شود. بدیهی است که توجه به این نشانه­ها و دانستن معنا و مفهومشان در بسیاری از موارد می­تواند حقایقی را دربارة کتاب و کاتب مکشوف کند. استخراج، دسته­بندی، تحلیل و بررسی این نشانه­ها در نسخ خطی موجود، نخستین گامی است که برای تبیین کارکردهای نشانه­ها در امر کتابت و نسخه­نویسی و به تبع آن، تکمیل این...

متن کامل

تأثیر تکنیک‌های خلاصه‌سازی بر دسته‌بندی متون فارسی

هدف این پژوهش، استفاده از ترکیب تکنیک های دسته بندی و خلاصه سازی و بررسی تاثیر افزایش تعداد اسناد می باشد که تأثیر پارامترهای خلاصه سازی TF وISF و چهار تکنیک دسته بندی بیزین، درخت تصمیم، قانون و بردار پشتیبان و سه معیار ارزیابی دقت، صحت و فراخوان بر روی 1000 سند متن اصلی و خلاصه محاسبه و تفاوت ها بررسی شدند. نتیجه ی این پژوهش حاکی از برتری اسناد 1000 تایی، روش خلاصه ساز ISF نسبت به TF، روش های ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده مهندسی برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023