تصحیح خودکار داده‌ها مبتنی بر وابستگی تابعی و سیستم یادگیری مرکب

Authors

  • مهدیه عطاییان تهران - دانشگاه تربیت دبیر شهید رجایی - دانشکده مهندسی کامپیوتر
  • نگین دانشپور تهران - دانشگاه تربیت دبیر شهید رجایی - دانشکده مهندسی کامپیوتر
Abstract:

صحت داده‌ها یکی از مهم‌ترین ابعاد کیفیت داده‌ها به‌شمارمی‌رود. با توجه به حجم بالای منابع داده‌ای نیاز به روش‌هایی خودکار وجود دارد. در این مقاله راهکاری خودکار برای تصحیح داده‌هایی با انواع داده‌ای متفاوت ارائه ‌شده ‌است. در این راهکار در ابتدا رکوردهایی که احتمالاً حاوی ویژگی خطا است با استفاده از وابستگی تابعی شناسایی‌می‌گردد، بدین‌صورت که رکوردی که به ازای یک وابستگی تابعی با بیش از  از رکوردها در تناقض باشد، مشکوک به خطا است. سپس به ازای هر ویژگی از منبع داده مورد بررسی، سیستم یادگیری مرکب ساخته‌می‌شود. سیستم یادگیری مرکب از سه طبقه‌بند بیز، درخت تصمیم و شبکه عصبی MLP تشکیل‌شده است و دارای استراتژی ترکیب رأی اکثریت است. سیستم یادگیری مرکب به‌وسیله رکوردهای صحیح شناسایی‌شده مورد آموزش قرارداده ‌می‌شود. پس از آموزش طبقه‌بندها، هر ویژگی غلط به‌عنوان کلاس هدف سیستم یادگیری‌مرکب قرارمی‌گیرد و مقداری برای آن پیش‌بینی‌می‌گردد. روش پیشنهادی قادراست چندین خطا در یک رکورد را شناسایی نماید. آزمایش‌ها نشان‌می‌دهد که true negative rate الگوریتم پیشنهادی در بخش تشخیص خطا به‌طور متوسط 93.7% و در بخش تصحیح خطا به‌طور متوسط 90.6% است. هم‌چنین آزمایش‌ها نشان‌می‌دهد که میزان پارامترهای ارزیابی در الگوریتم پیشنهادی در مقایسه با دو الگوریتم مشابه مبتنی بر وابستگی تابعی بهبود داشته است.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

شبکه عصبی فازی خودکار مبتنی بر جمعیت برای یادگیری آنلاین مبتنی بر دانش

در این مقاله، یک سیستم پیوندگرای فازی جدید برای یادگیری آنلاین تدریجی و کشف دانش، به نام شبکه عصبی فازی خودکار مبتنی بر جمعیت (pafunn) با جزئیات نشان داده است. pafunn از طریق یادگیری تدریجی تکامل پیدا می کند. اتصالات و نرون های جدید، بر اساس جمعیت نمونه ها ایجاد می شوند، در حالی که در سیستمی عمل می کنند که مزیت کنترل تعدادی از نرون های درگیر در آن را داشته و منجر به پیچیدگی کمتر شبکه می شوند. ا...

full text

بررسی اثربخشی آموزشی مؤلفه های یادگیری خودگردان مبتنی بر مدل پینتریج، بر خودکار آمدی

این پژوهش با هدف هنجاریابی و بررسی ساختار عاملی مقیاس یادگیری خود تنظیمی به عنوان صلاحیت میان بر نامه ای در بین دانش آموزان دختر و پسر سال اول دبیرستان های دولتی شهرستان مشهد به اجرا در آمد. نمونه ای با حجم ۸۴۰ نفر از دانش آموزان، به روش نمونه گیری خوشه ای چند مرحله ای انتخاب و پرسشنامه مذکور که شامل ۵۲ سؤال و ۱۴ عامل بود با طیف لیکرتی در مقیاس چهار درجه ای در مورد آنها اجرا گردید و نهایتاً ۸۳۳ ...

full text

تصحیح خودکار خطا در درخت بانک نحوی با استفاده از یادگیری ماشینی انتقال محور

The Treebank is one of the most useful resources for supervised or semi-supervised learning in many NLP tasks such as speech recognition, spoken language systems, parsing and machine translation. Treebank can be developded in different ways that could be, generally, categorized in manually and statistical approaches. While the resulted Treebank in each of these methods has the annotation error,...

full text

مقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure

کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...

full text

ترکیب خودکار سرویس‌ها مبتنی بر گراف رنگ‌آمیزی

سرویس‌های وب به‌عنوان مؤلفه‌های نرم‌افزاری مستقل توسط ارائه‌دهندگان سرویس بر روی اینترنت منتشر شده و توسط درخواست‌کنندگان سرویس برای رسیدن به اهداف مختلف فراخوانی می‌شوند. با این حال در بسیاری از موارد هیچ سرویسی به‌تنهایی در مخزن سرویس یافت نمی‌شود که بتواند رضایت درخواست‌کننده را برآورده سازد. ترکیب سرویس، مؤلفه‌های جدیدی را با استفاده از یک مدل تعاملی برای سرعت بخشیدن به برنامه‌ها ایجاد می‌ک...

full text

تصحیح خودکار خطا در درخت بانک نحوی با استفاده از یادگیری ماشینی انتقال محور

درخت بانک یکی از پرکاربردترین منابع در به کارگیری روش های یادگیری باسرپرستی و نیمه سرپرستی در سامانه های پردازش زبان های طبیعی مانند ابزارهای شناسایی گفتار، تحلیلگرهای نحوی و نرم افزارهای مترجم ماشینی است. روش های مختلفی جهت تولید درخت بانک وجود دارد که می توان آن ها را به دو طبقه ی اصلی، روش های تولید دستی و روش های تولید خودکار تقسیم کرد. در هر یک از این روش ها، درخت بانک حاصل دارای خطاهایی ه...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 48  issue 2

pages  797- 814

publication date 2018-08-23

By following a journal you will be notified via email when a new issue of this journal is published.

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023