راهکار ترکیبی برای انتخاب ویژگی در داده های ابعاد بالا

پایان نامه
چکیده

با پیشرفت روزافزون تکنولوژی در زمینه داده کاوی در حوزه های علمی مختلف، مجموعه داده های با ابعاد بسیار بالا در حال افزایش است که منجر به کاهش کارایی الگوریتمهای دسته بندی می شود. لذا نیاز به کاهش حجم این مجموعه داده ها امری ضروری است. در مجموعه داده ها با ابعادبالا، تعداد زیادی ویژگی برای هرنمونه وجود دارد که بسیاری از آنها نامرتبط و زاید می باشند. در این پایان نامه برروی انتخاب ویژگی بر روی مجموعه داده های ابعادبالای دو حوزه مختلف علم، بیوانفورماتیک و متن، کارشده است. برای هریک از این حوزه ها راهکارهای انتخاب ویژگی متفاوتی توسط محققان ارایه شده است که این راهکارها وابسته به ماهیت ویژگی های حوزه مورد نظر می باشد. مثلا ویژگی های داده های میکروآرایه مقدار "بیان ژن ها" می باشند که عددی حقیقی می باشد در حالی که در متن، ویژگی ها واژه ها بوده که الگوریتمهای ارائه شده در این حوزه بر روی خصوصیت آماری آنها که ماهیتی گسسته دارد تمرکز دارد. راهکارهای ارائه شده برای انتخاب ویژگی به دو دسته کلی باناظر و بی ناظر تقسیم بندی می شوند. راهکارهای باناظر از برچسب کلاس ها در انتخاب ویژگی کمک می گیرند، در حالی که در حالت بی ناظر تنها از مقادیر ویژگی ها استفاده می شود. تحلیل واریانس از راهکارهای بی ناظر می باشد که از دیرباز مورد توجه محققان بوده است. در قسمت اول این پایان نامه، روش های انتخاب ویژگی بی ناظر و با ناظر با تکیه بر استخراج ویژگی، تحلیل واریانس و خوشه بندی پیشنهاد شده است. روش ارایه شده بر روی شش مجموعه داده بزرگ بیوانفورماتیک که ویژگی های آن ژن ها می باشند، اعمال شده است. آزمایشات و بررسی های مختلف انجام گرفته نشان می دهند که روش بی ناظر و باناظر پیشنهادی در مجموعه داده های مختلف کارایی قابل قبولی را کسب نموده است. در راهکار پیشنهادی دوم پایان نامه، روش انتخاب ویژگی مبتنی بر فیلتر با تکیه بر عامل های احتمالاتی تاثیرگذار در دسته بندی متن که در روش های انتخاب ویژگی احتمالاتی پرکاربرد به کار رفته، ارایه می شود. روش ارایه شده از جنبه های مختلف مورد تحلیل قرارگرفته و کارایی ویژگی های انتخابی آن در دسته بندی متن با روش های دیگر انتخاب ویژگی مبتنی بر فیلتر مقایسه شده است. آزمایشات متعدد، روش های فیلتر را از جنبه های مختلف همانند: میزان اشتراک ویژگی های برتر انتخاب شده، بررسی واریانس ویژگی ها، کارایی ویژگی های انتخاب شده بر اساس معیارهای مختلف، رفتار کارایی آنها با افزایش تعداد ویژگی ها و میزان دقت و بازیابی روش ها نسبت به یکدیگر، به طور عملی مورد مطالعه قرار می دهند. سه مجموعه داده استاندارد: reuter-r8، 20newsgroup و webkb دراین مطالعه استفاده شده است. آزمایشات مختلف نشان دهنده این است که روش پیشنهادی در هر سه مجموعه داده توانایی رقابت با روش های موفق انتخاب ویژگی مبتنی بر فیلتر را داراست به طوریکه در برخی موارد اختلاف قابل توجهی را ایجاد نموده است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

رهیافتی ترکیبی برای انتخاب ویژگی در ابعاد بالا به کمک الگوریتم های فرا-ابتکاری

انتخاب ویژگی نقش مهمی در دنیای یادگیری ماشین و به خصوص مسائل طبقه بندی داده، بازی می کند. این فرآیند، مسأله کاهش بعد داده از طریق شناسایی زیرمجموعه ویژگی هایی است که بیشترین ضرورت را در طبقه بندی داده دارند. امروزه داده ها هم از نظر تعداد نمونه ها و هم از نظر تعداد ویژگی ها رشد قابل توجهی داشته اند. مسائل انتخاب ویژگی در داده های با بعد بالا، بسیار پیچیده تر از مسائل معمولی طبقه بندی الگو است. ...

ارائه ی یک روش ترکیبی برای انتخاب زیرمجموعه ویژگی های داده های با ابعاد بالا با استفاده از الگوریتم رقابت استعماری فازی

مسأله انتخاب ویژگی، یکی از مهمترین مسائل حوزه طبقه بندی داده ها است. هدف از انتخاب ویژگی، یافتن زیرمجموعه ویژگیهای موثرِ مجموعه داده ی اولیه، به منظور افزایش دقت وکاهش هزینه طبقه بندی داده ها است. در سال های اخیر با پیدایش مجموعه داده های با ابعاد بالا و تعداد نمونه کم، نیاز مبرم به وجود روش های انتخاب ویژگی های موثر احساس می شود. روش های مختلفی که برای انتخاب زیرمجموعه ویژگی ها ارائه شده اند عل...

بهبود الگوریتم مورچگان در انتخاب ویژگی و کاهش ابعاد داده

انتخاب ویژگی یک مسأله مهم برای تحلیل داده در فرآیندهای بازیابی، سیستم های طبقه بندی الگو و کاربردهای داده کاوی است. این فرایند با حذف ویژگی های نویزی، نامرتبط و تکراری، تعداد ویژگی ها را کاهش می دهد. در این پایان نامه برای نخستین بار نسخه جدیدی از الگوریتم مورچگان باینری ارائه و از آن برای حل مسأله انتخاب ویژگی استفاده می شود. الگوریتم پیشنهادی که ترکیبی از دو الگوریتم مورچگان باینری و گسسته اس...

مدلسازی رواناب ماهانه با استفاده از روشهای داده کاوی براساس الگوریتم های انتخاب ویژگی

باتوجه به اهمیت مقدار جریان خروجی از حوضه آبریز جهت مدیریت آب­های سطحی، فهم دقیق ارتباط بین مقدار رواناب با پارامترهای اقلیمی همچون بارش و دما و شناسائی موثرترین پارامتر در فرآیند مدل­سازی بسیار مهم می‌باشد. در این تحقیق پس از آزمون همگنی داده‌های بارش، دما و رواناب ماهانه حوضه آبریز ناورود، ابتدا براساس دو الگوریتم رلیف و همبستگی دو ترکیب مختلف از پارامترهای موثر در رواناب مورد توجه قرار گرفت....

متن کامل

نکات اساسی در انتخاب داده های آزمایشگاهی برای ارزیابی معیارهای شکست سنگ

در این مقاله روش صحیح ارزیابی میزان کارآیی معیارهای شکست سنگ که معمولاً با استفاده از نتایج آزمایشهای مقاومت فشاری یک محوره و سه محوره انجام می پذیرد ارائه شده است. شرایط و ویژگیهایی که باید مورد توجه قرار گیرند جداگانه مورد بحث واقع شده و میزان اهمیت هر کدام با توجه به نتایج آزمایشهایی که نگارنده به این منظور انجام داده است نشان داده شده است. عوامل مؤثر و اساسی در انتخاب داده های مناسب عبارتند...

متن کامل

ارائه یک راهکار برای بهینه سازی مسائل با ابعاد بالا بر پایه الگوریتم جستجوی گرانشی

امروزه با پیشرفت فناوری و بزرگ شدن مسائل، نیاز به راه حل مناسبی که بتواند این مسائل را حل کند احساس می شود. در زمینه بهینه سازی با افزایش بعد فضای جستجو، این مسائل با پدیده ای به نام نفرین بعد روبرو می شوند. دلیل این امر این است که فضای جستجو به صورت نمایی با افزایش بعد زیاد می شود. در این حالت الگوریتم های ابتکاری به تنهایی قابلیت حل مسئله را ندارند. الگوریتم جستجوی گرانشی نیز از این امر مستثن...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده مهندسی

کلمات کلیدی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023