شناسایی داده های دورافتاده با استفاده از مدل فرایند دیریکله آمیخته

پایان نامه
چکیده

دورافتادهها نتیجهای از فرایندهای ناهمگون با فراوانی کم هستند که از الگوی عام مشاهدات پیروی نمیکنند و در اغلب مسائل کاربردی ظاهر میشوند. یکی از راههای شناسایی آنها مبتنی بر خوشهبندی دادههاست. تاکنون روشهایی مانند الگوریتم -kمیانگین برای این منظور پیشنهاد شده است. ضعف اساسی روشهایی از این دست فقدان معیارهای احتمالی و آماری برای کشف دورافتادههاست. برای این منظور میتوان روشهای مدل مبنا مانند مدل آمیخته متناهی را بکار برد. اما این روش با مشکلاتی مانند تعیین تعداد خوشهها روبروست. به علاوه با توجه به فراوانی کم دورافتادهها، بکارگیری اینگونه مدلها شاید چندان توجیهپذیر نباشد. برای رفع این مسئله، از مدل فرایند دیریکله آمیخته میتوان بهره برد. این فرایند پیشینی بر روی بخشبندی دادهها قرار میدهد و یکی از ویژگیهای اساسی آن، گروهبندی دادههای مشابه در یک خوشه است. همین ویژگی سبب بهرهبرداری از آن در مسائل خوشهبندی و شناسایی دورافتادهها شده است. لذا در این پایاننامه با اتخاذ رهیافت بیز ناپارامتری مبتنی بر فرایند دیریکله به تعیین دورافتادهها پرداخته میشود. در این راستا با استفاده از اصول نظریه تصمیم، بخشبندی منجر به ماکسیمم احتمال پسینی به عنوان بخشبندی بهینه تعیین، روشهای محاسباتی برای بدست آوردن آن بررسی و به دنبال آن دورافتادهها به ویژه هنگامی که دادهها ماهیتی تابعی دارند، مشخص میشوند. همچنین محکی برای اعتماد به بخشبندی برآورد شده بر اساس عامل بیزی معرفی خواهد شد. عملکرد مدلها و روشها در مثالهای شبیهسازی و کاربردی مورد بررسی و ارزیابی قرار میگیرد.

منابع مشابه

تحلیل استوار داده های فضایی در حضور داده های دورافتاده

معمولاً تابع تغییرنگار که ساختار همبستگی داده­های فضایی را تعیین می­کند و نقش پایه­ ای در تحلیل آن­ها دارد، نامعلوم است و لازم است براساس مشاهدات برآورد شود. وجود داده­ های دورافتاده در مشاهدات تاثیر نامناسبی در برآورد تغییرنگار و سایر بخش­های تحلیل داده­های فضایی همچون پیش­گویی فضایی و برآورد پارامترهای روند دارد. در این مقاله ابتدا با استفاده از برآوردگرهای مقیاس، چند برآوردگر استوار جدید با ن...

متن کامل

مدل سازی داده های آمیخته بقا و گسسته با استفاده از تابع مفصل

از جمله روش‌هایی که در سال‌های اخیر توجه بسیاری از محققان را برای مدل‌سازی داده‌های چندمتغیره آمیخته به خود جلب کرده است، استفاده از تابع مفصل می‌باشد. در این مقاله مدلی رگرسیونی برای پاسخ‌های آمیخته بقا و گسسته بر اساس تابع مفصل ارائه می‌شود که در آن متغیر پیوسته از نوع زمان بوده و امکان وقوع مشاهده سانسور شده در آن وجود دارد. برای انجام این کار فرض شد که توزیع‌های حاشیه‌ای مشخص هستند و متغیری...

متن کامل

مدل آمیخته خطی تعمیم یافته با اثرات تصادفی از فرایند دیریکله

امروزه مدلهای آمیخته خطی تعمیمیافته بهطور گسترده برای تحلیل دادهها در علوم مختلف مورد استفاده قرار میگیرند. در اینگونه مدلها، اغلب با اتخاذ روش پارامتری، فرض میشود اثرات تصادفی از توزیع نرمال پیروی میکنند. اگرچه این فرض منجر به سادگی محاسبات میشود، اما ممکن است برقرار نباشد و در این صورت برآورد نامناسب پارامترهای مدل را بهدنبال داشته باشد. برای رفع این محدودیت، در این پایان نامه با اتخاذ یک رهی...

15 صفحه اول

شناسایی نقاط دورافتاده در داده های نرمال بر اساس مقادیر Z اصلاح شده مشاهدات

در این مقاله، به دلیل اهمیت و گستردگی استفاده از توزیع نرمال، نمونه های مبتنی بر این توزیع در نظر گرفته شده، با استفاده از مقادیر برش وابسته به حجم نمونه، نقاط دورافتاده آنها شناسایی می شوند. برای به دست آوردن مقادیر برش بهینه یک مسا له تصمیم مطرح و به روشی کمبیشینه (مینیماکس) حل می گردد. در حل این مسا له از روش شبیه سازی بهره گرفته شده است .

متن کامل

تشخیص داده‌های دورافتاده دایره‌ای با استفاده از یک مدل آمیزاه ای از توزیع‌های فون‌میزس

داده‌های دایره‌ای نوعی از داده‌های جهتی با دوره تناوبی مشخص هستند. به دلیل اینکه وجود داده‌های دور افتاده استنباط‌های آماری راجع به پارامترهای مدل‌های رگرسیون دایره‌ای را نامعتبر خواهد کرد، بررسی وجود آنها در تحلیل این مدل‌ها نیازمند توجه ویژه‌ای است. روش‌های متنوعی برای مدل‌بندی ساختار مجموعه داده‌ها شامل مشاهدات دور افتاده وجود دارد که به کارگیری مدل آمیزه‌ای یکی از مهمترین آنهاست. در این مقا...

متن کامل

مدل داده بنیاد از فرایند مدیریت استعداد

هم‌زمان با تغییر رویکرد اقتصاد از سنتی به دانش‌بنیان شاهد تغییر پارادایم از مدیریت منابع انسانی سنتی به سیستم نوینی از مدیریت منابع انسانی با عنوان مدیریت استعدادها هستیم. هدف از این پژوهش طراحی الگو(مدل) مدیریت استعداد در شرکت‌های دولتی ایران است که شرکت مادر تخصصی توانیر به‌عنوان موردمطالعه انتخاب شده است. روش تحقیق کیفی و به‌صورت مشخص روش نظریه‌پردازی داده‌بنیاد(رویکرد ظاهر شونده) می‌باشد. ج...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده علوم ریاضی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023