ارائه یک الگوریتم مبتنی بر خوشه بندی برای تشخیص ناهنجاریهای اطلاعاتی با استفاده از داده کاوی روی grid

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر
نویسنده محمد خودی زاده نهاری
استاد راهنما محمدکاظم اکبری مهدی شجری
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1386

چکیده

ناهنجاریهای اطلاعاتی به آن دسته از اطلاعات گفته می شود که بنحو چشمگیری با بقیه اطلاعات متفاوت می باشند. هر مجموعه اطلاعات از یک هنجار خاصی برخوردار می باشد. بعضی اوقات نمونه هایی از اطلاعات از این هنجار تبعیت نمی کنند. یافتن این ناهنجاریها بسیار مهم بوده و کاربردهای زیادی دارد از جمله کشف تقلب در حوزه های مختلف (مانند کارتهای اعتباری)، کشف پولشویی، تحقیقات پزشکی، پیش بینی وضع هوا، پاکسازی اطلاعات، بازاریابی، تقسیم بندی مشتریان و مواردی دیگر. تشخیص ناهنجاریهای اطلاعاتی بخصوص در حوزه تجارت الکترونیکی، کمک شایان توجهی به فعالان در این عرصه می نماید تا بتوانند با اطمینان بیشتری از مزایای الکترونیکی شدن تجارت و کسب و کار بهره مند گردد. روشها و متدهای مختلفی برای تشخیص ناهنجاریهای اطلاعاتی وجود دارد. یکی از مهمترین روشها، داده کاوی می باشد که استخراج دانش از بین انبوه اطلاعات می باشد. داده کاوی شامل تکنیکهای مختلفی است که یکی از مهمترین آنها، خوشه بندی اطلاعات می باشد. خوشه بندی یک روش یادگیری بدون نظارت محسوب می شود که یک مجموعه داده را به بخش هایی (خوشه هایی) تقسیم می کند بطوریکه عناصر هر بخش بیشترین شباهت را با هم و کمترین شباهت را با اعضای دیگر بخش ها داشته باشند. ناهنجاریها در این حالت خوشه هایی هستند که چگالی کمتری داشته و در فاصله دورتری از بقیه قرار گرفته اند. هدف از این پایان نامه ارایه الگوریتمی بمنظور کشف ناهنجاریهای اطلاعاتی در محیط های توزیع شده است که بتواند در مواجهه با مجموعه داده های بزرگ و توزیع شده کارایی لازم را داشته باشد. برای این منظور الگوریتم k-window که گونه توزیع شده آن هم وجود دارد انتخاب شده و با تغییراتی که در آن داده شده است، کارایی بهتری از نظر سرعت و کیفیت در محیط های توزیع شده بدست آمده است. برای این منظور ساختار دو سطحی موجود در گونه توزیع شده k-window را به ساختار چند سطحی و سلسله مراتبی تبدیل کرده و صرفه جویی زیادی در زمان و فضای مورد نیاز حاصل شده است. تغییراتی دیگر نیز بدلیل توزیع شدگی اطلاعات در الگوریتم اعمال شده است که آن را برای اجرا در محیط های توزیع شده آماده تر میکند. ازطرف دیگر بدلیل آنکه grid یک محیط مناسب برای اجرای پردازش های سنگینِ توزیع شده می باشد الگوریتم، بمنظور اجرا در محیط grid تغییر داده شده است و علیرغم افزایش سربارِ سیستم، ضمن حفظ سرعت و دقت در مقایسه با الگوریتمِ توزیع شده تغییر یافته، افزایش مقیاس پذیری، انعطاف، در دسترس بودن و سایر مزایایی که از محیط grid به ارث می برد، بنحو بارزی نمایان می شود.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ارائه یک الگوریتم خوشه بندی برای داده های دسته ای با ترکیب معیارها

Clustering is one of the main techniques in data mining. Clustering is a process that classifies data set into groups. In clustering, the data in a cluster are the closest to each other and the data in two different clusters have the most difference. Clustering algorithms are divided into two categories according to the type of data: Clustering algorithms for numerical data and clustering algor...

متن کامل

بهبود الگوریتم خوشه بندی مشتریان برای توزیع قطعات یدکی با رویکرد داده کاوی (k-means)

Customer classification using k-means algorithm for optimizing the transportation plans is one of the most interesting subjects in the Customer Relationship Management context. In this paper, the real-world data and information for a spare-parts distribution company (ISACO) during the past 36 months has been investigated and these figures have been evaluated using k-means tool developed for spa...

متن کامل

یک روش ترکیبی خوشه بندی مبتنی بر الگوریتم ژنتیک با استفاده از عملگر های جدید تغییر

The clustering problem under the criterion of minimum sum of squares is a non-convex and non-linear program, which possesses many locally optimal values, resulting that its solution often being stuck at locally optimal values and therefore cannot converge to global optima solution. In this paper, we introduce several new variation operators for the proposed hybrid genetic algorithm for the cl...

متن کامل

بررسی میزان تأثیر داروهای درمان ناباروری در بیماران نابارور با استفاده از الگوریتم خوشه بندی و تکنیک های داده کاوی

Background and purpose: The rate of infertility has increased throughout the world. Data mining is a new method for analyzing information from databases. Few studies are done regarding infertility and using data mining in describing and predicting different treatment methods and factors influencing these methods. This paper proposes a model for evaluating the efficacy of different drugs in trea...

متن کامل

ارائه یک الگو ترکیبی داده کاوی با استفاده از قواعد انجمنی و خوشه بندی برای تعیین استراتژی تخفیف دهی، مطالعه موردی شرکت پخش پگاه

Sales promotion is important issue in most of sales and distribution companies and finding the most appropriate strategy for this subject is marketers’ challenge. Discounting (offering) is one of sales promotion strategies. Using the fixed and constant discounting strategy for all customers and on all goods reduces chance for success. Discounting strategy needs a model for providing best ...

متن کامل

ارائه یک الگوریتم خوشه بندی برای داده های دسته ای با ترکیب معیارها

خوشه بندی یکی از تکنیک های اصلی داده کاوی است. خوشه بندی فرایندی است که مجموعه داده ها را داخل گروه هایی طبقه بندی می کند. در خوشه بندی داده های موجود در یک خوشه بیشترین شباهت را به هم دارند و داده های موجود در دو خوشه متفاوت بیشترین تفاوت را با هم دارند. الگوریتم های خوشه بندی با توجه به نوع داده ها به دو دسته تقسیم می شوند: الگوریتم های خوشه بندی داده های عددی و الگوریتم های خوشه بندی داده ها...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر

کلمات کلیدی

شبکه اطلاعات information بی هنجاری anomaly تجارت الکترونیکی electronic commerce خوشه ای کردن الگو pattern clustering استخراج اطلاعات data mining الگوریتم موازی parallel algorithm ناهمگونی

میزبانی شده توسط پلتفرم ابری doprax.com