نام پژوهشگر: مهرداد جلالی
الهه سخاوتی احمد فراهی
بدون شک، هدف نهایی وب معنایی ایجاد "وبی از داده های ساختارمند مرتبط" است. به عبارت دیگر، در وب معنایی تلاش اصلی بر این است که به مردم کمک شود به همان سادگی که اسناد را به اشتراک می گذارند، داده های ساختارمند را نیز به اشتراک بگذارند. دسترسی و مبادله اطلاعات کتابها بین گروه های مختلف کاربران وب از جمله دانشجویان، اساتید و محققین از اهمیت بالایی برخوردار است. با این وجود، ارائه این اطلاعات از طریق پرتالها و وب سایتهای مختلف بصورت صفحات وب پاسخگوی نیازهای کاربران نمی باشد. زیرا اولاً به دلیل یکسان نبودن ساختار اطلاعات و همچنین زبان ارائه اطلاعات، تبادل و به اشتراک گذاری این اطلاعات کار پیچیده ای است. ثانیا، بکارگیری آن توسط ماشین ممکن نیست. یکی از اهداف اصلی این تحقیق، به نوعی همان هدف اصلی داده های پیوندی است. به عبارت دیگر، در این تحقیق تلاش می شود با انتشار اطلاعات موجود در صفحه وب به صورت داده های پیوندی یک مکانیزم دسترسی استاندارد واحد فراهم شود. به عبارت دیگر، هدف کلی این تحقیق ارائه چارچوبی کارا، جهت انتشار اطلاعات کتابها (از قبیل: عنوان، نویسنده، ناشر،... ) بر پایه اصول داده های پیوندی است، به نحوی که به راحتی بتوان به پرس و جوهای معنایی و سناریوهای مختلف پاسخ داد. این چارچوب داده های اولیه را به صورت رابطه ای دریافت می کند و پس از انجام عملیات پاکسازی بر روی داده ها و افزایش کیفیت داده ها جهت انتشار، آنها را به فرمت rdf تبدیل کرده، در مخزن سه گانه های rdf ذخیره می نماید. در مرحله بعد، سه گانه های ایجاد شده را با منابع خارجی لینک می نماید. وجود نمایشهای مختلف داده های منتشر شده به صورت داده های پیوندی کمک شایانی به کاربرانی می باشد که آشنایی چندانی با مسائل تخصصی رایانه ندارند. از این رو، چارچوب طراحی شده علاوه بر انتشار داده ها به صورت rdf، فرمت html داده ها را نیز برای کاربران فراهم می کند و بر روی سرور قرار می دهد، بطوریکه با درخواست کاربر از مرورگر، از روی سرور بازیابی شده و در مرورگر کاربر بارگذاری می شود. یکی از مسائل اساسی در انتشار داده ها به صورت داده های پیوندی، مسئله تطابق موجودیتها و شناسایی موجودیتهای مشابه است. با وجود اینکه تا کنون راهکارهایی برای این مسئله مطرح شده است، اما هنوز هم یک راه حل کامل و جامع ارائه نشده است. در زمان طراحی چارچوب، الگوریتمهای تطابق رشته مختلف و در نهایت تطابق موجودیتها به کار گرفته شد و مناسبترین آنها جهت استفاده در چارچوب انتخاب شد. انتخاب یک الگوریتم تطبیق رشته مناسب تاثیر به سزایی بر روی نتایج حاصل از عملکرد چارچوب دارد. ارزیابی چارچوب پیشنهادی به صورت تجربی و با استفاده از یک مجموعه داده نمونه، انجام گرفته است و معیارهای مقبولیت نتایج قابل قبولی را ارائه می دهند. همچنین، نشان داده شد که انتشار اطلاعات آماری، ساختاری و ... توسط فایل void می تواند معیار مناسبی جهت تحلیل داده های منتشر شده توسط چارچوب موردنظر باشد.
افسانه حاجی زاده مهرداد جلالی
پایه ریزی و ایجاد یک سیستم برای کنترل ریسک مشتریان، جزئی ضروری از مدیریت علمی یک بانک به شمار می رود. نظر به اهمیت ریسک اعتباری در سیستم بانکی، مدل های امتیازدهی اعتباری به عنوان ابزارهایی جهت کنترل این ریسک، توسعه یافته اند. در این پژوهش از ابزارهای داده کاوی و روش های تصمیم گیری چند معیاره ahp و topsis برای رتبه بندی اعتباری مشتریان یک بانک استفاده شده است. هدف آنست که در نهایت مدل تصمیم گیری ارائه شده به شناسایی مشتریان قبل از اعطای وام کمک نماید. روش کار بدین شکل می باشد که طبق یک فرآیند استاندارد داده کاوی (crisp-dm)، داده های مشتریان سابق بانک جمع آوری، متغیرهای تأثیرگذار در رفتار اعتباری مشتریان شناسایی و فرآیند پالایش بر روی داده ها صورت گرفته است. سپس بر اساس چند شاخص (از قبیل روزهای تأخیر، تعداد تأخیر و مبلغ تأخیر در بازپرداخت اقساط وام)، طبق نظر کارشناسان بانک مورد مطالعه و با استفاده از روش های تصمیم گیری چند معیاره ahp و topsis، طبقات اعتباری مشتریان (خوب، متوسط و بد) تعیین گردند. به عبارتی برای هر مشتری یک برچسب اختصاص می یابد. پس از پیش پردازش داده ها و تغییرات در رکوردها (مشتریان) و فیلدها (خصیصه های مشتریان)، با استفاده از روش cart، داده های نهایی مدل سازی گردیدند و الگوهای پنهان در داده ها به شکل درخت قوانین استخراج شدند. همچنین داده های نهایی با چندین الگوریتم داده کاوی نظیر درخت های تصمیم سنتی، شبکه های عصبی، رگرسیون لجستیک، شبکه های بیزین، ماشین بردار پشتیبان و ... نیز مدل سازی شدند. نتیجه حاصله نشان داد که الگوریتم cart نتایج بهتری را به لحاظ دقت تفکیک مشتریان نسبت به سایرین دارد.
مهرداد جلالی سید رحیم موسوی نیا
پسااستعمار، به عنوان یک رویکرد ادبی، پس از سقوط استعمار دراواسط قرن بیستم ظهور کرد و در دهه های هفتاد و هشتاد میلادی به اوج شکوفایی خود رسید. نویسندگان متعددی از نقاط مختلف جهان به تولید ادبیات با مضامینی ضداستعماری پرداختند و این در حالی است که تعداد زیادی از این نویسندگان زبان استعمارگران را برای خلق آثارخویش برگزیدند. چینوآ آچبه با اصالتی نیجریه ای یکی از همین نویسندگان است. او بر ضد استعمارانگلیس دست به قلم برد مادامی که زبان آثارش را همان زبان استعمار و شیوه ی سرایش را شیوه ای غربی برگزید. این نویسنده اما به عنوان چهره ای از ادبیات آفریقا و نیجریه در دنیای ادبیات معرفی می شود و مطا لعه حاضر چنین نظری را به چالش می کشد و آچبه را علی رقم اصلیت نیجریه ای او یک نویسنده ی انگلیسی با شیوه ای غربی بر می شمارد. آچبه آفریقا را برای محیط داستان خود استفاده می کند. برای پرداختن به چنین ادعایی، این مطالعه به برسی زبان و تحلیل گفتمان یکی از آثاراین نویسنده با عنوان «همه چیز فرو می پاشد» پرداخته است. در این تحقیق، چارچوب استفاده شده از کتاب «زبان و قدرت» اثر نورمن فیرکلاف می باشد. تحلیل اثر در این چارچوب در پاسخ به ده سوال صورت گرفته که عمدتآ به بررسی ویژگی های ایدئولوژیک موجود در متن می پردازند. همچنین پژوهش حاضرمشتمل بر سه بخش که به ترتیب بررسی واژگان متن، بررسی دستورزبان متن و بررسی ساختار متن می باشند. این مطالعه پس از تحلیل متن در قالب تعیین شده نتیجه می گیرد که آچبه بیش از آن که نویسنده ای ضد استعماری باشد نویسنده ای استعماری است.
علی اصغر بوری آبادی مهرداد جلالی
فرآیند نظارت و تحلیل وقایع روی یک سیستم کامپیوتری یا شبکه به منظور شناسایی حملات و کشف اشکالات امنیتی آن را تشخیص نفوذ گویند. چالش اساسی در سیستم های تشخیص نفوذ ، حجم عظیم داده هاست.همچنین بعضی از این داده ها تاثیری در تشخیص نفوذ ندارند.از طرفی با توجه به ترافیک بالا کاهش نرخ هشدار غلط در سیستم تشخیص نفوذ نیز از اهمیت خاصی برخوردار است. امروزه بیشتر رویکردها در تشخیص نفوذ مربوط به مساله انتخاب صفات و استخراج صفات مهم متمرکز شده است.اما انتخاب صفات یا استخراج صفت باعث از دست دادن قسمتی از داده ها خواهد شد.در مدل پیشنهادی اولا سعی میشود صفاتی را به عنوان صفات اساسی انتخاب کنیم که صحت تشخیص نفوذ را بالا ببرد و ثانیا تاثیر صفاتی که انتخاب نشده اند نیز در سیستم تشخیص نفوذ لحاظ نماییم.برای این منظور با محاسبه بهره اطلاعاتی صفات و استفاده از الگوریتم پیشنهادی صفات اساسی در تشخیص نفوذ را از بین 41 صفت نمونه های موجود در مجموعه داده انتخاب می کنیم.و با بهره گیری از روش تحلیل مولفه اصلی در ترکیب صفات و کاهش ابعاد ، صفات انتخاب نشده نیز با هم ادغام و اجتماع آن با صفات انتخابی بعنوان ورودی سیستم تشخیص نفوذ در نظر گرفته می شود. نتایج حاصل از آزمایشات نشان می دهد که روش ارائه شده اولا سبب بهبود تشخیص نفوذ می گردد و ثانیا نرخ هشدار غلط در سیستم را به نحو چشمگیری کاهش می دهد.
احسان مولایی فرسنگی مهرداد جلالی
داده کاوی علمی است که به منظور استخراج دانش جدید و مفید ازمیان دادههای حجیم معرفی شد. از این رو همواره ورودی الگوریتم های داده کاوی دادههای خام می باشند، اما در همه موارد دادهها در یک مکان ذخیره نشدهاند و در موارد زیادی دادهها در بین سرویس دهندههای مختلف پخش شدهاند، این امر نیاز به همکاری چند سرویس دهنده برای انجام کاوش را ضروری می کند که نتیجه آن داده کاوی توزیع شده است. در هر کاری که صحبت از همکاری است بحث اعتماد و اطمینان نیز مطرح خواهد بود، در اینجا نیز بحث اطمینان از حفظ دادههای خصوصی افراد حقیقی و یا حقوقی از دسترس دیگران بسیار مهم است به نحوی که بحث محرمانگی و حفظ آن به عنوان مهمترین نیاز الگوریتمهای کاوش توزیع شده مطرح است. در این پژوهش هدف ارائه روش هایی برای حفاظت از داده های مورد کاوش برای کلاس بندی، در برابر دسترسی های غیر مجاز در داده کاوی توزیع شده است. برای دسترسی به هدف مورد نظر رویکرد های مختلف در این زمینه مورد مطالعه قرار گرفتند که در نهایت تمرکز ما بر روی رویکرد توزیع محاسبات و نیز رویکردهای نسل بعد یعنی روش های توزیع شده برای داده کاوی توزیع شده معطوف گشت. در ابتدا دو روش بر پایه رویکرد توزیع محاسبات ارائه دادیم که اگر چه این روش ها مشکلات روش های قبلی را رفع کرده اند اما تبدیل کاربری الگوریتم های متمرکز و استفاده به عنوان الگوریتم توزیع شده همراه با محدودیت ها و افزایش هزینه ها خواهد بود. بنابراین در ادامه الگوریتمی پایه توزیع شده و جدید که با توجه به ماهیت توزیع شده اش مشکل حفظ محرمانگی در آن به کلی حل شده است ارائه شد. این الگوریتم که k مشابه ترین نمونه ها نام گذاری شد بعد از پیاده سازی با الگوریتم معروف k نزدیک ترین همسایه ها مقایسه شده است که برای مثال از نظر صحت، نتایجی نزدیک به یک دیگر داشته اند و از نظر هزینه محاسباتی نیز، الگوریتم پیشنهادی در اجراهای توزیع شده عملکرد بسیار بهینه تری دارد.
محمد مبرا مهرداد جلالی
داده کاوی یکی از پرکاربردترین روش ها در استخراج دانش از پایگاه داده هاست. داده کاوی با هدف بدست آوردن اطلاعات مفید از مجموعه دادههای بزرگ استفاده می شود، با وجود مزایای گسترده تکنیک های مختلف داده کاوی، این روش ها با بعضی از مسائل اخلاقی همچون حریم خصوصی، امنیت داده مواجه هستند. مقررات و نگرانی های حریم خصوصی، ممکن است باعث اجتناب صاحبان داده از به اشتراک گذاری دادهایشان برای اهداف مختلفی همچون تحلیل داده شود. برای حل این مشکل، صاحبان داده بایستی به دنبال راه حلی باشند تا نیازمندی های حریم خصوصی آنها را برآورده کند و در ضمن نتایج داده کاوی معتبری را نیز فراهم کنند. برای دستیابی به این هدف حریم خصوصی باید در کل بخش های داده کاوی اعمال شود و با توجه به اهمیت خوشه بندی در داده کاوی در این پایان نامه، یک روش جدید برای حفظ حریم خصوصی خوشه بندی در داده کاوی ارائه شده است، این روش بر اساس توابع نقطه تکین می باشد و برای حفاظت از مقادیر عددی استفاده می شود. نتایج آزمایشات نشان می دهد که روش پیشنهادی دارای صحت بهتری نسبت به روش های قبلی می باشد و صاحبان داده می توانند بدون هیج نگرانی داده های خود را در اختیار کاوشگر قرار دهند تا خوشه های صحیح و موثری را از آنها استخراج کند.
نگین میثاقیان مهرداد جلالی
اخیراً سیستم های برچسب زنی اجتماعی به صورت روزافزون در حال افزایش و متداول شدن می باشد. این سیستم ها به کاربران اجازه می دهند منابع مورد نیاز خود را به صورت آزادانه سازمان دهی، مدیریت و جست وجو نمایند. اکثر واحدهای (modules) موجود در سیستم های پیشنهاددهنده، اطلاعاتی همانند زمان را که بر روی علایق کاربران بر روی یک منبع مورد نظر، می تواند تأثیرگذار باشد را درنظر نمی گیرند. بنابراین یکی از چالش های موجود در سیستم های پیشنهاددهنده منبع، ترکیب برچسب های انتسابی به منابع با زمان انتساب برچسب توسط کاربران جهت کشف صحیح علایق کاربر با توجه به گذر زمان و افزایش صحت پیشنهاد ات می باشد. یکی از ابزارهایی که در جهت کشف روابط همزمان موجود در بین موجودیت ها می تواند به طور موثر عمل کند، تنسور (tensor) است. تنسور ماتریسی چندبعدی است که با اعمال تجزیه بر روی آن امکان کشف روابط پنهان وجود دارد. در این پایان نامه، داده های دریافت شده از سیستم های برچسب زنی اجتماعی، توسط تنسور 4 بعدی جهت نمایش ارتباطات و وابستگی میان کاربران، برچسب ها، منابع و زمان انتساب برچسب ها مدل شده است و سپس با کمک تجزیه و تحلیل چند حالتی، روابط پنهان میان علایق کاربران با تأثیرپذیری از زمان انتساب برچسب کشف شده است. از این رو تأثیر گذر زمان در ارائه پیشنهاد منبع به کاربر سبب افزایش صحت خروجی پیشنهاد ات می شود. از مزایای روش پیشنهادی می توان درنظر گرفتن تأثیر همزمان ارتباط میان عناصر، کشف ویژگی های پنهان و افزایش صحت پیشنهاد ات در خروجی سیستم را نام برد. ارزیابی روش پیشنهادی بر روی دو پایگاه داده ی دنیای واقعی last.fm و citeulike، با در نظر گرفتن معیارهای دقت، فراخوانی، معیار-اف، نرخ برخورد و نرخ رتبه انجام شده است. نتایج آزمایش ها نشان دهنده ی بهبود سیستم پیشنهادی در مقایسه با روش های مبتنی بر روابط دوگانه ی زمان محور و روابط سه گانه ی بدون پارامتر زمان است.
سید احمد موسوی مهرداد جلالی
امروزه شبکه های اجتماعی اینترنتی به یک منبع غنی از داده های ناهمگون مبدل شده است. تجزیه و تحلیل این داده ها می تواند در تفسیر رفتار اجتماعی افراد درون شبکه و کشف اطلاعات ناشناخته بین کاربران مورد استفاده قرار گیرد. ”کشف جامعه“ به عنوان یکی از چالش های مهم در زمینه تجزیه و تحلیل شبکه های اجتماعی، به طور گسترده ای مورد مطالعه قرار گرفته است. بعضاً محققان، مشکل تشخیص جامعه را همان مشکل تشخیص خوشه بندی و تلاش برای تعیین مناطق متراکم می دانند که با استفاده از تجزیه و تحلیل مبتنی بر پیوند انجام می شود. شبکه های اجتماعی اینترنتی، علاوه بر ساختار گرافی، حاوی اطلاعات مفیدی از کاربران درون شبکه می باشند، که استفاده از این اطلاعات می تواند منجر به بهبود کیفت کشف جوامع گردد؛ برخی از این نمونه شبکه ها عبارتند از فیس بوک، مای اسپیس، فلیکر، یوتیوب و دلیشز. این شبکه ها به دلیل اینکه محدودیت های جغرافیایی برای ارتباطات بین کاربران را از بین برده اند، به سرعت محبوب شده و رشد نموده اند. در این پژوهش یک روش به منظور کشف جامعه ارائه می شود که علاوه بر اطلاعات ارتباطی بین گره ها از اطلاعات محتوایی به منظور ارتقا کیفیت کشف جوامع استفاده می گردد. این روش یک رویکرد جدید مبتنی بر الگوی تکرار شونده و بر اساس عملیات کاربران در شبکه است و به طور خاص، روی شبکه های اجتماعی اینترنتی که در آن کاربران عملیات مورد علاقه خود را انتخاب می کنند، اجرا می شود. در روش پیشنهادی ابتدا کاربرانی که عملیات مشابه در شبکه دارند، به عنوان یک گروه کوچک همگن استخراج می شوند؛ سپس با فرض اینکه هر گره در شبکه به گروهی می پیوندد که حداکثر تعداد همسایگانش به آن گروه متعلق باشد، گروه ها گسترش پیدا کرده و جوامع را تشکیل می دهند. نتایج ارزیابی ها روی دو مجموعه داده در دنیای واقعی نشان می دهد که روش پیشنهادی منجر به بهبود کیفیت جوامع خواهد شد.
مهدی مقیمی مهرداد جلالی
مساله وبکاوی در حوزه های زیادی مورد کاربرد می باشد. سه شاخه اصلی این حوزه یعنی ساختارکاوی وب ، کاربردکاوی وب و محتواکاوی وب می باشند. ساختار کاوی وب به استخراج ساختار سایت و کار بر روی آن می پردازد. کاربردکاوی وب که حوزه ای می باشد که ما بر روی آن کار کرده ایم به صورت تخصصی بر روی فایل رخداد سرویس دهنده متمرکز می شود. محتوا کاوی وب نیز بر روی محتوای صفحات و پردازش آن تمرکز می کند. مسائلی که پیش بینی در آنها مطرح می شود، دو گروه می باشند •مسائلی که پیش بینی با هدف طبقه بندی ورودی ها و تعیین اینکه هر ورودی متعلق به چه طبقه ای است انجام می شود. خروجی در اینجا یک متغیر اسمی است. •مسائلی که با تخمین یا رگرسیون پیشگویی یک متغیر پیوسته مثل تعیین قیمت روز بعد سهام، انجام می پذیرد. در اینجا خروجی متغیر عددی می باشد. غالباً شاخص هایی برای ارزیابی صحت پیش بینی استفاده می شوند. معیارهای خطای پیش بینی هر چه کمتر باشند نمایانگر پیش بینی دقیق تر هستند. ما در کاربرد خود به پیش بینی صفحه بعدی کاربر پرداخته و این کار را به کمک یک روش احتمالی قدرتمند یعنی روش مارکوف و یک چارچوب به منظور افزایش قدرت روش های دیگر پیش بینی و همچنین افزودن روش هایی مانند رگرسیون و یا svm انجام می دهیم. هدف اصلی از موضوع وبکاوی، پیش بینی رفتار بعدی کاربری که به سیستم وارد شده برای پیشنهاد دادن بهترین گزینه دلخواه وی به وی می باشد. کاربرد کاوی وب زیر مجموعه ای از این حوزه می باشد که به کمک فایل لاگ سرویس دهنده سیستم و رفتار قبلی که از این فایل استخراج می شود به پیش بینی صفحه بعدی کاربران می پردازد. یکی از ویژگی های کار با این فایل ها، توانایی استخراج جریان کلیک کاربران می باشد که این گزینه ما را در بسیاری از عملیات وب کاوی یاری می کند. یک وظیفه مهم در هر عملیات داده کاوی پیش پردازش یا آماده سازی داده است. این فرایند برای انجام الگوریتم های داده کاوی و آماری لازم است و در کاربرد کاوی وب اهمیت زیادی دارد. پیش پردازش داده ها اغلب وقت گیر بوده و محاسبات فراوانی نیاز دارد. این محاسبات شامل الگوریتم ها و استدلال های خاصی است که در حوزه های دیگر بکار برده نمی شوند. عناصر اصلی پیش پردازش داده های کاربردی وب را می توان بطور اجمالی به این صورت بیان نمود: ادغام یا ترکیب، پاکسازی داده ، شناسایی کاربر و شناسایی جلسه . به وسیله انجام تکنیک هایی به نام پیش پردازش، از فایل سرویس دهنده، فایلی جدید بدست می آید که هر سطر آن را یک نشست یا تراکنش می نامیم و حاوی صفحاتی می باشد که کاربر بخصوصی از سایت ما بازدید کرده است. چالش هایی در حوزه وبکاوی مطرح می شود از جمله وجود پیچیدگی های زمانی و فضایی زیادی که این روش ها متحمل می شوند. همچنین صحت پایین پیش بینی صفحه بعدی کاربر نیز از دیگر چالش ها می باشد. ما در این پژوهش ضمن بررسی کامل روش های پیش پردازش فایل های لاگ سرویس دهنده و ترکیب دو روش به منظور پردازش این فایلها، یک چارچوب ترکیبی4 مناسب ارائه می کنیم که علاوه بر افزایش صحت پیش بینی، کاهش زمان پیش بینی را موجب می گردد. ما از (awad, m. a., khalil, i, 2012) برای ارائه این چارچوب الهام گرفته ایم. همچنین هدف دیگر ما بهبود صحت مقاله شماره (khalil, 2009 , poornalatha, 2012)می باشد. خوشه بندی یکی از شاخه های یادگیری بدون نظارت می باشد و فرآیند خودکاری است که در طی آن، نمونه ها به دسته هایی که اعضای آن مشابه یکدیگر می با¬شند تقسیم می شوند که به این دسته ها خوشه گفته می¬شود. بنابراین خوشه مجموعه ای از اشیاء می باشد که در آن اشیاء با یکدیگر مشابه بوده و با اشیاء موجود در خوشه های دیگر غیر مشابه می باشند. برای مشابه بودن می توان معیارهای مختلفی را در نظر گرفت مثلا می توان معیار فاصله را برای خوشه بندی مورد استفاده قرار داد و اشیائی را که به یکدیگر نزدیکتر هستند را بعنوان یک خوشه در نظر گرفت که به این نوع خوشه بندی، خوشه بندی مبتنی بر فاصله نیز گفته می شود. خوشه¬ بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه¬ ها یا خوشه ¬های همگن گفته می¬شود. وجه تمایز خوشه¬بندی از دسته¬بندی این است که خوشه¬بندی به دسته¬های از پیش تعیین شده تکیه ندارد. در دسته¬بندی بر اساس یک مدل هر کدام از داده¬ها به دسته¬ای از پیش تعیین شده اختصاص می¬یابد؛ این دسته¬ها یا از ابتدا در طبیعت وجود داشته-اند(مثل جنسیت، رنگ پوست و مثال¬هایی از این قبیل) یا از طریق یافته¬های پژوهش¬های پیشین تعیین گردیده¬اند . در خوشه¬بندی هیچ دست? از پیش تعیین شده¬ای وجود ندارد و داده¬ها صرفاً براساس تشابه گروه¬بندی می¬شوند و عناوین هر گروه نیز توسط کاربر تعیین می¬گردد. به طور مثال خوشه¬های علائم بیماری¬ها ممکن است بیماری¬های مختلفی را نشان دهند و خوشه¬های ویژگی¬های مشتریان ممکن است حاکی از بخش¬های مختلف بازار باشد خوشه¬بندی معمولاً به عنوان پیش درآمدی برای بکارگیری سایر تحلیل¬های داده¬کاوی یا مدل¬سازی به کار می¬رود. به عنوان مثال، خوشه¬بندی ممکن است اولین گام در تلاش برای تقسیم¬بندی بازار باشد؛ برای ایجاد یک قانون که در هم? موارد کاربرد داشته باشد و به این سوال پاسخ دهد که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ می¬دهند اول باید مشتریان را به خوشه¬ های متشکل از افرادی با عادات مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل می¬ کند در این پژوهش بر روی مجموعه داده های استاندارد کار شده که بسیار حجیم می باشند. مقاله (khalil, f. and etc, 2009)از روش خوشه بندی اصلاح شده کامیانه(zhu, 2010) برای خوشه بندی تراکنش های کاربران در فاز برون خط استفاده کرده است. آنها همچنین در فاز برخط کار خود، از یک روش ابداعی برای سوق دادن کاربران جدیدی که به سیستم وارد می شوند به بهترین خوشه استفاده می کنند و از این روش برای پیش بینی صفحه بعدی کاربر بجای استفاده از مدل های معمولی مانند مدل مارکوف استفاده می کنند. یکی از مشکلات این مقاله ، کار بر روی تنها یک مجموعه داده می باشد که صحت و دقت کار را به صورت کامل به خواننده منتقل نمی کند. ما در این مسیر از سه مجموعه داده استفاده خواهیم کرد زیرا این کار شفافیت بیشتری به پژوهش ما می دهد. همچنین نشان می دهیم که نتایج کار ما از این مقاله بهتر است. مقاله شماره (poornalatha, g. and etc, 2012) نیز از مدل مارکوف مرتبه دو استفاده نموده و به کمک یک روش ابداعی؛ این مدل را با مدل arm ترکیب می نماید و از خوشه بندی برای افزایش صحت پیش بینی استفاده می کند. یکی از معایب این مقاله ، کار بر روی مجموعه داده های با حجم کم می باشد . عیب دیگر آن پیچیدگی محاسباتی بالای مدل arm نسبت به مدل مارکوف می باشد. از طرفی، از مدل arm در مواقعی استفاده می شود که سیستم دو صفحه با احتمال یکسان را به عنوان پیشنهاد بر می گرداند. ما متوجه شدیم این مورد یک حالت خاص می باشد و در صحت کار کمتر از دو درصد تاثیر دارد. ما در این پژوهش، با پیاده سازی و بررسی این مدل متوجه شدیم که کار ما صحت بسیار بالاتری از این مدل نمایش می دهد. چارچوب مورد نظر ما طوری طراحی شده است که می توان آن را گسترش داد و در فاز پیش بینی، روش پیش بینی دیگری را جایگزین روش موجود نموده و یا به روش موجود روشی جدید افزود. همچنین نشان می دهیم که کار ما نسبت به مدل مارکوف با تمام مراتب5 صحت پیش بینی را به میزان قابل قبولی افزایش داده است. تقلیل ابعاد یا فروکاهی ابعاد به فرایند کاستن و کم کردن از تعداد ابعاد و متغیرهای مورد نیاز برای نمایش و بررسی مسائل مطروحه در ریاضیات، آمار، فیزیک، مهندسی، و بسیاری از شاخه های علوم محاسباتی و پیچیده? نوین اطلاق می شود. در ادبیات تحلیل های چند متغیری اساسا به روش هایی که برای کاهش ابعاد استفاده می شود، روش های محوری یا روش های هندسی گفته می شود. کاهش ابعاد به دو دسته انتخاب ویژگی و استخراج ویژگی تقسیم می شود. در انتخاب ویژگی که در فضای اندازه گیری انجام می شود هدف پیدا کردن ویژگی های مطلوب از بین کل ویژگی های موجود است در حالی در استخراج ویژگی هدف انتقال ویژگی های انتخاب شده از فضای با ابعاد بیشتر به فضای با ابعاد کمتر و تعداد متغیرهای کمتر می باشد. در روش انتخاب ویژگی به دنبال زیرمجموعه ای از متغیرهای اصلی مساله (که ویژگی یا خصوصیت نیز نامیده می شوند) هستیم که بتواند به درستی نمونه های مساله را از هم تفکیک کند. استخراج ویژگی فرایندی است که در آن داده ها در فضای با بعد بالا به فضای با بعد کمتر نگاشت می شوند. این نگاشت می تواند خطی مانند روش تحلیل مولفه های اصلی یا غیر خطی باشد. آنچه مشخص است استفاده از روش های کاهش ابعاد غیر خطی در کاربرد ما مناسب نمی باشد. ما در این پژوهش یک روش عمومی خطی به منظور کاهش ابعاد نشست های کاربران ارائه خواهیم کرد که در روش های خوشه بندی مبتنی بر فاصله و شباهت سنجی، نتایج مناسب و حتی بهتر از زمانی است که از روش های سنتی بدون کاهش ابعاد مجموعه داده و یا استفاده از روش های کاهش ابعاد رایج استفاده میشود. کاهش ابعاد مجموعه داده های کاربران وب زمان زیادی نیست وارد دنیای داده کاوی شده است. مرجع(pallis, g.,2002) اذعان می کند که اعمال الگوریتم هایی مانند pca به مجموعه داده ها به صورت مستقیم نتایج مناسبی را در بر ندارد، ما در این پژوهش خلاف این حرف را در حوزه کاهش ابعاد جریان کلیک کاربران نشان می دهیم. همچنین نشان می کنیم که مشکل اصلی کار با این روش ها، پیچیدگی آنها نسبت به کار ما می باشد. هر چند که روش ما سرعت و دقت بالاتری به ارمغان می آورد. روش های زیادی به منظور افزایش سرعت و کاهش زمان انجام عملیات خوشه بندی طراحی و پیاده سازی شده است. در این مقالات روش های مختلفی ارائه شده است که عموماً برای زمانی مناسب می باشند که مجموعه دادگان تُنُک باشند. اگر مجموعه دادگان چگال باشد، این روش ها با مشکل مواجه می شوند.(m. belkin and p. niyogi,2002) ما در این پژوهش علاوه بر روش pca (d.l. donoho and ,2005) روش های مختلف کاهش ابعاد دیگری مانند ((z. zhang and h. zha ,2005) (lda ، (v. de silva and j.b. tenenbaum ,2004) isomap ، (x. he and p. niyogi ,2004) fastmvu، (dempster and etc,1977)kernelpca ، (j. verbeek ,2006 (gda ، (m. daszykowski ,2002) diffusionmaps، ding, chris, and xiaofeng he,2004)) autoencoderrbm.، (george, aloysius. ,2013)lle ، (valarmathie, p and etc ,2009) laplacian، (2011prabhu, p., and n. anbazhagan,) hessianlle، (ansari, zahid and etc, 2011) ltsa ، (valarmathie pand and etc , 2009) conformal ، (prabhu, p and n. anbazhagan, 2008)lpp، (poornalatha, g.and etc, 2011) llc، (li, jinhua 2011) cfa را بر روی مجموعه داده خود به کمک یک جعبه ابزار آماده از (m. belkin and p. niyogi,2002) که برای نرم افزار متلب طراحی شده است اعمال کردیم، اما تمامی روش ها بجز pca دارای پیچیدگی زمانی زیادی برای کار با داده های ما بودند. لذا در بخش ارزیابی نتایج از مقایسه با این شیوه ها خودداری شده است. یکی دیگر از اهداف این کار، ارائه راهکاری به منظور استفاده از روش های رایج خوشه بندی سلسله مراتبی مانند optics می باشد که برای مجموعه داده هایی مانند داده های کاربران وب سایت ها بسیار وقت گیر و در مواردی غیر قابل انجام می باشد. یکی از چالش هایی که با این مدل خوشه بندی داشتیم، حافظه مصرفی آن بود. به منظور استفاده از روش اپتیکس، از (jolliffe i.t, 2002) استفاده نمودیم. تا آنجا که جستجو شده است، این روش تاکنون برای خوشه بندی داده های کاربران فضای وب مورد استفاده قرار نگرفته است، در نتیجه بر آن شدیم تا از این روش هم به منظور اثبات کار خود و هم به منظور وارد ساختن آن به حوزه خود استفاده کنیم. به منظور کاهش ابعاد مجموعه داده خود نیز از کوانتیزه کرده مجموعه داده ها استفاده کردیم و ابعاد آن را بدون کاهش صحت و حتی افزایش آن از سی الی سیصد برابر کاهش دادیم. همچنین روش های معتبر و معروف کاهش ابعاد مجموعه داده مانند روش pca را مورد بررسی قرار دادیم و متوجه شدیم روش ما بهترین صحت و سرعت و حافظه را در این کاربرد نصیب ما می کند. نظم منطقی بحث به این صورت می باشد که در بخش دوم تاریخچه ای از کارهای انجام شده در حوزه مربوطه خواهیم داشت، در بخش سوم چارچوب پیشنهادی خود را تشریح کرده و مراحل اصلی آن را به صورت تفضیلی مورد بررسی قرار می دهیم. در بخش چهارم به ارزیابی چارچوب خود پرداخته و در بخش آخر با بحث در خصوص چارچوب خود، به نتیجه گیری و تشریح کارهای آینده می پردازیم.
زهرا قزل بیگلو مجید وفایی جهان
بدافزار، نرم افزاری است که نیت خرابکارانه و یا اثراتی تخریبی دارد. این نرم افزارها طیف وسیعی از خطرات و تهدیدات کامپیوتری، از قبیل ویروس ها، کرم ها، تروجان ها و نرم افزارهای جاسوسی را در بر می گیرند. یکی از اصلی ترین میزبانان بدافزارها، فایل های اجرایی هستند، به همین منظور شناسایی و تشریح بدافزارها از فایل های اجرایی، در مباحث امنیت کامپیوتری امری بسیار حیاتی و حائز اهمیت است. یکی از روش های متداول در این زمینه، استفاده از آپکدهای (opcodes) موجود در کد اسمبلی بدافزارها است. در این پایان نامه از روشی جدید مبتنی بر دسته بندی معنایی آپکدها برای تشخیص بدافزارها استفاده شده است. پس از استخراج دنباله نقش-آپکدها مربوط به هر فایل، خواص آماری آن همچون دنباله های n-گرم، خودهمبستگی، نرخ آنتروپی و فاصله محاسبه می شود و به عنوان ویژگی های مربوط به آن فایل مشخص می شود. سپس کارایی و دقت هر گروه از ویژگی ها با استفاده از دسته بندهای مختلف همچون درخت تصمیم، k-نزدیک ترین همسایه و ... مورد ارزیابی قرار گرفته است. پس از این به منظور بررسی توانمندی روش ارائه شده، با همتای خود (دنباله آپکد) از سه جنبه تعداد ویژگی ها، مدت زمان ساخت مدل و صحت داده ها مقایسه شده است. در فاز مقایسه از دو رویکرد مختلف برای استخراج ویژگی مبتنی بر محتوای اسمبلی فایل ها استفاده شده است. روش اول مبتنی بر فراوانی آپکدهای ظاهرشده در متن کد است و روش دوم مبتنی بر فراوانی نقش-آپکدهای متوالی ظاهرشده در متن کد است. پس از آن هر دو روش در شرایط برابر و با استفاده از دسته بندهای مختلف مورد آزمایش قرار گرفته اند. نتایج آزمایشات نشان می دهد که با استفاده از دسته بندی معنایی آپکدها کارایی و صحت دسته بندهای مختلف در تشخیص بدافزارها کاهش نمی یابد، علاوه بر این تعداد ویژگی ها، حجم محاسبات، حافظه و زمان مصرفی به طور قابل توجهی کاهش می یابد.
سعیده غلامرضازاده مطلق مهرداد جلالی
سیستم های خلاصه برداری از متن، یافتن اطلاعات مورد نیاز را از میان خیل عظیم اطلاعاتی که در قالب متن هستند، تسریع می کنند. این سیستم ها از روش های مختلفی برای انتخاب مهم ترین موضوعات متن استفاده می کنند. یکی از روش هایی که در این زمینه به صورت گسترده مورد استفاده قرار می گیرد، استفاده از ساختار گراف و ویژگی های آن برای انتخاب مهم ترین جملات متن است. الگوریتم ارائه شده در این تحقیق، سعی در خلاصه سازی متون فارسی با استفاده از ساختار گراف و ساختن مسیر بر اساس آن دارد. الگوریتم پیشنهادی، متن ورودی را به صورت گراف نمایش داده و با استفاده از ویژگی های ساختار گراف، روش های آماری، ویژگی های ساختاری متن و استفاده از مسیرها، مهم ترین و پر محتواترین جملات متن را انتخاب می کند. نوآوری این الگوریتم در مقایسه با کارهای پیشین، استفاده از مسیرها و بررسی میزان اهمیت ارتباط موجود بین جملات، به منظور حفظ هر چه بیشتر انسجام و جریان موضوعی متن است. برای ارزیابی کیفیت خلاصه تولیدی، میزان شباهت آن با خلاصه انسانی مورد بررسی قرار گرفته است. نتایج بررسی ها نشان می دهد که الگوریتم ارائه شده در مقایسه با کارهای پیشین مطرح شده در زمینه خلاصه سازی متون فارسی، خلاصه ای با شباهت بیشتر به خلاصه انسانی تولید می کند.
مینا رحیم پور مهرداد جلالی
در دنیای امروزی با افزایش سریع حجم اطلاعات در وب، به سیستمی که با دادن پیشنهادات مناسب با خواسته های یک کاربر، او را از مرور تمام آیتم ها بازدارد، احساس نیاز می شود. امروزه سعی در ساخت سیستمی توصیه گر با درصد خطای کم و سرعت بالا در تمام شرایط به یکی از پرطرفدارترین حوزه های تحقیقاتی دانشگاهی تبدیل شده است. به دلیل درصد خطای بالا معمولا یک روش پایه در ساخت این گونه سیستم ها به کار گرفته نمی شود و در اکثر اوقات جهت پیاده سازی آن از ترکیب چندین روش استفاده می شود. با نگاشت اطلاعات تراکنش ها، به یک گراف دوبخشی تعاملات کاربر-آیتم، مسئله توصیه تبدیل به یک مسئله پیش بینی لینک در گراف می شود که در آن ساختار گراف، اطلاعات مناسبی در رابطه با ارتباطات بین کاربران دارد. برای استفاده بهینه از ساختار گراف، یک روش توصیه مبتنی بر هسته را پیشنهاد می کنیم و یک هسته گراف طراحی می کنیم که کاربران و آیتم هایی که با کاربر-آیتم اصلی در ارتباط هستند را جهت پیش بینی لینک، موردبررسی قرار می دهد. در هسته گراف، یک حرکت تصادفی با شروع از جفت کاربر-آیتم اصلی ایجاد می کنیم و میزان شباهت بین جفت کاربر -آیتم ها را بر اساس حرکت تصادفی محاسبه می کنیم. سپس از هسته در یک ماشین بردار پشتیبان تک کلاسه جهت عمل توصیه استفاده می کنیم. پیاده سازی شده و نتایج خوبی نیز حاصل شد. به عنوان مثال این movielens الگوریتم ذکرشده، بر روی دیتاست روش برای 6040 کاربر به 3883 فیلم با گام های تصادفی به طول 3، صحت پیش بینی 83.03 بدست آمد
فاطمه خوشدل نظامی کاخکی مهرداد جلالی
سیستم های توصیه گر زیرمجموعه ای از سیستم های اطلاعاتی اند که توانایی تحلیل رفتارهای گذشته و ارائه توصیه هایی برای مسائل جاری را دارا هستند. آن ها می توانند کالاها را بر اساس تحلیل رفتار گذشته کاربر، بدون اینکه هیچ اطلاعات زمینه ای اضافی را به حساب بیاورند، به او پیشنهاد دهند. البته تنها در نظر گرفتن کالاها و کاربران در فرآیند پیشنهاد می تواند ناکافی باشد؛ بنابراین، سیستم توصیه گر آگاه از زمینه، علاوه بر اطلاعات توصیفی درباره ی کاربران، کالاها و نرخ ها از صفات زمینه ای اضافی نیز استفاده می نماید. زمینه پارامتری وضعیتی است که می تواند به وسیله ی سیستم شناخته شود و هم چنین بر انتخاب و رتبه بندی نتایج پیشنهاد ها موثر باشد. همواره، هدف سیستم های توصیه گر آگاه از زمینه، یافتن مدل یا روشی مناسب برای پیشنهاددهی بهتر کالاها به کاربران با توجه به زمینه ای است که در آن قرار دارند. در این پایان نامه سعی گردیده است، با ارائه مدلی جدید مبتنی بر مدل مخفی مارکوف و به کار بستن زمینه ها در آن، روشی جدید برای بهبود نتایج حاصل گردد. در این روش، برای هر یک از زمینه های موجود یک مدل مخفی مارکوف ساخته می شود که مقادیر زمینه ها به عنوان مشاهدات و هر یک از کالاها به عنوان حالات این مدل در نظر گرفته می شوند. سپس، با دنبال کردن احتمالات مارکوفی برای زنجیره مشاهدات زمانی کاربر و استفاده از الگوریتم پیشرو، فرآیند رتبه دهی کالا صورت می گیرد. ارزیابی ها نشان می دهند که مدل ارائه شده، می تواند در هر دو پایگاه داده موردبررسی، در مقایسه با روش های دیگر درصد موفقیت بیشتری در رتبه بندی کالاهای موردنظر کاربر کسب کند؛ همچنین رتبه بندی کالاها مناسب تر انجام می شود و کالاهای موردنیاز کاربر زودتر به او پیشنهاد خواهند شد. درنهایت، روش پیشنهادی، می تواند در سیستم های توصیه گری که اطلاعات را به صورت پیوسته و در مدت زمان کوتاه تری جمع آوری می نماید، نتایج بهتری را از خود نشان دهد.
آرزو بشارتی حسین آبادی مهرداد جلالی
انطباق های چندتایی برای پیش بینی ساختارهای پروتئینی، پیش بینی عملکرد پروتئین ها و بررسی تکامل ژنتیکی ضروری هستند.پیدا کردن انطباق بین دنباله ها با بالاترین دقت به طوری که دنباله ها بیشترین شباهت را به هم داشته باشند، مسئله اصلی در این تحقیق است.در این پایان نامه طبقه بندی دنباله ها با توجه به ویژگی های آن ها و با توجه به این نکته که انواع مشابه ویژگی های بیولوژیکی باید با هم همتراز شوند در حالی که انواع مختلف نباید با هم همتراز شوند، باعث افزایش دقت الگوریتم نسبت به الگوریتم های دیگر شده است.
ملیکا رضای گرکانی مهرداد جلالی
پیش بینی اعتماد در شبکه های اجتماعی توجه بسیارزیادی را به خود جلب کرده است. متاسفانه درحال حاضر این پیش بینی با دقت و صحت بالایی انجام نمی شود. ما با استفاده مفهوم فیلترسازی مشارکتی و فیلترکردن کاربرانی که با کاربر هدف دارای نقاط مشترک هستند و یکی ازجدیدترین روش های موجود برای محاسبه ی شباهت، که از سه فاکتور نزدیکی، اهمیت و یکتایی بهره می گیرد و توجه ویژهای به تناسب در امتیازدهی های کاربر و اولویت های امتیازدهی های هرکاربر می کند، مناسبترین و نزدیکترین کاربر را، به کاربر هدف پیشنهاددهی دهد
مهرداد جلالی
چکیده ندارد.