نام پژوهشگر: محمدرضا مطش بروجردی
مجید اسدپور محمدرضا مطش بروجردی
حملات توزیع شده در شبکه های کامپیوتری، حملاتی هستند که از نقاط متعدد یک یا چند سیستم کامپیوتری را تهدید می کنند. سیستم تشخیص نفوذ توزیع شده (dids) سیستمی است که می تواند علاوه بر تشخیص حملات محلی، حملاتی که به صورت توزیع شده هستند را نیز تشخیص دهد. به عبارت دیگر چنین سیستمی می تواند با مشاهده آثار حمله توزیع شده در مکانهای مختلف و به صورت مستقل، آنها را به یکدیگر مرتبط سازد. این پایان نامه یک سیستم تشخیص نفوذ توزیع شده با استفاده از عامل های متحرک را توصیف می کند. این سیستم به دلیل استفاده از عامل های متحرک مبتنی بر جاوا نسبت به سیستم های تشخیص نفوذ قدیمی برتری دارد. در معماری جدیدی که در این پایان نامه معرفی شده است، عامل های متحرک به صورت هماهنگ اطلاعات میزبانهای شبکه را پردازش کرده و نهایتاً اطلاعات نفوذ را استخراج میکنند. بسته نرم افزاری aglet که توسط ibm توسعه داده شده است به عنوان پایه معماری عامل مورد استفاده قرار گرفته است. نمونه ای از این سیستم پیاده سازی شده است که نتایج ارزیابی آن ارائه میگردد. این ارزیابی ها نشان میدهد که این سیستم دارای مزایای تشخیص حملات توزیع شده، مقاوم در برابر خرابی، توسعه پذیری و سربار کم میباشد.
حسین اسکندر محمدرضا مطش بروجردی
یکی از رویکردهای مهم در دسته بندی متن، استفاده از پارادیم یادگیری ماشین می باشد. در این رویکرد، نمایش متون و الگوریتم دسته بندی، دو عنصر اساسی برای دسته بندی بهینه متون به شمار می آیند. در طی سه دهه گذشته، روشهای گوناگونی هم در زمینه نمایش متون و هم در زمینه الگوریتمهای دسته بندی معرفی شده است که در بخش اول و دوم این نوشتار به طور اجمالی به بررسی آنها می پردازیم. برخلاف تمامی رویکردهای پیشین دسته بندی متن که بطور مستقیم، لغات یا عبارات داخل متون را به بردارهای متناظرشان نگاشت می کنند، در این پروژه برای بدست آوردن این بردارها، از یک الگوریتم یادگیری استفاده شده است که آنرا gnp (generalized noun phrase) می نامییم. اساس این رویکرد از یک پروسه عمومی سازی/اختصاصی سازی بر روی عناصر بردار پیروی می کند. از آنجاییکه در یک جمله، عبارات اسمی از بار معنایی به نسبت بالایی برخوردار می باشند، از عبارات اسمی بعنوان عناصر سازنده این بردارها استفاده شده است. بدین ترتیب می توان یک رابطه شمول بر روی کلمات تشکیل دهنده آن عبارت اسمی تعریف کرد. همچنین در این پروژه به معرفی خوشه های مستتر در هر دسته پرداخته شده است که متناسب با هر خوشه، پروفایلی تعریف می کنیم که شامل عبارات اسمی متعلق به متون آن خوشه می باشد. این پروفایلها در واقع مبنای شروع این روش یادگیر بشمار میرود. با بکارگیری از دو فرآیند عمومی سازی و اختصاصی سازی در یک استراتژی موفق که جزییات آن را بیشتر ملاحظه خواهید کرد، می توانیم عبارات اسمی موجود در هر پروفایل را بر حسب نیاز خلاصه/بسط دهیم. حاصل این عملیات، یادگیری عباراتی است که بهتر می توانند دسته متناسب با خود را توصیف کنند. بدین ترتیب با گنجاندن عبارات اسمی غنی شده متعلق به یک دسته در یک بردار می توانیم آنرا به یکی از دسته بندی کننده های متعارف عرضه کرد تا با استفاده از آن بتوان متون تست را برچب بزند. از آنجاییکه که رویکرد gnp وابسته به دسته بندی کننده خاصی نیست، میتوانیم از هر کدام از الگوریتم های دسته بندی متن متعارف استفاده کنیم. بدین ترتیب ما در این پروژه از دو دسته بندی کننده k- امین نزدیکترین همسایه (k-nn) و ماشین بردار پشتیبان (svm) بعنوان دسته بندی کننده استفاده کرده ایم که نتایج آن بر روی مجموعه داده های 20-newsgroups بقرار ذیل می باشد : ارتقای دقت دسته بندی gnp مبتنی بر k-nn نسبت به k-nn متعارف، بر اساس دو معیار ارزیابی macro-fl و micro-fl مقادیر بترتیب از 72? به 5/84? و از 5/69? به 82? ارتقاء می یابد. همچنین اعمال رویکرد gnp با استفاده از دسته بندی کننده svm، نتیجه مشابهی را نسبت به svm استاندارد بهمراه دارد : ارتقای دقت دسته بندی بر اساس دو معیار ارزیابی macrp-fl و micro-fl به ترتیب از 6/83? به 03/91? و از 63/78? به 32/88? حاصل می شود.
وحید جلالی محمدرضا مطش بروجردی
اگرچه بازیابی اطلاعات به طور سنتی مستندات و جستارها را از نقطع نظر کلید واژه های به کار رفته در آنها مورد بررسی قارر می دهد، در نظر گرفتن روابط معنایی آنها در کنار شباهت های نحویشان می تواند به ایجاد سیستم های کاراتر در بازیابی اطلاعات منجر شود. به طور کلی می توان گفت وجود نداشتن واژگان مشابه میان دو متن دلیل بر نامربوط بون آنها به یکدیگر نیست. حالت های متعددی ممکن است وجود داشته باشد که در آنها کاربر، نیاز اطلاعاتی خود را با لغات و واژگانی متفاوت از آنچه در مستندات سیستم وجود دارد بیان کند. و یا این که به علت کمبود اطلاعات قادر نباشد برخی کلید واژه های مناسب برای جستجوی خود را در اختیار سیستم قرار دهد. در تمامی این شرایط استفاده از روابط مفهومی میان مستندات و جستار کاربر، این امکان را به سیستم خواهد داد تا نتایج دقیق تر و کامل تری را به کاربران خود بازگرداند. هدف این پایان نامه بررسی شویه های مختلف به کارگیری دانش موجود در هستان شناسی ها در امر بازیابی اطلاعات و معرفی ایده های نوین در این رابطه می باشد. به طور خلاصه در این پایان نامه روش های جدیدی، در زمینه کاربرد هستان شناسی در گسترش جستار ، بازیابی معنایی مبتنی بر معیارهای شباهت مفهومی و بازیابی معنایی همراه با بازخورد ارتباطی خودکار مفهومی معرفی می شوند. دامنه مورد بررسی در این پایان نامه مستندات پزشکی می باشند. هستان شناسی به کار رفته در روش های معرفی شده mesh یا medical subject headings است که در برگیرنده در حدود 24000 مفهوم پرکاربرد در قلمرو پزشکی می باشد. همچنین برای مقایسه تاثیر به کاربردن هستان شناسی عمومی در مقابل هستان شناسی مختص دامنه در بخشی از تجربیات این پایان نامه از هستان شناسی wordnet استفاده شده است. مجموعه آزمون های به کار رفته برای ارزیابی روش های معرفی شده نیز عبارتند از mediline و ohsumed که از مجموعه آزمون های شناخته شده در ارزیابی سیستم های بازیابی اطلاعات می باشند.
باقر رحیم پور کامی محمدرضا مطش بروجردی
یکی از رویکردهای مهم امروزی برای وب، استفاده از آن به عنوان یک منبع عظیم اطلاعاتی و خدماتی می باشد تا هر فردی بر اساس نیاز خود منبعی را جستجو کند و از میان منابع بدست آمده یکی را انتخاب نماید. از مسائل حائز اهمیت در این رویکرد، وجود سازمان ها و افراد مختلف به عنوان ارائه دهندگان منابع می باشند که این امر سبب می شود تا ما در یک جستجو، منابع مختلف با درجه اعتبار مختلف برای یک موضوع داشته باشیم. برای این انتخاب نیاز به یک مکانیسم ارزیابی داریم که با استفاده از معیارهای مناسبی اعتبار یک منبع را ارزیابی نماید و بر اساس نتیجه ارزیابی، بتوان در مورد انتخاب منبع مناسب تصمیم گرفت. هدف ما در این مطالعه پاسخ به این سوال اساسی در زمینه جستجوی منابع می باشد که چگونه می توان میزان اعتبار منابع را اندازه گیری و مقایسه نمود؟ مکانیسم های متعددی برای ارزیابی اعتبار منابع ارائه شده اند که مهمترین مکانیسم هایی که ما در این مطالعه روی آنها تاکید داریم مدل مبتنی بر شهرت و مدل محتوایی می باشند. در مدل های مبتنی بر شهرت، یک نهاد برای انتخاب یک منبع از نتایج تعاملات(تجربه) گذشته خود استفاده می کند و بر اساس امتیازی که به منابع می دهد، منبعی که بیشترین امتیاز را داشته باشد به عنوان منبع معتبر انتخاب می کند. در مدل های محتوایی، منابع با استفاده از مولفه های آنها امتیاز دهی می شوند و بر اساس امتیازدهی انجام شده، منبع معتبر انتخاب می شود. در مدل های مبتنی بر شهرت برای ارائه یک نتیجه مطلوب نیاز به زمان می باشد تا برای انجام قضاوت، تعداد تعاملات کافی انجام گیرد. همچنین احتمال مواجه شدن با خرابکاران در این مدل ها (مدل های مبتنی بر شهرت و مدل های محتوایی) زاید می باشد. ما در این تحقیق به دنبال ارائه مکانیسمی برای مدل کردن اعتبار منابع بر اساس ترکیب این دو مدل ذکر شده می باشیم. از مکانیسم های مبتنی بر شهرت و محتوا به عنوان مولفه های سازنده در این مدل جدید استفاده می گردد. دو هدف اساسی از ارائه این مدل ترکیبی، افزایش ضریب اطمینان جهت انتخاب منبع و استفاده از هر دو مولفه برای کشف نهاد خرابکار می باشد. از این رو در این تحقیق سعی بر ارائه از یک مدل ترکیبی (hybrid model) می باشد که با همپوشانی نقاط ضعف، از نقاط قوت هر یک از مدلها استفاده نماید و ضریب اطمینان را در یک انتخاب افزایش دهد.
حمید خدایی محمدرضا مطش بروجردی
در پردازش زبان طبیعی، استخراج اطلاعات نوعی بازیابی اطلاعات بوده که قادر به استخراج اطلاعات ساختار یافته از متون فاقد ساختار به وسیله ی الگوهایی از پیش تعریف شده است. در این پروژه، یک روش شبه بی نظارت مبتنی بر خوشه بندی در دو مرحله برای تعیین مناسب بودن، و همچنین طبقه بندی الگوهای استخراج اطلاعات از متن بر اساس نوع آنها طراحی، و برای زبان فارسی پیاده سازی شده است. مرحله ی اول خوشه بندی بر اساس نوع آنها طراحی، و برای زبان فارسی پیاده سازی شده است. مرحله ی اول خوشه بندی بر اساس فرکانس تکرار الگوها و مرحله دوم بر طبق محتویات معنایی آنها انجام می شود که می تواند نوع اطلاعاتی را که هر الگو استخراج می کند نیز به صورت خودکار تعیین کند. آزمایش روش بر روی یک دامنه ی خاص (اخبار زلزله) و یک دامنه ی عمومی تر (اخبار سوانح)انجام یافته و در حالت دامنه ی خاص، چند روش دیگر نیز پیاده سازی شده، و نتایج آنها مورد مقایسه قرار گرفته است. برای پردازش متن، از یک روش تکه سازی مبتنی بر ماشین بردار پشتیبان به همراه الگوریتمی برای تعیین محدوده ی جملات ساده و شکستن جملات مرکب به چند جمله ی ساده استفاده شده است که می تواند یک جمله را به گروه های دستوری تقسیم، و پس از آن، جملات مرکب را به جمله هایی ساده تبدیل نماید. همچنین روش تعیین جزء سخن بر اساس درخت تصمیم نیز استفاده شده است.