نام پژوهشگر: محمد هادی صدرالدینی
میثم روستایی محمد هادی صدرالدینی
ترجمه ماشینی یکی از کاربردی ترین شاخه ها در زمینه پردازش زبان طبیعی است. ترجمه ماشینی فرآیند تجزیه و تحلیل خودکار متن در زبان مبدأ و تولید متن معادل آن در زبان هدف است. یکی از سیستم های ترجمه ماشینی سیستم مبتنی بر مثال است که ویژگی اصلی آن استفاده از پیکره متنی دو زبانه به عنوان پایگاه دانش می باشد تا بجای ترجمه لفظ به لفظ و بعضاً اشتباه و نامتعارف، یک ترجمه مشابه ترجمه انسانی بدست آید. فرآیند تطابق یکی از مهمترین بخش ها در سیستم های ترجمه ماشینی مبتنی بر مثال است. این فرآیند برای یافتن نزدیک ترین جمله موجود در پیکره متنی جهت ترجمه جمله ورودی می باشد. در این پژوهش، رویکرد جدیدی بر مبنای تطابق تقریبی جملات ارائه شده است که از شباهت معنایی برای یافتن نزدیکترین جمله استفاده می کند. مهمترین مزیت این روش قابلیت استخراج جملاتی است که اگرچه از لحاظ لغوی متفاوتند اما معنای بسیار نزدیکی به هم دارند. در این تحقیق ابتدا معیار شباهتی بر مبنای الگوریتم های یادگیری ماشین و تکنیک های پردازش زبان طبیعی برای تعیین شباهت معنایی جملات ارائه شده است. سپس با توجه به کارایی این رویکرد در تعیین شباهت معنایی از آن در تطابق تقریبی استفاده شده است. در راهکار پیشنهادی برای تطابق تقریبی جملات ابتدا با استفاده از رویکرد بازیابی اطلاعات جملات کاندید به عنوان جملات نزدیک به جمله ورودی مشخص شده و سپس با استخراج ویژگی های زبان شناسی، شباهت میان جمله ورودی و جملات کاندید به منظور تعیین نزدیکترین جمله محاسبه می گردد. هم چنین به منظور افزایش دقت محاسبه شباهت و کاهش خطا، وزن بهینه هر یک از ویژگی ها با استفاده از الگوریتم رگرسیون خطی تعیین شده است. نتایج آزمایش نشان می دهد رویکرد پیشنهادی به شکل قابل توجهی عملکرد فرآیند تطابق را بهبود می بخشد.
عباس حری نجف آبادی غلامحسین دستغیبی فرد
گرید داده سرویس هایی را برای به اشتراک گذاری و مدیریت فایل ها ی بسیار بزرگ را در سرتاسر دنیا فراهم می کند. مسئله اساسی در گرید داده کاهش ترافیک شبکه است. روش اساسی برای کاهش ترافیک شبکه ایجاد نسخه از فایل ها در سایت های مختلف است. وقتی چندین نسخه از فایل در سایت های مختلف وجود داشته باشد، انتخاب بهترین نسخه از بین آنها می تواند باعث کاهش زمان اجرای کارها شود. اما وقتی که از یک فایل نسخه های متعددی وجود داشته باشد و این نسخه ها به طور جداگانه به روز شوند مسئله سازگاری بین نسخه ها به وجود می آید. در این پایان نامه دو روش جدید برای تکرار فایل ها و زمانبندی کارها در گرید داده ارائه گردیده است. در روش اول الگوریتم تکرار و زمانبندی بر اساس ساختار سلسله مراتبی سه گانه ارائه گردیده. یک روش الگوریتم تکرار و زمانبندی نیز بر اساس پیش بینی زمان انتقال فایل پیشنهاد گردیده است. نتایج شبیه سازی توسط شبیه ساز optorsim بهبود کارایی هر دو روش نسبت به روش های قبلی را نشان می دهد
مرتضی کشت کاران کورش زیارتی
الگوریتم های جستجو در گراف در حل بسیاری از مسائل مهندسی و علوم کامپیوتر مورد استفاده قرار می گیرند. از جمله ی این الگوریتم ها، الگوریتم *a می باشد که به دلیل نیاز به حافظه ی بسیار زیاد، کارایی خود را برای حل مسائل بزرگ از دست می دهد. روش های بسیاری در جهت کاهش حافظه ی مورد نیاز در این الگوریتم ارائه گردیده اند که در این پایان نامه تعدادی از آن ها مورد بررسی قرار گرفته و در پایان دو راهکار جدید در این راستا ارائه می گردد. الگوریتم *ida از جمله الگوریتم های ارائه شده در جهت خطی کردن حافظه ی مورد نیاز الگوریتم *a می باشد. از مشکلات این الگوریتم تولید گره های تکراری برای رسیدن به جواب می باشد. راهکار اول ارائه شده در این پایان نامه اختصاص به ارائه ی روشی کم هزینه در جهت جلوگیری از تولید مجدد برخی از گره ها در این الگوریتم دارد. راهکار دوم ارائه ی روشی در جهت کاهش فضای مورد نیاز برای تولید و نگهداری پایگاه الگویی داده ی جمع پذیر، از جمله روش های تقویت تابع مکاشفه ای، برای مسئله ی مرتب سازی پنکیک ها می باشد. این روش با کاهش فضای حالت در ساخت این پایگاه های الگویی داده، حل مسائل با تعداد پنکیک بیشتر را که پیش از این به دلیل محدودیت حافظه مقدور نبود، میسر می سازد.
حسین فرجی محمد هادی صدرالدینی
حجم روز افزون دادهها در فایلها، پایگاه دادهها و دیگر انبارههای داده، توسعه روشهای تجزیه و تحلیل و استخراج اطلاعات مفید و ضمنی موجود در دادهها را ایجاب می نماید. این اطلاعات می توانند در پروسهای تصمیم گیری سازمانها بسیار موثر باشند. داده کاوی کشف الگوهای پنهان واطلاعات مفید از پایگاه دادهها است. داده کاوی یکی از قدم های مهم در پروسه کشف دانش است. کاوش وابستگیهای تابعی تقریبی به عنوان یکی از روشهای داده کاوی می تواند ارتباطات پنهان و نسبی بین خصیصه های موجود در داده های رابطه ای را استخراج کند. همچنین ارتباطات پنهان بین مقادیر این خصیصه ها را می توان توسط قوانین انجمنی بیان نمود. در این پایان نامه یکی از بهترین روش های کاوش وابستگی های تابعی تقریبی بهبود داده شده است. در این بهبود علاوه بر تولید نتایج مفیدتر کارایی الگوریتم نیز در بسیاری از موارد بهبود می یابد. همچنین با استفاده از مفهوم وابستگی های تابعی تقریبی روش جدیدی بنام ar-miner برای کاوش قوانین انجمنی از پایگاه داده های رابطه ای ارائه می شود. روش جدید علاوه بر کارا بودن می تواند قوانین انجمنی را مستقیما از داخل پایگاه داده های رابطه ای استخراج کند. در انتها با استفاده از الگوریتم ارائه شده برای کاوش وابستگی های تابعی تقریبی، خصیصه های شرکت کننده در دسته بندی ماژول های معیوب نرم افزار را بدون کم شدن کارایی دسته بند کاهش می دهیم.
حسن هدهدکیان علی حمزه
هدف این طرح یافتن اسناد تحت وب شبیه به هم و تعیین میزان شباهت آنها با استفاده از دانش پس زمینه کلمات است که این مسئله با استفاده از هستان شناس و با کمک ساختار صفحات وب براساس بهینه سازی برای موتورهای جستجو انجام می گردد.
فاطمه نوری کورش زیارتی
داده کاوی به معنای استخراج داده و اطلاعات غیر صریح و احتمالاً سودمندی از حجم زیادی از داده ها می باشد، که در گذشته ناشناخته و پنهان بوده اند. با انجام عملیات داده کاوی دانش جالب و گاه غیر منتظره، نظم ها و الگوهای پنهان، یا اطلاعات سطح بالا می توانند از مجموعه ای از داده های مرتبط موجود در پایگاه داده استخراج شوند. یافتن اقلام تکراری یک عمل بسیار مهم در داده کاوی محسوب می شود. با استفاده از اقلام تکراری قوانین همبستگی استخراج و بیان می شوند. یکی از بهترین الگوریتم های ارائه شده در این زمینه الگوریتم تک گذره به نام newmoment می باشد که مجموعه ایی از اقلام تکراری بسته را با روش پنجره ی کشویی حساس به تراکنش بدست می آورد. الگوریتم پیشنهادی ما به نام tmoment، نیز مجموعه ایی از اقلام تکراری بسته را با روش پنجره ی کشویی حساس به تراکنش بدست می آورد، با این تفاوت که الگوریتم قبل از روش بیتی استفاده می کند که در پایگاه داده های خلوت فضای زیادی را از دست می دهد، اما در روش پیشنهادی، خود تراکنش ها نگه داشته می شوند، که باعث کاهش فضای مصرفی و همچنین زمان اجرا می شود. در این پایانامه کارایی الگوریتم جدید به همراه چند الگوریتم دیگر از لحاظ حافظه مصرفی و زمان اجرا با انجام تعدادی آزمایش مورد بررسی قرار گرفته است. ارزیابی های صورت گرفته نشان دهنده برتری الگوریتم جدید از لحاظ زمان اجرا و حافظه مصرفی است.
سید مصطفی فخراحمد محمد هادی صدرالدینی
ترجمه ماشینی یکی از جذاب ترین شاخه ها در زمینه پردازش زبان طبیعی(nlp) است. ترجمه ماشینی(mt) یک فرایند تجزیه و تحلیل خودکار متن در زبان مبدا و تولید متن معادل آن در زبان هدف است. روش های موجود برای ترجمه ماشینی را می توان به دو دسته کلی روش های مبتنی بر قانون و روش های مبتنی بر مجموعه متون تقسیم کرد. روش های مبتنی بر قانون وابسته به زبان بوده و در حل مشکل ابهام معنایی ناتوان هستند، برای حل این مسائل استفاده از روش های مبتنی بر مجموعه متون می تواند چاره ساز باشد. در این تحقیق، سیستم ترجمه جدیدی بنام مترجم برنا را معرفی می کنیم که رویکرد آن ترکیبی از هردو روش مبتنی بر قانون و مبتنی بر مجموعه متون می باشد. بخش مبتنی بر قانون سیستم وابسته به زبان نیست، زیرا قواعد گرامری از زبان به طور خودکار از مجموعه متون موجود استنتاج می شود. ساختار اصلی استفاده شده در سیستم پیشنهادی ساختار آتاماتای متناهی (dfa) است. این اولین بار است که این ساختار در ماشین ترجمه استفاده می شود. مهمترین مزیت این ساختار جداسازی دانش از ماشین ترجمه است. در سیستم برنا، قوانین گرامری استخراجی در قالب ماشین های متناهی تو در تویی ارائه خواهند شد که در ماشین ترجمه بصورت بازگشتی یکدیگر را فراخوانی خواهند کرد. در این تحقیق، همچنین تلاش شده است تا برای یکی از پرچالش ترین مسائل ترجمه ماشینی یعنی رفع ابهام سه راهکار جدید ارائه شود. در راهکار اول که یک روش یادگیری نظارتی است از الگوریتم نزدیک ترین همسایه استفاده می شود. در این روش به منظور بهبود دقت طبقه بند از یک فرآیند انتخاب خصیصه و یک روش وزن دهی جدید استفاده خواهد شد. در راهکار دوم، یک سیستم طبقه بند مبتنی بر قوانین فازی ارائه می شود و به منظور افزایش دقت طبقه بند شیوه ی وزن دهی به قوانین معرفی خواهد گردید. اما راهکار سوم، یک سیستم خبره است که اساس کار آن استنتاج دانش بر مبنای روش زنجیره پیشرو است. پایگاه دانش این سیستم مجموعه ای از قوانین همبستگی بین کلمات مختلف زبان است که طی یک فرایند داده کاوی بدست آمده اند. قابلیت استنتاج موجب می شود که روش پیشنهادی قادر باشد با تکیه بر برخی از کلمات موجود معنای سایر کلمات مبهم را تشخیص دهد حتی اگر این کلمات قبلا در مجموعه متون آموزشی هرگز با هم رخ نداده اند.
زهرا یگانه فرد محمد هادی صدرالدینی
دسته بندی داده ها یکی از موضوعات اساسی در داده کاوی است که کاربردهای مهم و حیاتی در مسایل دنیای واقعی مانند تشخیص بیماری، مدیریت ریسک و پیش بینی رفتارهای آتی دارد. روشهای عملی برای کار با داده های دنیای واقعی، درگیر مسایلی چون حجم زیاد داده ها، اطلاعات غیر-مفید یا نامناسب، تاثیرات نویز و عدم توازن می باشند. داده های جمع آوری شده، معمولاً دارای یک سری نمونه با ویژگی های مختلف براساس زمینه کاربرد است. اهمیت این نمونه ها و ویژگی ها در تصمیم گیری و دسته بندی متفاوت بوده و بعلاوه، تعداد نمونه ها در هر دسته می تواند بسیار متفاوت باشد. از این روی لازم است در دسته بندی، معیارهایی به منظور کشف اهمیت اطلاعات موجود، به کار گرفته شوند. مهمتر آنکه این معیارها علاوه بر دانش افراد خبره، باید براساس داده ها، یعنی ویژگی ها و تعداد داده های هر دسته، تطبیق یابند. امروزه، مساله عدم توازن یکی از مسایل چالش برانگیز در داده کاوی و یادگیری ماشین است. در بسیاری از روش های دسته بندی، از جمله روشهای بر پایه نزدیک ترین همسایه، برچسب گذاری بر اساس یک معیار فاصله و یافتن شباهت و نزدیکی داده ها انجام می شود. روشهای بسیاری به منظور تطبیق پذیرسازی معیار فاصله در الگوریتم نزدیکترین همسایه ارائه شده است. این روشها با افزودن پارامتر وزن محلی یا سراسری به نمونه ها و ویژگی ها کار می کنند. روش ارائه شده در این پایان نامه با یادگیری وزن محلی ویژگی ها سعی در افزایش نرخ تشخیص همه دسته ها در مورد مسایل نامتوازن دارد. در این روش از مفهوم بی نظمی یا انتروپی برای تشخیص اهمیت ویژگیهای مختلف در اطراف هر یک از داده ها استفاده شده است. بدین منظور، یک تابع هدف مشتق پذیر بر اساس پارامترهای وزن تعریف شده که می تواند توسط روش های رایج، بهینه سازی شود. در این روش، برای تشخیص وزن هر ویژگی در اطراف هر یک از داده ها، در قالب تابع هدف، یک معیار جدید بر اساس مفهوم انتروپی و بی نظمی تعریف شده است. از مزیتهای این معیار کاهش پیچیدگی زمانی الگوریتم و مشتق پذیر بودن تابع هدف است. در این پایان نامه به منظور ارزیابی الگوریتم یادگیری، ازمایشات متعددی بر اساس مجموعه داده های محک انجام شده که نشان دهنده کارایی مناسب روش ارائه شده است.
مهدیه رزم پور ستار هاشمی
استفاده از تکنولوژیهای جدید، امروزه از الزامات رشد و ترقی و مدیریت مطلوب هر کسب و کاری بشمار میآید. در حمل و نقل دریایی کالا نیز به دلیل اهمیت این کسب و کار و لزوم رقابتپذیری بنادر با یکدیگر، کاربرد فناوری و تکنولوژیهای جدید در مدیریت موثرتر و اتخاذ تصمیمات بهتر میتواند بسیار مفید باشد. در این پایاننامه ابتدا به معرفی دادهکاوی، تکنیکهای آن و متدولوژی مورد استفاده جهت دادهکاوی خواهیم پرداخت و سپس با طی کامل مراحل فرایند استاندارد دادهکاوی (crisp-dm) و با در دسترس داشتن دادههای واردات خودرو سواری در فاصله سالهای 1386 تا 1390 در بندر شهید رجایی به پیشبینی میزان واردات خودرو سواری در سالهای آتی با استفاده از الگوریتمهای مختلف شبکههای عصبی پرسپترون چند لایه، هموارسازی نمایی و arima پرداخته و با مقایسه پارامترهای خروجی (r2 ، mape و rmse) در هر مدل ، بهترین مدل جهت پیشبینی واردات این کالا را معرفی میکنیم. نتایج نشان میدهد که شبکههای عصبی مصنوعی عملکرد بهتری نسبت به مدلهای سریهای زمانی نظیر هموارسازی نمایی و arima دارند و الگوریتم لونبرگ مارکوات بهترین پیشبینی را در این خصوص ارائه میدهد.
علیرضا کاظمی اشکان سامی
یکی از خطراتی که امروزه امنیت سیستم های کامپیوتری را به صورت بسیار جدی تهدید می کنند، بدافزار ها می باشند. با توجه به اینکه این خطرات خسارات جبران ناپذیری را می توانند به سیستم ها وارد کنند؛ لذا تشخیص و مبارزه با بدافزارها امری بدیهی و مهم تلقی می شود. از آنجایی که بدافزارهای امروزی از روش های مختلف مبهم سازی و روش های چند ریختی و ترا ریختی برای مشکل کردن تشخیص ایستای بدافزارها می کنند، باید به دنبال روشی بود که بتوان به این روش ها تا حد امکان غلبه نمود. در این رساله، برای غلبه بر مشکلات مطرح شده روشی ارائه شده است که بر اساس روش های گراف کاوی اقدام به تشخیص بدافزارها می کند. در این روش ابتدا گراف وابستگی غنی شده با فراخوانی های واسط برنامه نویسی کاربردی از کد اسمبلی برنامه ها می سازیم. سپس اقدام به استخراج گراف های پر تکرار موجود در بین برنامه های مجموعه داده کرده و بر اساس این گراف ها مدلی را برای تشخیص بدافزارها می سازیم. برای ساخت این مدل از فایل های اجرایی 435 برنامه بی خطر و 390 فایل اجرایی بدافزارهای مختلف استفاده کرده ایم. ارزیابی ها نشان می دهد که روش ارائه شده دارای دقت بالایی می باشد، به طوری که دقت تشخیص روش حدود 96% می باشد.
محمد صادق مظفری غلامحسین دستغیبی فرد
رشد سریع تقاضا برای قدرت محاسباتی موجب شده است تا تغییر جهتی به سوی مدل رایانش ابری که بر اساس مراکز داده مجازی شده عظیم بنا شده است، صورت پذیرد. چنین مراکز داده ای طبیعتاً انرژی مصرفی بالایی را طلب می کنند. برای پاسخ به تقاضای مشتریان رایانش ابری و به منظور پشتیبانی از محاسبات سبز، ارائه دهنده های سرویس ابری باید هم انرژی مصرفی را کاهش دهند و هم اینکه پارامترهای مربوط به کیفیت سرویس را در سطح مطلوبی نگه دارند. یکی از روش های کاهش مصرف انرژی، پایش مداوم ماشین های مجازی می باشد. در این رساله، برای کاهش مصرف انرژی در محیط رایانش ابری، دو الگوریتم نوین برای ترکیب آگاه از توافق سطح سرویس ماشین های مجازی ارائه شده است که مبنای کار آن بر اساس شباهت های رفتاری می باشد. نتایج بدست آمده از شبیه ساز cloudsim نشان دهنده بهبود پارامترهای کیفیت سرویس و کاهش مصرف انرژی می باشد.
زهرا کریمی محمد هادی صدرالدینی
رشد سریع حجم اطلاعات و توسعه وسیع ارتباطات اینترنتی سبب افزایش نرخ تقاضا برای توزیع و به اشتراک گذاری محتوای دیجیتال در سطح جهان شده است. یکی از گرایشات اساسی در محاسبات توزیع شده در سال های اخیر، محبوبیت شبکه های نظیر به نظیر در ساخت برنامه های کاربردی اینترنت می باشد. از مشخصات این نوع سیستم های شبکه ای عدم نیاز به مدیریت متمرکز و یا سازماندهی از قبل مشخص شده بوده که در آن ارتباطات به صورت همزمان انجام می گیرد. با بزرگ تر شدن اندازه ی شبکه های نظیر به نظیر یکی ازمسایل مهم، توزیع مناسب بار بین اعضای تشکیل دهنده آن ها می باشد. در این تحقیق سعی شده است به منظور افزایش کارایی در ساخت و پیاده سازی شبکه های نظیر به نظیر ساخت یافته، به مقایسه چهار نمونه از پرکاربردترین الگوریتم های توزیع بار در این شبکه ها به نام های chord، pastry، koorde و kademlia پرداخته شود. در این بررسی معیارهای مهمی همچون تعداد نودها، هندسه ی شبکه و نحوه ی جستجو در الگوریتم های فوق توسط محیط شبیه ساز ارزیابی شده اند.
مریم بهرامی محمد هادی صدرالدینی
داده کاوی علم استخراج اطلاعات ضمنی، از قبل ناشناخته و به صورت بالقوه مفید از داده های خام است. کاربرد داده کاوی در توالی ها و ساختارهای بیولوژیکی و تفسیر اطلاعات از آن ها به علم بیوانفورماتیک شهرت دارد. امروزه، حجم بالای داده در پزشکی و ژنتیک به منظور به دست آوردن نتایج و الگوهای مفید در رابطه با بیماری ها جمع آوری می شود. آنفولانزا یک بیماری شدیدا مسری، حاد و تب زای تنفسی است. این بیماری توسط ویروس آنفولانزا ایجاد می شود که یک ویروس هشت قسمتی است. آنفولانزا نوع a با توجه به آنتی ژن های سطحی آن هماگلوتینین و نورامینیداس به زیرگروه هایی تقسیم می شود. آزمایشات آنتی ژنی مرسوم در این زمینه زمانبر و پر هزینه بوده و اغلب کاملا دقیق نیستند. آنفولانزا در میزبان انسانی اش شیوع بسیار زیادی داشته است. با اندک تغییری در هر یک از آنتی ژن ها ویروس جدیدی به وجود می آید که واکسن فعلی کارائی خوبی در برابر آن نخواهد داشت، لذا سالانه نیاز به بازنگری در ترکیب واکسن وجود دارد تا ترکیب واکسن در نقاط متغیر بروزرسانی شود. استخراج دقیق نقاط متغیر و ثابت از اهمیت بسزایی برخوردار است. در این تحقیق، ابتدا با استفاده از تکنیک طبقه بندی الگوی دقیق پیش بینی زیرگروه ویروس جدید و میزبان آن بر اساس توالی های نوکلئتیدی و پروتئینی هماگلوتینین و نورامینیداس به دست آمد. سپس با استفاده از تکنیک طبقه بندی بر مبنای قوانین انجمنی، قوانین دقیق حاکم بر زیرگروه ویروس استخراج شد. در ادامه تحقیق، نقاط متغیر ویروس در اثر جهش-های آنتی ژنی رخداده در پاندامی های گذشته و نقاط تاثیرگذار در ظهور زیرگروه های جدید استخراج شد. این نقاط در طراحی واکسن آنفولانزا و به منظور بالا بردن کارایی آن قابل استفاده است.
مریم مرزبان اشکان سامی
تست نرم افزار مهمترین فعالیت در چرخه تولید نرم افزار می باشد. با توجه به اینکه 40 درصد هزینه های تولید نرم افزار صرف تست می شود، خودکارسازی عملیات تست نرم افزار و تست در مراحل اولیه تولید باعث کاهش هزینه ها می گردد. ویژگیهای خاص سیستم های تحت وب، نظیر ، توسعه تدریجی و مداوم آنها، مکانیزم پویای زبانهای برنامه نویسی وب و الگوی پیچیده فعل و انفعالات کاربران برنامه باعث می شود که روشها و ابزارها و مدلهای رایج تست نرم افزارهای متداول، برای سیستم های تحت وب کافی نباشند و احتیاج به یک ابزار اتوماتیک جهت اعتبارسنجی صفحات پویا کاملا احساس می شود. در کل بسیاری از وب سایت هایی که بر روی اینترنت قرار دارند، با توجه به استانداردهای html معتبر نیستند. این عدم اعتبار باعث ایجاد صفحات وب پویای بدشکل می شود، که بصورت جدی قابلیت استفاده برنامه های تحت وب را تحت تاثیر قرار می دهد. یافتن این نوع خطاها در برنامه های تحت وب پویا کاری دشوار و چالش بر انگیز است و ابزارهای تست کنونی قادر به یافتن این خطاها نیستند. ما ابزاری اتوماتیک برای تست برنامه های تحت وب نوشته شده به زبان php که در زمان اجرا، صفحات html آنها بصورت پویا ساخته شده و در مرورگر به کاربر نشان داده می شود، ایجاد کردیم. برخلاف روش های سنتی که محدود به بازبینی مسیرها و لینک های ایستا هستند، روش مکاشفه ای مطرح شده در این پایان نامه می تواند بر اساس تعاملات کاربر با سایت و پیش بینی اطلاعات ورودی کاربر (روش کنشگرا و پیش نگر)، بصورت اتوماتیک در مسیرهای پویای سایت (مثل شروط و حلقه ها) پیش رود و خطاهای مربوطه را در صورت وجود بیابد.
مردمک عسکری زاده کوویی محمد هادی صدرالدینی
یکی از مسائل مهم جهت ترجمه ای دقیق و با کیفیت بالا، رفع ابهام معنایی کلمات است. ابهام معنایی اشاره به حالتی دارد که یک کلمه بیش از یک معنی داشته باشد. این نوع چند معنایی برای سیستمهای مترجم ماشینی چالشی بزرگ به شمار می آید. در این تحقیق برآنیم تا با یکی از روش های یادگیری بانظارت، معنی درست کلمه ی مبهم را در متن تشخیص دهیم. به این منظور با استفاده از الگوریتم knn متون مورد بررسی را کلاس بندی می نماییم، که دلیل استفاده از این الگوریتم، موفقیت زیاد آن در دسته بندی اسناد، در زبانهای مختلف می باشد. الگوریتم knn از همسایه ها برای کلاسه کردن هر عضو جدید یا نمونه جدید استفاده می کند و پیش بینی خروجی خود را بر اساس k تا از نزدیکتیرن همسایه ها به نقطه ( شی) موردنظر انجام می دهد. برای اینکه نزدیکترین همسایه ها را به نقطه موردنظر تشخیص دهیم و مشخص کنیم، نیاز به معیارهای اندازه گیری فاصله بین نقطه ی مورد نظر (هدف) و داده های آزمایشی داریم. این معیارهای اندازه گیری فاصله عبارتند از : فاصله اقلیدسی، فاصله بلاک شهری یا منهتن ، فاصله مینکووسکی ، ضریب جاکارد ، همبستگی ، فاصله کسینوسی و فاصله ماهالانوبیز. برای اینکه بتوان هر مجموعه متون را کلاس بندی کرد، ابتدا بایستی یک سری خصوصیات را از متن مورد نظر استخراج کرد و سپس بردار خصوصیات تشکیل داد. از آنجایی که در شناخت معنی صحیح یک کلمه ی مبهم، کلمات اطراف آن نقش به سزایی دارند، این کلمات، بعنوان خصوصیات در نظر گرفته شده اند و برای بررسی بهترین عملکرد، 8 مجموعه متفاوت از خصوصیات که در هرکدام از این مجموعه ها تعداد کلمات اطراف کلمه ی مبهم متفاوت هستند، مورد بررسی قرار داده شده اند. بردار خصوصیات را هشت حالت مختلف با تعداد 3، 4، 5، 6، 7، 8، 9 و 10 کلمه ، قبل و بعد از کلمه مبهم مشخص کرده ایم و هر بار روی هر کدام از این داده ها الگوریتم را اجرا نموده ایم، الگوریتم را با k های متفاوتی که برابر 1، 3، 5 و 10 می باشد هربار اجرا می کنیم و برای چهار معیار شباهت یعنی اقلیدسی، بلاک شهری، کسینوسی و همبستگی دقت را اندازه گیری می نماییم و در نتیجه برای هر مجموعه متون 128 حالت مختلف را مورد بررسی قرار داده ایم و در پایان نتایج حاصل از ارزیابی طرح پیشنهادی و تاثیر معیارهای متفاوت شباهت در رفع ابهام معنایی بررسی و مقایسه گردیده است. بنابر، بررسی های انجام شده بالاترین دقت را هنگامی به دست می آوریم که از فاصله کسینوسی بعنوان معیار اندازه گیری فاصله استفاده می کنیم و با در نظر گرفتن k برابر با 3 و همچنین بردار خصوصیات برابر با 6w یعنی هنگامی که 6 کلمه قبل و 6 کلمه بعد از کلمه ی مبهم را برای رفع ابهام در نظر می گیریم به نتایج بهتری دست می یابیم و معنی درست کلمه مبهم با احتمال تقریبا 83 درصد به دست می آید.
علی طهمورث پور محمد لگزیان
در این تحقیق به ضرورت ایجاد پایگاه داده مشترک در صنعت بیمه ایران پرداخته شده و مزایا و موانع اشتراک گذاری اطلاعات در بین بیمهگران بررسی میشود. بدین منظور از روش تحقیق آمیخته جهت جمعآوری اطلاعات استفاده گردیده است. در ابتدا نسبت به انجام مصاحبه با خبرگان صنعت بیمه اقدام و سپس با توزیع پرسشنامه نظرات کارشناسان این صنعت اخذ، سپس با استفاده از آزمون غیر پارامتریک فریدمن به رتبهبندی موانع و مزایا از دید پاسخ دهندگان اقدام گردید. به منظور ایجاد پایگاه داده مشترک در بین بیمهگران ایجاد یک سازمان غیر انتفاعی با مشارکت تمامی بیمهگران پیشنهاد شد.
محمد امیدوار سید ریوف خیامی
با توجه به اهمیت نقش دانش در بهبود فرایند تصمیم گیری، کسب مزایای رقابتی ، خلاقیت و نوآوری و همچنین ضرورت استقرار سیستم های مدیریت دانش همسو با اهداف سازمان و با توجه به معماری سازمانی و معماری دانش، در این تحقیق مدلی شش لایه برای معماری سازمانی مبتنی بر دانش سازمانی پیشنهاد شده است. این معماری شامل لایه های فناوری، داده ، سامانه های اطلاعاتی، اطلاعات، دانش و قابلیت سازمانی، کسب و کار، می باشد. با توجه به اینکه جهت مدیریت دانش لایه های مختلف این چارچوب طرح و برنامه ریزی جامع نیازمند است در این تحقیق سعی شده است یک متدولوژی جامع جهت پیاده سازی طرح جامع مدیریت دانش ارایه شود. با توجه به اینکه تولید دانش بدون در نظر گرفتن فناوری، داده، اطلاعات ، سیستم های اطلاعاتی و همراستا نمودن هدف های دانشی با اهداف کسب و کار سازمان مثمر ثمر نمی باشد در برنامه ریزی انجام شده بایستی حتما ارتباط و تاثیر سایر لایه ها نیز مد نظر قرار گیرد. هدف از برنامه ریزی جامع مدیریت دانش مبتنی بر معماری سازمانی ، تدوین طرحی است که تمام ابعاد برنامه ریزی را از تدوین چشم انداز ها ، اهداف، راهبردها تا تبدیل آنها به برنامه های عملیاتی و راهکارها را با در نظر گرفت زیر ساخت های داده و اطلاعاتی، ساختار ،فرهنگ ،کارکنان، فرآیند های سازمانی و دانشی در وضع موجود و مطلوب را شامل شود.
سارا مسعودی محمد هادی صدرالدینی
از منظر زبان شناسی , سازه ای که ضمیمه ندارد و معنی به آن وابسته است و بین تمام کلمات خویشاوند وهم زمینه مشترک است , ریشه یا بن نامیده می شود. بر این اساس فرآیند ریشه یابی ,فرآیند تعیین کننده ریشه های بدست آمده از یک لغت است به عبارت دیگر , هدف از ریشه گیری کاهش فرم های لغتی متغیر جهت دست یابی به یک ریشه تک واژه ای می باشد.ریشه جزئی از کلمه است که پس از حذف تمام عناصر الحاقی یا وندهای کلمه « پسوند , پیشوند , میانوند» بر جای می ماند. یکی از مهمترین موضوعات در پردازش زبان طبیعی (nlp) و بازیابی اطلاعات (ir) یافتن ریشه کلمات است , علاوه بر آن به منظور افزایش کارایی سیستم های بازیابی اطلاعات استفاده از روش ریشه یابی کلمات مفید است زیرا اشتقاقات مختلف یک کلمه به ریشه آن کلمه باز می گردند. در نتیجه جستجو بر اساس ریشه کلمات انجام خواهد شد و اندازه ساختار ایندکس کاهش می یابد.
مسعود ابراهیمی فرشاد خون جوش
مدل برنامه نویسی نگاشت کاهش که توسط گوگل معرفی شده است یکی از موفق ترین تلاش ها در راستای اداره کردن تقاضای فزاینده برای پردازش داده های بزرگ مقیاس است. اگرچه مدل برنامه نویسی مذکور رایانش موازی در خوشه های رایانه ای را بسیار ساده، کارآمد و مقیاس پذیر نموده است اما بستر های رایانش توزیع شده در سالهای اخیر دستخوش تغییرات شگرفی شده اند. امروزه بسیاری از مراکز داده و خوشه های رایانه ای با مولفه های پردازشی نوینی چون پردازنده های چند هسته ای، به ویژه پردازنده های برداری به عنوان شتاب دهنده های محاسباتی تجهیز شده اند. متاسفانه چارچوب های پیاده سازی شده کنونی از مدل برنامه نویسی نگاشت کاهش ناتوان از مهار توان محاسباتی این گره ها در خوشه های رایانه ای هستند. در این پایان نامه به ارائه فلسفه ای جدید در طراحی چارچوب های نگاشت کاهش خواهیم پرداخت که با رایانش موازی سلسله مراتبی موجود در مراکز داده امروزی منطبق باشد. ما به معرفی معماری جدیدی با هدف استفاده کارآمد از انواع مختلف پردازنده های برداری در بستر های رایانش توزیع شده پرداخته ایم. آزمایش ها و ارزیابی ها نشان می دهند که پیاده سازی ارائه شده در این پایان نامه نه تنها با خصوصیات برنامه های مدل نگاشت کاهش انطباق دارد بلکه از لحاظ تسریع کار و افزایش توان عملیاتی نیز بهتر عمل می کند.
لیلی ازقندی محسن کاهانی
در این پایان نامه پس از مروری اجمالی بر تعاریف مربوط به داده کاوی و همچنین کاربردها و تکنیک های آن، به بررسی مطالعاتی که تاکنون در خصوص کفایت دیالیز و همچنین کاربرد داده کاوی در زمینه تأثیر عوامل مختلف بر کفایت دیالیز بیماران همودیالیزی در سطح ایران و جهان انجام شده بود پرداختیم. در فصل چهارم این پایان نامه پس از آماده سازی داده ها و به منظور فراهم آوردن امکان ارائه قوانین و تفاسیر قابل درک، از تکنیک خوشه بندی داده ها استفاده نموده و با استفاده از دو الگوریتم k-means و twostep داده های هر فاکتور را در خوشه های مختلف خوشه بندی نمودیم. در ادامه در همین فصل با بهره گیری از روش های مختلف کلاسه بندی داده ها از جمله c&r tree ، chaid ، c5.0 ، شبکه عصبی، شبکه بیزین و انتخاب ویژگی به شناسایی فاکتورهایی که بیشترین تأثیر را در میزان اثربخشی و کفایت دیالیز بیماران همودیالیزی دارند پرداخته و نتایج حاصل از هر یک از الگوریتم ها را ارائه نمودیم. در انتهای این فصل الگوریتم rotboost به عنوان یکی از الگوریتم های قدرتمند در زمینه کلاسه بندی معرفی شده و با اعمال تغییراتی در تابع طبقه بند این الگوریتم، مجموعه داده های تحقیق را با استفاده از این الگوریتم نیز کلاسه بندی نموده و فاکتورهایی که بیشترین نقش را در اثربخشی دیالیز ایفا می کنند پیش بینی شدند. در فصل پنجم از پایان نامه به بررسی میزان دقت هر یک از مدل های فصل قبل پرداخته و نتایج حاصل از این مدل ها را با یکدیگر مقایسه نمودیم. طبق نتایج این تحقیق سطح کلسترول بیمار همودیالیزی یکی از عواملی است که در پیش بینی میزان اثربخشی و کفایت دیالیز بیمار نقش مهمی داشته و کنترل سطح کلسترول بیمار می تواند موجب بهبود کفایت دیالیز بیمار گردد. همچنین با مقایسه مدل های مختلف بررسی شده در این تحقیق می توان فاکتورهای کلسترول، کلسیم و سدیم را به عنوان سه پارامتری که اهمیت بیشتری در پیش بینی کفایت دیالیز دارند معرفی نمود. نکته دیگری که در یافته های این تحقیق حائز اهمیت می باشد، دقت مناسب الگوریتم rotboost در مقایسه با سایر الگوریتم های کلاسه بندی مورد استفاده در این تحقیق می باشد که اگر از j48 به جای c5.0 به عنوان طبقه بند adaboost در این الگوریتم استفاده کنیم می توانیم دقت این الگوریتم را تا سطح قابل قبولی نسبت به سایر الگوریتم های کلاسه بندی افزایش دهیم.
سیدعلی میرسلیمانی فرشاد خون جوش
پردازنده های گرافیکی دارای معماری بسیار پیچیده ای می باشند. در نتیجه پیش بینی کارایی یک برنامه بر روی این گونه از پردازنده ها کاری دشوار است. روش های آماری ابزارهای مفید هستند که به معماران کامپیوتر کمک می کنند تا کارایی پردازنده های پیچیده را بررسی کنند. در این تحقیق، از این گونه روش ها به منظور ارائه ی یک مدل پیش بینی کارایی کارامد برای یک پردازنده ی گرافیکی دارای معماری فرمی استفاده شده است. پردازنده ی مورد نظر دارای یک فضای طراحی با حدود 8 میلیون نقطه است. همچنین به منظور تولید مدل یک الگوریتم جستجوی فضای طراحی ارائه شده است، که با بهره بردن از آن می توان یک مدل کارایی با کمترین میزان داده ی شبیه سازی شده تولید کرد. در این رویکرد، ابتدا از طراحی پلاکت و برمن برای یافتن مهم ترین پارامترهای تاثیر گذار بر کارایی پردازنده ی گرافیکی استفاده می شود. سپس با استفاده از یک طراحی فاکتوریل کسری برای پارامتر های انتخاب شده، شبیه سازی های بیشتری صورت می پذیرد. مدل تولید شده از روش فوق قادربه انجام پیش بینی با دقتی بین 1 تا 5 درصد است، که این میزان از دقت تنها با نمونه برداری از 0.0003 تا 0.0015 درصد از فضای طراحی پردازنده ی گرافیکی هدف به دست می آید.
رضا مصلح فسایی محمد هادی صدرالدینی
نوشتار کلمات فارسی به دلیل وجود حروف هم آوا پیچیده می باشد. افراد برای یادگیری املای کلمات باید با تمرین و ممارست آن را بیاموزند. نرم افزارهایی تحت عنوان غلط یاب جهت بررسی املای کلمات فارسی ارائه شده اند که با مقایسه نوشتار کلمات با دانش موجود در نرم افزار، صحت آنها را تشخیص می دهند. در این میان صحت برخی کلمات بر اساس متن مشخص می-شود (ممکن است کلمات از نظر املایی صحیح، ولی بر اساس متن جمله اشتباه باشند.). این کلمات توسط غلط یاب ها شناسایی نمی شوند و نیاز است که به طور مستقل مورد بررسی قرار گیرند. کلمات هم آوا شامل این دسته از کلمات می باشند. در این طرح هدف آن است که با بررسی نوشتار کلمات هم آوا در متون فارسی و محاسبه فرکانس تکرار ریشه کلماتی که در فواصل مختلف نسبت به کلمه ی هم آوا قرار گرفته اند، کلمات را امتیازدهی و برای تشخیص نوشتار کلمه ی هم آوا استفاده کنیم. در این طرح جهت بالابردن دقت الگوریتم، یک ریشه یاب مبتنی بر قواعد ساختواژی زبان فارسی ارائه شد که برای برخی کلمات تا 14.7 درصد بازده الگوریتم را نسبت ریشه یاب های موجود افزایش داد. تاثیر کلمات در همسایگی کلمه هم آوا برای برخی موارد تا 9 درصد محاسبه شد. تاثیر فاصله کلمات تا کلمه هم آوا در تشخیص نوشتار کلمه هم آوا 2 درصد محاسبه شد. نهایتا دقت روش ارائه شده به 93.1 درصد رسید.
مسلم ابراهیمی غلامحسین دستغیبی فرد
گرید نوعی سیستم نامتمرکز و موازی میباشد که امکان به اشتراک گذاشتن و انتخاب منابع ناهمگون و توزیع شده از نظر جغرافیایی را به صورت پویا فراهم مینماید. گرید دارای انواع مختلفی میباشد که یکی از آنها گرید داده میباشد که با دادهها و منابع ذخیره سازی سروکار دارد. در گرید داده برای کارایی و قابلیت اطمینان ، استفاده از پهنای باند و مقیاسپذیری، از تکنیکی به نام تکرار داده (replication) استفاده می شود، که در این تکنیک یک یا چند تکرار از دادهها در ماشینها و موقعیتهای جغرافیایی مختلف قرار داده می شود. تکرار داده دارای مزایای زیادی میباشد که از این مزایا میتوان به قابلیت اطمینان، در دسترس بودن، تحمل پذیری خطا، استفاده از پهنای باند و مهمتر از همه به کاهش زمان پاسخ دهی اشاره نمود. زمان بندی کارا و موثر در گرید از طریق تخصیص دادن کار به گرهی که بیشترین حجم فایل های درخواستی را دارد باعث کاهش حجم انتقال داده بین گره ها می گردد.در این پایان نامه دو الگوریتم برای تکرار داده و الگوریتمی نیز برای زما بندی ارائه شده است که الگوریتم های پیشنهادی با استفاده از شبیه ساز گرید داده، optorsim، که توسط پروژه گرید داده اروپا توسعه یافته است، پیاده سازی شده است. نتایج آزمایشات نشان داد که استراتژی های تکرار داده و زمان بندی پیشنهادی، بهتر از استراتژی های فعلی عمل می نماید.
رضا اکبری محمد هادی صدرالدینی
ترجمه ماشینی یکی از مهمترین شاخه¬های تحقیقاتی در زمینه پردازش زبان طبیعی می¬باشد. ترجمه ماشینی عبارت است از برگردان متنی از یک زبان به زبان دیگر توسط ماشین به طوری که مفهوم متن در زبان مبدأ بدون تغییر به زبان مقصد منتقل شود. یکی از سیستم¬های ترجمه ماشینی، سیستم مبتنی بر مثال می¬باشد. در این رویکرد برای ترجمه یک ترکیب از کلمات، به مجموعه متون ترجمه شده قبلی مراجعه می¬شود تا بجای ترجمه لفظ به لفظ و نامتعارف، یک ترجمه مشابه ترجمه انسانی بدست آید.در این رساله، ما یک مدل را در جهت اندازه¬گیری میزان شباهت دو جمله در ترجمه ماشینی مبتنی بر مثال ارائه کرده¬ایم. در مدل ارائه شده از الگوریتم ژنتیک و یک تابع برازندگی جدید که مبتنی بر بار معنایی منطبق شده بین دو جمله می¬باشد، استفاده گردیده است. ما فعل¬ها را به عنوان قلب یک جمله در نظر گرفته¬ایم چون بخش اساسی یک جمله بشمار می¬آیند و مقادیر زیادی از بار معنایی جمله را حمل می¬کنند. بنابراین ما در تابع برازندگی ارائه شده توجه بیشتر خود را بر روی افعال جمله قرار داده¬ایم.نتایج حاصل از معیارهای اندازه¬گیری precision و recall نوید ¬دهنده آن است که متد ارائه شده، کیفیت جملات منطبق شده بازیافتی را بهبود بخشیده¬ است.
محمدصادق دشتی مصطفی فخراحمد
امروزه شاهد توجهی روزافزون به مقوله پردازش زبان طبیعی و زمینه های مرتبط به آن، به خصوص پردازش زبان طبیعی آماری هستیم. با توجه به ماهیت و اهمیت این حوزه مدل های متعددی در جهت پاسخگویی به نیازهای کاربران ارایه شده است. تصحیح غلطها یکی از وظایف اصلی و اولیه در حوزه ی پردازش زبان طبیعی آماری میباشد. روش ارایه شده در این پایان نامه به امر تشخیص و تصحیح خودکار خطاهای معنایی و املایی موجود در متون انگلیسی میپردازد. مدل حاضر، روش جدیدی را جهت تشخیص غلطهای معنایی معرفی مینماید. این مدل با استفاده از پایگاه دانش wordnet، مجموعه زوجهای از پیش تعریف شده و استفاده از اطلاعات هم شکل شناسی، اقدام به بازیابی اطلاعات معنایی با شیوه ای جدید مینماید. پس از آن یک مدل زبانی تغییر یافته ی انحصاری که بر پایه ی مدلهای پیشین توسعه یافته است، جهت برآورد اطلاعات احتمالی معرفی می گردد. در نهایت با استفاده از مدل زبانی ابداعی اقدام به محاسبه احتمالات جهت انتخاب مناسبترین کلمه، جهت جایگزینی با کلمه ی اشتباه مینماید. نتایج آزمایش نشان دهنده ی دقت قابل توجه مدل حاضر در مقایسه با مدل های مشابه می باشد.
محمد طاهری منصور ذوالقدری جهرمی
در این پایان نامه، روشی نوین برای تنظیم پارامتر در سیستم های طبقه بندی مبتنی بر مدل های بهینه سازی ارائه شده است. بسیاری از توابع معروف ارائه شده در این زمینه، توابعی مبتنی بر نتیجه طبقه بندی سیستم بر روی نمونه های آموزشی هستند. این توابع کاملاً گسسته و پله ای هستند و اندازه بردار گرادیان آن ها در تمام نقاط پیوستگی صفر است. عمده ترین روش های بهینه سازی، بر اساس بردار گرادیان عمل می کنند و قابل اعمال بر روی این گونه توابع پله ای نیستند. به همین دلیل، عمدتاً این توابع را با روش های متفاوت توسط توابع مشابه و تحلیل پذیر تخمین می زنند که از معایبی از جمله جابه جایی نقطه بهینه، تعمیم پذیر نبودن به توابع مشابه و متعدد بودن (درنتیجه وابسته بودن به) پیاده سازی ها برخوردارند. روش پیشنهادی در این پایان نامه بدون نیاز به تخمین توابع اصلی، با استخراج نقاط گسستگی در راستای بردارهای جهت پایه و حتی غیر پایه، قابلیت تنظیم پارامترهای سیستم و بهینه سازی توابع اصلی را فراهم می کند. در انتهای این پایان نامه، به بررسی برخی از مدل های جدید پرداخته می شود که برای اولین بار در این تحقیق و مقالات مرتبط با آن منتشر می شود. این مدل ها عبارتند از وزن دهی به ویژگی ها در طبقه بندی نزدیک ترین همسایه، وزن دهی به قوانین فازی در راستای بردارهای غیرپایه و آموزش الگوهای طبقه بندی در k نزدیک ترین همسایه. نتایج تجربی، نشان دهنده بهبود معنادار سیستم طبقه بندی بعد از تنظیم پارامترها توسط روش پیشنهادی این پایان نامه نسبت به باقی روش های مرتبط است.
نوید یمینی اشکان سامی
یکی از عواملی که برای کیفیت نرم افزار در نظر گرفته می شود، پایین بودن میزان خطاهای آن بعد از ارائه به مشتری است. روش های قدیمی بازبینی کد، تنها شصت درصد خطاها را پیدا می کنند. در این مطالعه، رویکردی بر اساس داده کاوی برای پیش بینی خطا بر اساس معیارهای توسعه دهندگان ارائه شده است. در این تحقیق هشت معیار جدید برای توسعه دهندگان تعریف کرده ایم. معیارهای مورد نیاز را از شش نسخه از نرم افزار اکلیپس و از دو منبع جدا استخراج کردیم. اثبات کرده ایم که شش مورد از معیارهای ما تاثیر گذار هستند. مدل های جدید و بهتری با معیارهای خود برای پیش بینی خطا ارائه کرده ایم و پنج قانون جدید را از داده ها استخراج کرده ایم.
علیرضا تابع بردبار محمد هادی صدرالدینی
امروزه پیکره های زبانی یکی از حیاتی ترین نیازها در زمینه ترجمه ماشینی می باشد. ساختار یک پیکره زبانی به این صورت است که از دو بخش تشکیل شده است. یک سمت آن را جملات زبان مبداء (در این پایان نامه زبان فارسی) و سمت دیگر آن را جملات زبان مقصد (در این پایان نامه زبان انگلیسی) تشکیل می دهد. به منظور تشکیل این پیکره زبانی ما از پایگاه دانش ویکی پدیا استفاده می کنیم. سپس یک شیوه مبتنی بر بازیابی اطلاعات که بر اساس برچسب گروه و لینک کار می کند به منظور دسته بندی مقالات مشابه استفاده می کنیم. پس از آنکه مقالات مشابه را دسته بندی کردیم، به وسیله یک سری خصیصه که در بر گیرنده ویژگی های مانند شباهت ترجمه و میزان شباهت از جهت ترازبندی می باشند برای امتیاز دهی جملات استفاده می کنیم. به منظور دادن وزن بهینه به هر یک از این خصیصه ها از یک مدل خطی استفاده کرده ایم.
مهسا حضرتی فرد سید مصطفی فخراحمد
به جرأت می توان ادعا کرد که عصر حاضر، عصر انفجار اطلاعات است و شاید بتوان زبان را بعنوان مهمترین سد و مانع در انتقال اطلاعات دانست. بنابراین ضرورت بکارگیری ماشین در پردازش و ترجمه ی متون تبدیل به نیازی غیر قابل انکار شده است. اما مشکلاتی که برسر راه مترجم های ماشینی وجود دارد مانع شده تا این مهم از کیفیت و دقت کافی برخوردار باشد. لذا تحقیق در مورد این مشکلات و بیان راهکارهای احتمالی جهت حل آن ها در خور اهمیت خواهد بود. یکی از تأثیرگذارترین مسائل در دقت و کیفیت ترجمه ی ماشینی، رفع ابهام معنایی است که دقت در آن باعث بالا رفتن دقت کل عمل ترجمه می گردد. منظور از رفع ابهام معنایی انتخاب معنای مناسب کلمه با توجه به متن، برای کلماتی است که دارای چندین معنای متفاوت هستند. لذا در این پژوهش سعی شده است تا به بررسی روش های مختلف و ایده های متفاوت ارائه شده توسط سایرین در زمینه ی ابهام زدایی پرداخته و با ارائه ی شیوه ای متفاوت در این راستا قدمی برداریم. روش ارائه شده در این پایان نامه، روشی مبتنی بر دیدگاه دانش محور است که با بهره گیری از اطلاعات تکمیلی پیرامون کلمه ی مبهم در متن و ارائه ی یک روش امتیازدهی، به رفع ابهام می پردازد. به این منظور از یک طرف با بکارگیری وردنت و منابع دیگری که به نوعی مکمل وردنت هستند، فهرستی از کلمات مرتبط با کلمه ی مبهم تهیه کرده و از طرف دیگر کلمات همراه با کلمه ی مبهم در متن را از پیکره ی مورد نظر استخراج می کنیم. سپس با استفاده از یک رابطه ی امتیازدهی، معنایی که دارای بیشترین امتیاز است و مرتبط تر به نظر می رسد را انتخاب می کنیم. در نهایت، دقت روش ارائه شده را بررسی کرده و نتایج را با دقت سایر روش ها مقایسه می کنیم.
راضیه میدانشاهی محمد هادی صدرالدینی
داده کاوی پیش گویانه یک ابزار ضروری برای محققان و پزشکان بالینی تلقی می شود. درک مسائل مهم نهفته در این متدها و برنامه های کاربردی که مورد توافق قرار گرفته و استاندارد شده اند برای گسترش روند آن ها اجباری و منتشرکننده نتایج حاصل است. امروزه پزشکان با بهره گیری از فناوری های نوین اطلاعاتی می توانند از داده کاوی پیش گویانه بهره گرفته و در مسائل روزانه خود با هدف تسریع و کاهش هزینه های خدمات درمانی آن را مورد استفاده قرار دهند. بخش علوم آزمایشگاهی نیر از این مساله مستثنی نبوده و در سراسر دنیا پیوند علوم پزشکی و فناوری اطلاعات توانسته است پیشرفت شگرفی در این زمینه داشته و به موفقیت های چشم گیری نائل آید. در این تحقیق با بهره گیری از این پیشرفت ها گامی نوین در استفاده از متدهای داده کاوی در حوزه پزشکی برداشته شده و بذل توجه خود را به قسمتی معطوف کرده که کمتر مورد توجه محققان قرار گرفته است. کشف و استخراج دانش از داده های پزشکی مربوط به گروه های هورمون شناسی، خون شناسی، ایمنی و شیمی بالینی حوزه ای است که می تواند نتایج نوینی در اختیار متخصصان علوم آزمایشگاهی و پزشکان پاتولوژی قرار دهد. لذا نتایج حاصل از این پژوهش را می توان در زمینه بهبود، تسریع خدمات و کاهش هزینه های درمانی بکار برد.
حمید توزنده جانی فرشاد خون جوش
مطالعه امکان طراحی یک سیستم هوشمند پیش بینی و هشدار سیلاب در محدوده رودخانه و سد استقلال میناب خواهد بود
مصطفی خوشحال محمد هادی صدرالدینی
برچسب گذاری اجزای واژگانی فرآیند انتساب دادن اجزای کلام یا واحد زبانی مناسب (فعل , اسم...) به هر کلمه در یک جمله زبان طبیعی می باشد. برچسب گذاری یک بخش مهم در پردازش زبان طبیعی می باشد و برای بسیاری از کاربرد های پردازش زبان سودمند است. برچسب گذاری اغلب اولین مرحله در پردازش زبان می باشد که پس از آن پردازش های دیگر از جمله بررسی کلمات انجام می شود. در این تز ما با استفاده از روش داده کاوی سعی داریم تا با بهبود در دقت برچسب گذاری کلمات ناشناخته، دقت کلی سیستم های خودکار برچسب گذار را بهببود بخشیم.
الهام پرنیان محمد هادی صدرالدینی
چکیده ندارد.
سمیه لطفی محمد هادی صدرالدینی
در این پایان نامه کشف قوانین وابستگی بر روی داده های کمی مورد بررسی قرارگرفته و یک الگوریتم جدید برای بهبود کارایی مسئله کشف قوانین وابستگی کمی ارائه شده است. معیار سنجش کارایی، تولید قوانین با اطمینان بالا در زمان اجرای کمتر می باشد. برای نشان دادن تاثیر استفاده از تکنیک جدید، یکی از جدیدترین الگوریتم هایی که با استفاده از تئوری فازی در زمینه کشف قوانین کمی ارائه شده است را مبنای مقایسات قرار داده ایم. هر دو الگوریتم را پیاده سازی و با استفاده از مجموعه داده کمی تست کرده ایم. ارزیابی های انجام گرفته نشان دهنده برتری الگوریتم جدید از نظر زمان اجرا البته با تولید قوانین وابستگی یکسان، می باشند
سارا انصاری محمد هادی صدرالدینی
. برخلاف پایگاه داده ایستا، جریان کاوی با مسائل زیادی مواجه است. ویژگی تک مروره، نیاز به حافظه نامحدود و نرخ بالای ورود داده ها از جمله این مسائل هستند. شناسایی و بررسی تکنیک های موجود به همراه ساختارهای داده ای به کار رفته در آنها برای طراحی و توسعه یک روش کارآمد که قادر به پردازش جریان های داده ای سریع باشد، ضروری است. الگوریتم های موجود بر اساس مدل پردازش داده ای به سه دسته پنجره های نشانه، پنجره های کشویی و مدل کاهشی تقسیم می شوند. این تکنیک ها بر اساس نتایج خروجی به روش های تقریبی و دقیق دسته بندی می شود. بهترین الگوریتم ارائه شده در این زمینه الگوریتم اف.آی.دی.اس است. ما روش جدیدی بر اساس آن به نام اس.اف.آی.دی.اس برای یافتن اقلام و مجموعه اقلام تکرار شونده در جریان های داده ای پیشنهاد داده ایم. در الگوریتم پیشنهادی از یک ساختار داده ای متفاوت با روش قبلی استفاده شده است. در روش قبلی از ساختار داده ای گراف برای نگهداری مجموعه اقلام تکرار شونده استفاده شده بود که دارای فضای جستجوی بزرگی است ولی در روش جدید ساختار داده ای درخت به کار رفته که دارای فضای جستجوی کمتری است که باعث کاهش زمان اجرا و میزان حافظه می شود، علاوه بر این در روش پیشنهادی محدودیت پردازنده درنظر گرفته شده است، با افزایش نرخ ورود داده که منجر به افزایش بار سیستم می شود الگوریتم به طور خودکار این وضعیت را کشف و مقداری از بار اضافی را حذف می کند. با استفاده از یک تکنیک آماری تضمین می شود که میزان خطای نتایج نهایی محدود به مقدار خطایی است که از قبل توسط کاربر تعیین شده است. در این پایان نامه کارایی الگوریتم جدید به همراه چند الگوریتم دیگر از لحاظ زمان اجرا و میزان حافظه با انجام تعدادی آزمایش مورد بررسی قرار گرفته است. ارزیابی های صورت گرفته نشان دهنده برتری الگوریتم جدید از لحاظ زمان اجرا و حافظه مصرفی است.
مهدی نامدارزادگان محمد هادی صدرالدینی
در این تحقیق ضمن بررسی مدلهای موجود ارزیابی آمادگی الکترونیکی، ابتدا با توجه به شرایط بنگاههای کوچک و متوسط(smes) حوزه صنعت و معدن استان بوشهر، مدلی شامل دو بعد "ارتباطات" و "مدیریت و منابع انسانی" توسعه داده شد. در این مدل بعد ارتباطات دارای مراحل شروع، حضور بهنگام، مبادله و تحول است و بعد مدیریت و منابع انسانی دارای مراحل اقدامات اولیه، برنامه ریزی ، محقق شدن، نهادینه شدن وبهینه سازی است. بر مبنای این دو بعد مدل، در فضای سه بعدی، آمادگی الکترونیکی بنگاه در یکی از سطوح " آماده سازی درجه 3، آماده سازی درجه 2، توسعه درجه 2، توسعه درجه 1، مدیریت درجه 2، مدیریت درجه 1، کاملا خودکار درجه 2 و کاملا خودکار درجه1" قرار می گیرد. سپس از طریق پرسشنامه اطلاعات مورد نیاز مدل برای ارزیابی آمادگی الکترونیکی بنگاهها، از 20 بنگاه نمونه توسط خود محقق جمع آوری شد. نتایج این تحقیق نشان می دهد که امتیاز آمادگی الکترونیکی بنگاهها در بعد ارتباطات مدل 18/0 از 1و در بعد مدیریت و منابع انسانی 25/0 از 1 می باشد که براساس مدل تحقیق، آمادگی الکترونیکی بنگاهها در سطح آماده سازی درجه 2 و آماده ورود به مرحله توسعه درجه 2 می باشد. به منظور کمک به افزایش میزان آمادگی الکترونیکی بنگاهها در بعد ارتباطات، "پرتال نمونه آزمایشی صنعت و معدن استان بوشهر" توسط محقق طراحی و توسعه داده شده است که پیوستن هریک از بنگاهها به آن با توجه به شاخصهای بعد ارتباطات مدل(تعداد خط تلفن، تعداد کامپیوترهای وصل به اینترنت، شبکه داخلی و...) می تواند باعث افزایش امتیاز بنگاه در این بعد و در مجموع باعث افزایش آمادگی الکترونیکی بنگاهها شود.
احمد رضا موذن جهرمی فرد منصور ذوالقدری جهرمی
هدف سیستمهای تشخیص نفوذ جلو گیری از دسترسی غیر مجاز کار بران به سایتهای کامپیوتری می باشد.با افزایش بنگا ههای تجارت الکترونیکی ، مسئله حفا ظت از این سا یتها به یک مانع اساسی در راه توسعه این سیستمها تبدیل شده است .مسئله مهم در این رابطه این است که به مرور زمان روشهای جدیدی برای حمله به سایتهای کامپیوتری طراحی می شوند.در سالهای اخیر از هوش مصنوعی جهت ارتقاء کارایی سیستمهای تشخیص نفوذ استفاده گردیده است.در این پایان نامه ،از سیستمهای دسته بندی فازی جهت معرفی یک سیستم تشخیص نفوذ جدید استفاده شده است .مزیت عمده سیستم پیشنهادی این است که عمل تشخیص مهاجم به کمک مجموعه ای از قوانین فازی انجام می شود که بر ای انسان قابل فهم می باشد. کــارائی الگــــوریتم پیشنهادی با انجام یک سری آزمایش بــر روی مجموعــه داده kdd99محاسبه و با چندین روش دیگرکه در تحقیقات گذشته پیشنهاد شده مقایسه گردیده است.