نام پژوهشگر: مصطفی فخراحمد
علی دهقانی محمدی رضا جاویدان
هدف از استخراج خودکار عبارات کلیدی، انتخاب مجموعه ای از کلمات موجود در متن است که میتوانند موضوع اصلی متن مورد نظر را بیان کنند. استخراج خودکار عبارات کلیدی می تواند به یک کاربر کمک کند تا در میان تعداد زیادی از اسناد متنی کاوش کند، در حالی که کمترین زمان ممکن را سپری می کند. این فعالیت همچنین برای موتورهای جستجو و در وب معنایی به عنوان تولید متادیتا برای صفحات متنی مورد استفاده می باشد. در دهه اخیر، فعالیت های زیادی در زمینه استخراج خودکار عبارات کلیدی صورت گرفته است. کارهای ارائه شده را می توان از جنبه های مختلفی با هم مقایسه کرد، در اینجا بمنظور تشریح هدف این تحقیق، کارها را به دو دسته تقسیم می کنیم. دسته اول روشهایی هستند که برای شناسایی عبارات کلیدی موجود در یک متن به مجموعه ای از اسناد مرتبط با سند مورد پردازش نیاز دارند تا بتوانند با اطلاعاتی که از کل مجموعه اسناد بدست می آورند، عبارات کلیدی متن مورد نظر را شناسایی کنند. این وابستگی به مجموعه اسناد و دامنه ای خاص، دارای دو ایراد می باشد: اول اینکه، دسترسی به مجموعه ای از اسناد مرتبط با سند مورد پردازش در همه جا مقدور نیست. دوم اینکه، از آنجا که تمام اسناد موجود در یک مجموعه باید پردازش شوند، زمان زیادی طول می کشد تا عبارات کلیدی یک متن شناسایی شوند. دسته دوم از سیستمهای ارائه شده سیستمهایی هستند که با استفاده از خود سند اقدام به شناسایی و استخراج عبارات کلیدی می کنند. این سیستمها و روشها را اصطلاحا مستقل از مجموعه اسناد و مستقل از دامنه می نامند. تعداد کارهای ارائه شده در دسته دوم به مراتب کمتر از دسته اول می باشد. روش ارائه شده در این رساله نیز جزء روشهای مستقل از مجموعه اسناد و دامنه میباشد.مشکلی که روشهای دسته دوم با آن روبرو هستند کمبود اطلاعات موجود می باشد. این روشها عمدتاً با روشهای آماری مثل فراوانی کلمات و تعداد همرخدادی کلمات با همدیگر و یا بازنمایی متن به صورت گراف سعی در شناسایی کلمات مهم موجود در متن دارند. به دلیل کمبود اطلاعات، عملکرد سیستمهایی که تنها با استفاده از سند تکی عبارات کلیدی را شناسایی می کنند پایین تر از سیستمهای مبتنی بر مجموعه اسناد می باشد. در این رساله برای جبران کمبود اطلاعات از هستان شناسی وردنت استفاده شده است و سیستم در حالی که روی تک سند بکارگرفته می شود، کارایی قابل قبولی دارد. وردنت یک پایگاه لغت می باشد که در آن رابطه های مختلفی بین اسامی مثل تعمیم به خوبی بازنمایی شده است. بکارگیری وردنت هیچ محدودیتی را برای سیستم ایجاد نمیکند و تنها زمان پردازش را نسبت به حالتی که فقط از داده های آماری استفاده می شود، افزایش می دهد و در مقابل دقت و کارایی سیستم را افزایش می دهد. در این رساله برای بدست آوردن اطلاعات بیشتر از متن، از تشابه بین اسامی استفاده شده است و بمنظور محاسبه میزان تشابه بین دو اسم فرمولی ارائه شده است که فرمولی اقتباسی از محاسبه فاصله در گراف می باشد. برای آموزش ماشین از یک ویژگی آماری و دو ویژگی مبتنی بر وردنت استفاده شده است.
آراد بصیری رضا بوستانی
از آنجا که در دهه های اخیر، استفاده از اینترنت در سطحی گسترده فراگیر شده است، اطلاعات موجود در وب به صورت نمایی رو به افزایش است. این مسئله مشکل سرریز اطلاعات را به وجود آورده تا جایی که فرایند انتخاب و تصمیم گیری کاربران در میان حجم عظیم اطلاعات ، کالا و خدمات به راحتی امکان پذیر نیست و موجب سردرگمی کاربران می شود، همچنین گسترش روز افزون دانش و تکنولوژی در طول این سال ها، موجب به وجود آمدن کسب و کارهای الکترونیکی متنوعی در فضای مجازی شده است، با وجود رقابت میان سایت های مختلف در ارائه خدمات و محصولاتشان به مشتریان، شرکت ها برای بقا در محیط پویای بازارهای رقابتی امروز، به دنبال راهی برای دستیابی به مشتریان جدید و همچنین حفظ و نگهداری مشتریان قبلی خود هستند، روشهای سنتی بازیابی اطلاعات بدون در نظر گرفتن علائق کاربران قادر به حل این مشکلات نیستند. سیستم های توصیه گر برای کمک به انواع کاربران در دنیای وب، ظهور کردند. در این رساله، تلاش می شود تا با مروری بر سیستم های توصیه گر و مزایا و چالش های موجود، به بررسی روش های مختلف ترکیب دو تکنیک مشهور content-based و collaborative filtering پرداخته و با بهره گیری از شبکه عصبی و داده های معتبر وب سایت movielens روش نوینی برای تلفیق این دو تکنیک ارائه شود تا منجر به بهبود دقت پیشنهادات گردد.
سمیرا رسولیان مشهدی رئوف خیامی
شکی نیست که امروزه با توجه به افزایش حجم، تنوع و سرعت عملیات، دسترسی به اطلاعات درست و دقیق نیاز حیاتی هر سازمان محسوب می گردد. جهت مرتفع سازی این نیاز معماری سازمانی مورد قبول همگان قرار گرفته است که با توسعه یکپارچه و هماهنگ سیستم های اطلاعاتی مورد نیاز سازمان نقش مهمی در تعامل-پذیری و پیشگیری از بروز افزونگی اطلاعات میان زیر سیستم های اطلاعاتی ایفا می کند. در این راستا فرآیندهای کسسب و کار به عنوان یکی از اصلی ترین اجزاء و نتایج معماری سازمانی مورد توجه مدیران امروزی قرار گرفته و و بهبود و بهینه سازی آنها از جمله پروژه های با اولویت سازمان ها به حساب می آید. خودکارسازی فرآیندهای کسب و کار یکی از راهکارهای مهم در امر بهینه سازی فرآیندها می باشد که جدا از روش و سیستم پیاده سازی آن، بحث اولویت بندی خودکارسازی فرآیندها، به منظور صرفه جویی در زمان و هزینه سازمان موضوع بسیار مهمی درنظر گرفته می شود. هدف این تحقیق ارائه روشی برای شناسایی فرآیندهای کسب و کار و اولویت بندی آنها به منظور خودکارسازی در پروژه های معماری سازمانی، در جهت دستیابی به حداکثر کارایی و بهره وری می باشد. بدین شکل در ابتدا تعاریف و مفاهیم مرتبط با مبحث معماری سازمانی، فرآیندهای کسب و کار و خودکارسازی آنها، سیستم های مدیریت فرآیندهای کسب و کار به عنوان مهمترین ابزارهای خودکارسازی، مورد بررسی قرار گرفت. سپس با مطالعه و تحلیل چندین متد ارائه شده در زمینه های مشابه و بیان نقلط ضعف آنها و همچنین معرفی مفاهیم مدیریتی، مدل ها و فنون علمی قابل استفاده در این تحقیق، به ارائه روش پیشنهادی مورد نظر پرداخته شد. سپس با توجه به اهمیت امکان عملی و کاربردی بودن روش فوق الذکر، راهکار ارائه شده در یک پروژه عملی نیز مورد استفاده قرار گرفت و نقاط قوت این روش از جمله جامعیت، سادگی و قابلیت کاربرد، نسبت به سایر روش ها هم در تئوری و هم در عمل مشخص گردید.
مهدی روان گرد حسن فتح آبادی
هدایت (ناوبری) ربات متحرک به نحوه انتقال ربات از یک نقطه آغاز به نقطه هدف اطلاق می گردد. روش های بسیاری برای این کار استفاده شده است. یکی از مباحث مطرح در این زمینه بحث رباتیک مبتنی بر رفتار است که از رفتارهای موجودات زنده الگوبرداری کرده است. استفاده از روش های فازی نیز در این زمینه مرسوم است. مباحث فازی مدلی ریاضیاتی از عبارات زبانی معمول در زبان گفتاری ارائه می کنند. در مطالب ارائه شده با استفاده از مباحث عنوان شده و نیز بحث ماشین های braitenberg الگوریتمی ارائه شده است که به کمک آن هدایت ربات در کوتاه ترین مسیر ممکن و با دوری از موانع ثابت و متحرک صورت می پذیرد. آزمایش های انجام شده در محیط نرم افزاری webots و بر روی ربات khepera iii انجام گرفته است.
علیرضا حسینی اشکان سامی
آنالیز رفتاری با هدف شناسایی رفتارهای یک برنامه مشکوک از طریق بررسی فعالیت های سیستم فایل ، رجیستری و فعالیت های تحت شبکه انجام می گردد. سامانه های موجود و قابل دسترس از قببل anubis, cuckoo sandbox, joe sandbox از راهکار هوکینگ بدین منظور استفاده می نمایند. مشکل اصلی این سامانه ها عدم شناسایی رفتارهای پردازش های افزایشی است. ماشین پیشنهادی در این پایان نامه، در یک محیط شبیه سازی شده فایل موردنظر را اجرا می نماید و با استفاده از «ردیابی رخدادها در ویندوز» سعی در شناسایی رفتار مخفی فایل در حال اجرا می نماید. همچنین ماشین توانایی استفاده در بستر محاسبات ابری در قالب سکو بعنوان سرویس و زیرساخت بعنوان سرویس را دارا باشد و برخلاف سامانه های کنونی آنالیز خودکار رفتاری کاربر بتواند با محیط نرم افزار تحت آنالیز همکنش داشته باشد. همچنین با توجه به نبود یک بانک اطلاعاتی از نمونه بدافزارهای پردازش افزایشی باقابلیت مخفی سازی رفتار، در این پایان نامه 10 نمونه فایل اجرایی طراحی و ارزیابی آن ها در سامانه های انجام شده است. نتایج نشان می دهند که سامانه پیشنهادی نسبت به بهترین سامانه موجود، توانایی بالاتری در شناسایی رفتارهای مخفی (تشخیص 9 نمونه از 10 نمونه) دارد.
رضا اکبری محمد هادی صدرالدینی
ترجمه ماشینی یکی از مهمترین شاخه¬های تحقیقاتی در زمینه پردازش زبان طبیعی می¬باشد. ترجمه ماشینی عبارت است از برگردان متنی از یک زبان به زبان دیگر توسط ماشین به طوری که مفهوم متن در زبان مبدأ بدون تغییر به زبان مقصد منتقل شود. یکی از سیستم¬های ترجمه ماشینی، سیستم مبتنی بر مثال می¬باشد. در این رویکرد برای ترجمه یک ترکیب از کلمات، به مجموعه متون ترجمه شده قبلی مراجعه می¬شود تا بجای ترجمه لفظ به لفظ و نامتعارف، یک ترجمه مشابه ترجمه انسانی بدست آید.در این رساله، ما یک مدل را در جهت اندازه¬گیری میزان شباهت دو جمله در ترجمه ماشینی مبتنی بر مثال ارائه کرده¬ایم. در مدل ارائه شده از الگوریتم ژنتیک و یک تابع برازندگی جدید که مبتنی بر بار معنایی منطبق شده بین دو جمله می¬باشد، استفاده گردیده است. ما فعل¬ها را به عنوان قلب یک جمله در نظر گرفته¬ایم چون بخش اساسی یک جمله بشمار می¬آیند و مقادیر زیادی از بار معنایی جمله را حمل می¬کنند. بنابراین ما در تابع برازندگی ارائه شده توجه بیشتر خود را بر روی افعال جمله قرار داده¬ایم.نتایج حاصل از معیارهای اندازه¬گیری precision و recall نوید ¬دهنده آن است که متد ارائه شده، کیفیت جملات منطبق شده بازیافتی را بهبود بخشیده¬ است.
محمدصادق دشتی مصطفی فخراحمد
امروزه شاهد توجهی روزافزون به مقوله پردازش زبان طبیعی و زمینه های مرتبط به آن، به خصوص پردازش زبان طبیعی آماری هستیم. با توجه به ماهیت و اهمیت این حوزه مدل های متعددی در جهت پاسخگویی به نیازهای کاربران ارایه شده است. تصحیح غلطها یکی از وظایف اصلی و اولیه در حوزه ی پردازش زبان طبیعی آماری میباشد. روش ارایه شده در این پایان نامه به امر تشخیص و تصحیح خودکار خطاهای معنایی و املایی موجود در متون انگلیسی میپردازد. مدل حاضر، روش جدیدی را جهت تشخیص غلطهای معنایی معرفی مینماید. این مدل با استفاده از پایگاه دانش wordnet، مجموعه زوجهای از پیش تعریف شده و استفاده از اطلاعات هم شکل شناسی، اقدام به بازیابی اطلاعات معنایی با شیوه ای جدید مینماید. پس از آن یک مدل زبانی تغییر یافته ی انحصاری که بر پایه ی مدلهای پیشین توسعه یافته است، جهت برآورد اطلاعات احتمالی معرفی می گردد. در نهایت با استفاده از مدل زبانی ابداعی اقدام به محاسبه احتمالات جهت انتخاب مناسبترین کلمه، جهت جایگزینی با کلمه ی اشتباه مینماید. نتایج آزمایش نشان دهنده ی دقت قابل توجه مدل حاضر در مقایسه با مدل های مشابه می باشد.
مجید محمدی شریف آبادی مصطفی فخراحمد
در این تحقیق به بررسی ارائه یک چارچوب مناسب جهت بهنگام سازی قواعد استخراج شده از تحلیل پوششی داده با استفاده از روشهای یادگیر می پردازیم. داده های موجود در هر مجموعه داده معمولاً به روز می شوند و در نتیجه آن، قواعد جدیدی از آن ها استخراج می گردد. مو-چن چن برای اولین بار deaرا برای رتبه بندی قواعد پیوندی استخراج شده در داده کاوی استفاده کرد. وی همچنین برای تمایز میان قواعد بهینه از روش تمایز اوباتا و ایشی استفاده کرد. از طرف دیگر الگوریتم های dea و تمایز اوباتا و ایشی پیچیده می باشند . در نتیجه بهنگام سازی امتیازهای قواعد نیازمند محاسبات زمانبر است. در این تحقیق با استفاده از روش های یادگیر و dea علی الخصوص شبکه های عصبی مصنوعی روشی معرفی می شود تا بتوان بدون نیاز به انجام محاسبات ریاضی، قواعد جدید را رتبه بندی کرد. برای این منظور، امتیاز ترجیحی کلیه قواعد با استفاده از روش مو-چن چن محاسبه و به عنوان داده های یادگیری به شبکه عصبی داده شد. پس از به روزشدن داده ها و استخراج قواعد جدید، قواعد به شبکه عصبی داده شدند تا امتیازشان بدست آید. این تحقیق نشان می دهد که شبکه های عصبی می توانند جایگزین خوبی برای محاسبات پیچیده تحلیل پوششی داده ها وقاعده تمایز اوباتا و ایشی باشند.
آرمان ابراهیم پور اشکان سامی
پس از ایجاد هر تغییر در کد نرم افزار، آزمون رگرسیون برروی نرم افزار تغییر یافته اجرا می شود تا بخش های دیگر کد که تحت تاثیر اثرات جانبی این تغییرات قرار گرفته اند شناسایی گردند. به دلیل محدودیت در زمان و منابع، از تکنیک های اولویت بندی موارد آزمون استفاده می شود تا موارد آزمون بر حسب تواناییشان در شناسایی خطاها رتبه بندی شوند. به طور کلی، تکنیک های اولویت بندی موارد آزمون به دو دسته تکنیک های مبتنی بر شباهت و تکنیک های مبتنی بر پوشش تقسیم می شوند. تکنیک های اولویت بندی پویای مبتنی بر شباهت تلاش می کنند تا به موارد آزمون با عملکرد متفاوت تر، اولویت بالاتری داده شود و برای این منظور از معیارهای فاصله، برای محاسبه فاصله میان اطلاعات پوششی موارد آزمون استفاده می کنند. با وجود اهمیت بسیار زیاد نحوه محاسبه اختلاف میان موارد آزمون در این دسته از تکنیک ها، تاکنون تنها به استفاده از معیار دودویی جاکارد بسنده شده است. از سوی دیگر، تکنیک های اولویت بندی مبتنی بر پوشش، از اطلاعات پوشش موارد آزمون بر روی کد، به صورت دودویی استفاده می کنند. این در حالی است که به نظر می رسد استفاده از اطلاعات فراوانی پوشش می تواند برای اولویت بندی کارامدتر موارد آزمون، بسیار سودمند باشد. در این پژوهش برای اولین بار، اطلاعات پوششی به شکل فراوانی استخراج شده است. این تحقیق، در دسته تکنیک های مبتنی بر شباهت، علاوه بر پیشنهاد یک معیار فاصله جدید، برای اولین بار کارایی 19 معیار فاصله مختلف در تکنیک های اولویت بندی مبتنی بر شباهت را مورد ارزیابی قرار داده است. نتایج آزمایش ها بر روی 12 برنامه استاندارد نشان می دهند که برخلاف باور قبلی، معیار جاکارد کارایی بسیار پایین تری نسبت به سایر معیارهای فاصله مورد بررسی دارد. همچنین استخراج اطلاعات فراوانی پوشش و استفاده از آن ها در معیارهای فاصله عددی برای محاسبه فاصله میان موارد آزمون، کارایی تکنیک های اولویت بندی مبتنی بر شباهت را به طور قابل توجهی بهبود می بخشند. از سوی دیگر، برای اثبات اثربخشی اطلاعات فراوانی پوشش بر قابلیت کشف خطای تکنیک های اولویت بندی مبتنی بر پوشش، تکنیک مطرح افزایشی به عنوان نماینده این دسته از تکنیک ها برگزیده شده و چندین نسخه تعمیم یافته جدید برای این تکنیک پیشنهاد داده شده است. روش های ارائه شده بر روی 12 برنامه استاندارد اجرا شده اند. نتایج حاصل بر روی برنامه های با سایز کوچک، بیانگر برتری آماری معنادار روش های ارائه شده نسبت به نسخه سنتی تکنیک افزایشی می باشند. هرچند نتایج حاصل بر روی برنامه های بزرگ، تفاوت آماری معناداری را میان نتایج روش های جدید و روش سنتی نشان نمی دهند.
علی گل کار شهرام جعفری
در زبان طبیعی به علت وجود معانی مختلف برای کلمات و ناتوانی در تشخیص معنی صحیح کلمات، کماکان ابهام زدایی مفهومی کلمات به عنوان یک مسئله باز در پردازش زبان طبیعی و آنتولوژی ها مطرح است. در این پایانامه با بررسی نقش کلیدی برخی از اسم ها در فرایند ابهام زدایی، تلاش شده تا رابطه ی معنایی میان این اسامی کلیدی و اسم مبهم بررسی شده و سپس با توجه به نوع ارتباطشان و میزان ارتباط معنایی شان، به اسم های غیر مبهم وزن اعطا گردد. به این ترتیب بر خلاف قبل که متد چگالی مفهومی از تمامی اسامی غیر مبهم درون جمله، به یک اندازه در فرایند ابهام زدایی بهره میگرفت، این بار با توجه به نقش اسامی غیر مبهم و رابطه شان با اسم مبهم، از آنها در فرایند ابهام زدایی بهره گرفته می شود. متد ارائه شده در این پایانامه نیز همانند چگالی مفهومی تمرکزش بر روی بیشترین اسم های پوشش داده شده در ساختار سلسله مراتبی wordnet می باشد با این تفاوت که به اسامی غیر مبهم که فرآیند ابهام زدایی بر اساس آنها انجام می پذیرد بر اساس سه پارامتر متفاوت، وزن اعطا می گردد تا بدینوسیله اسم هایی که ارتباط مفهمومی بیشتری با اسم مبهم دارند در فرآیند ابهام زدایی تأثیر بیشتری داشته باشند. نتایج بررسی های صورت گرفته با بهره گیری از این سه پارامتر اعطای وزن، چه به صورت مجزا و چه به صورت ترکیبی، نشان از افزایش دقت ابهام زدایی به میزان قابل قبولی را دارد.
محمد محسن مودت امید بوشهریان
ایجاد سرویس های مرکب با امکانات و ویژگی هایی ارتقاء یافته، یک مفهوم کلیدی در معماری سرویس گرا (soa) به حساب می آید که با ترکیب و سازماندهی چند سرویس ساده و یا مرکب محقق میشود. در یک سرویس مرکب با خواص تراکنشی، شکست هر سرویس مستقل، ممکن است هزینه هایی جهت انصراف، جبران و یا بازگشت به عقب را بر دیگر سرویس های وابسته به سرویس شکست خورده تحمیل نماید. کاهش میانگین این هزینه ها در یک ترکیب می تواند با اعمال الگوهای تحمل خطا (ftps) و در نتیجه کاهش احتمال شکست برخی سرویس های مشارکت کننده در ترکیب، به دست آید. بر اساس ویژگی های هر فعالیت در جریان کار تعریف شده در ترکیب، الگو های تحمل خطای متنوعی، با تاثیر های متفاوت بر مواردی مثل تعداد فعالیت های موفق انجام شده، هزینه های مالی و زمان اجرای ترکیب قابل اعمال هستند. در این تحقیق، مسئله انتخاب الگوهای تحمل خطا برای یک ترکیب تراکنشی از سرویس های وب، به عنوان یک مسئله بهینه سازی سازمان یافته و مورد بررسی قرار گرفته است. همچنین در این تحقیق جهت یافتن نگاشتی بهینه از الگوهای تحمل خطا و فعالیت های متناظر، یک الگوریتم ژنتیک چند هدفه nsga-ii ارائه شده که تحقق چهار هدف مستقل را دنبال می نماید: 1) کاهش میانگین هزینه بازگشت به عقب (mrc)، 2) افزایش میانگین تعداد فعالیت های انجام شده در ترکیب (mttc)، 3) کاهش هزینه های مالی اجرای ترکیب و 4) کاهش میانگین زمان اجرای ترکیب. در نهایت کارایی روش ارائه شده با اعمال روش بهینه سازی پیشنهادی روی چندین ترکیب متفاوت بررسی و نتایج مورد ارزیابی قرار گرفته است.
محمد محمدی خواه اشکان سامی
امروزه از چالش های حوزه امنیت رایانه ای، وجود آسیب پذیری در سورس کد نرم افزار است. آنالیز ایستا امکان بررسی تمام مسیرهای اجرایی برنامه را فراهم می آورد. از معایب آنالیز ایستا، مثبت کاذب و منفی کاذب بالا می باشد. زبان برنامه نویسی c به دلیل اجرای سریع دستورات و مصرف پایین منابع، در تولید نرم افزارهای صنعتی-نظامی استفاده می گردد. گرچه اولین نمونه های بررسی ایستا در سال 1980 ابداع شده اند اما هنوز شناسایی برخی از آسیب پذیری های چالش بر انگیز است. در این پژوهش، راهکار آنالیز ایستا برای پنج آسیب پذیری مهم زبان برنامه نویسی c طراحی و پیاده سازی شده است. معماری پیشنهادی مبتنی بر جریان داده، جریان کنترل و ارتباط آن ها برای افزایش دقت و کارایی می باشد. راهکار ارائه شده توسط 5,446 محک استاندارد با چند ابزار متن باز و تجاری مقایسه شده است. نتایج محک، دلالت بر پایین بودن مثبت کاذب و منفی کاذب معماری پیشنهادی دارد. علاوه بر این روش های ارائه شده براحتی می تواند برای برخی آسیب پذیری های مشابه مورد استفاده قرار گیرد.
اشکان سیروس مصطفی فخراحمد
در این پروژه، تمام تلاش بر این بوده است تا با استفاده از روش های خودکار و به وسیله داده هایی که از چت های گذشته یک شرکت isp جمع آوری شده برای پیاده سازی یک روبات هوشمند جهت پاسخگویی نیاز پشتیبانی همان شرکت استفاده شود. بر این اساس، ابتدا پیش پردازشی کوتاه روی داده ها انجام شده، سپس با استفاده از روش مشباهت کسینوسی اقدام به یافتن شبیه ترین جمله از بین جملات کرده ایم. و سپس با استفاده از خوشه بندی و تگ گذاری سعی در بهبود نتایج شده است.
مصطفی خوشحال محمد هادی صدرالدینی
برچسب گذاری اجزای واژگانی فرآیند انتساب دادن اجزای کلام یا واحد زبانی مناسب (فعل , اسم...) به هر کلمه در یک جمله زبان طبیعی می باشد. برچسب گذاری یک بخش مهم در پردازش زبان طبیعی می باشد و برای بسیاری از کاربرد های پردازش زبان سودمند است. برچسب گذاری اغلب اولین مرحله در پردازش زبان می باشد که پس از آن پردازش های دیگر از جمله بررسی کلمات انجام می شود. در این تز ما با استفاده از روش داده کاوی سعی داریم تا با بهبود در دقت برچسب گذاری کلمات ناشناخته، دقت کلی سیستم های خودکار برچسب گذار را بهببود بخشیم.