خوشه بندی اسناد متنی الکترونیکی بر اساس دانش پس زمینه و وزن دهی ابعاد و مفاهیم

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه شیخ بهایی - دانشکده مهندسی
  • نویسنده محمد زنجانی
  • استاد راهنما احمد براآنی دستجردی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1390
چکیده

خوشه بندی یا دسته بندی بدون نظارت با سازمان دهی پیکره های بزرگ متنی، نقش کلیدی در پیمایش و مرور آسان انبوهی از متون دارد. نقش این سازمان دهی در موتورهای جستجو برای ارائه خوشه های معنادار مرتبط با پرس و جو، جهت پیشگیری از سردرگمی کاربر در حجم عظیمی از اسناد بازیابی شده بیشتر نمایان می شود. علاوه بر مشکلاتی نظیر تعداد ابعاد بسیار زیاد و تحلیل خوشه ای، متاسفانه دیدگاه متعارف خوشه بندی های افرازی و سلسله مراتبی، به متن، همانند کیسه ای از کلمات است که در نتیجه در مقایسه ها فقط شباهت های ظاهری اسناد مورد توجه قرار می گیرد. در این نوع دیدگاه، کلمات یا تِرم ها کاملا ناهمبسته اند و به روابط کلمات (مثل هم معنایی و شمول) توجهی نمی شود. همچنین تلاشی برای رفع ابهام از کلمات چند معنایی صورت نمی گیرد. عدم توجه به این گونه مسائل غالبا منجر به خوشه بندی با کیفیت پایین و یا غیرمعنایی می شود. در این تحقیق، زبان فارسی با توجه به اهمیت آن به عنوان یکی از زبان های زنده دنیا و رشد روزافزون متون الکترونیکی به زبان نوشتاری فارسی، مورد توجه قرار گرفته است. ایده اصلی یافتن توصیف های مناسب برای دانش پس زمینه و غنی سازی متن فارسی با استفاده از آن جهت افزایش کیفیت خوشه بندی است. برای نیل به این مقصود از منبع دانش خارجی با نام واژ-هستان شناسی فارس نت استفاده شده است. با کمک فارس نت عملیات رفع ابهام از دسته های معنایی کلمه صورت پذیرفته، روابط هم معنایی و شمول مربوط به معنای کلمه رفع ابهام شده، وارد بردار کلمات متن می شود. همچنین برای خوشه بندی متنی بر رهیافت نمایش مبتنی بر اجزاء یا فاکتورگیری نامنفی ماتریس ترم-متن تاکید شده است. نتایج ارزیابی های صورت گرفته بر روی پیکره استاندارد متنی همشهری، نشان از بهبود کیفیت خوشه بندی متون فارسی غنی شده (بخصوص با رابطه شمول) در مقایسه با خوشه بندی خام دارد. همچنین تاثیر این روابط در بهبود کیفیت خوشه بندی و نیز توضیح خوشه ای بر پایه فاکتورگیری نامنفی ماتریس بیشتر از خوشه بندی bisecting kmeans بوده است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

خوشه ‏بندی مفاهیم و رویدادهای نوپدید سازماندهی دانش

هدف: هدف از انجام این پژوهش، بررسی و مصورسازی ساختار فکری حوزه سازمان‌دهی دانش در وبگاه علم در بازه زمانی 1900-2018 و خوشه‏‌بندی مفاهیم و رویدادهای نوپدید این قلمرو موضوعی است. روش‌‏شناسی: پژوهش حاضر از نوع کاربردی است و به روش هم‌‏واژگانی با رویکرد تحلیلی انجام شده است. به‌ منظور انجام تحلیل هم‌واژگانی، از خوشه‌بندی سلسله‌مراتبی و مقیاس چندبُعدی استفاده ش...

متن کامل

خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی

خوشه بندی، روش داده کاوی قدرتمندی است که جهت کشف موضوع از اسناد متنی مورد استفاده قرار می-گیرد. در این زمینه الگوریتم های خانواده k-means به دلیل سادگی و سرعت بالا، در خوشه بندی داده هایی با ابعاد بالا، کاربرد فراوانی دارند. در این الگوریتم ها، معیار شباهت cosine، تنها شباهت میان زوج اسناد را اندازه گیری می کند که در مواقعی که خوشه ها به خوبی تفکیک نشده باشند، عملکرد مناسبی ندارد. درمقابل، مفاه...

15 صفحه اول

مقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure

کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...

متن کامل

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...

متن کامل

خوشه بندی مشتریان بر اساس سبک خرید و بررسی ارتباط آن با ابعاد نوجویی ذاتی و ابعاد شخصیتی نئو

تحقیق حاضر با هدف بررسی رابطة بین سبک‏های تصمیم‏گیری خرید، ابعاد نوجویی ذاتی، و ابعاد شخصیتی مصرف‏کننده انجام یافته است. در گام نخست مصرف‏کنندگان، بر اساس مشابهت در سبک خرید، در سه خوشه دسته‏بندی شدند. سپس، به تحلیل رفتار خوشه‏ها بر اساس سبک تصمیم‏گیری، ابعاد نوجویی ذاتی، و ابعاد شخصیتی نئو پرداخته شد. نتایج تحلیل نشان داد که بین سه خوشة شناسایی شده در ابعاد نوجویی ذاتی و سه بُعد شخصیتی نئو (روا...

متن کامل

بهبود عملکرد الگوریتم خوشه بندی فازی سی- مینز با وزن دهی اتوماتیک و محلی ویژگی ها

خوشه بندی یکی از راه کارهای مهم در تحلیل داده هاست. در راه کارهای کلاسیکِ خوشه بندی معمولاً فرض بر این است که همه ویژگی ها از درجه اهمیت یکسانی برخوردارند. این در حالی است که در مجموعه داده های واقعی یک سری از ویژگی ها اهمیت بیش تری نسبت به دیگر ویژگی ها دارند. در نتیجه ویژگی های مهم تأثیر بیش تری در شناسایی خوشه های بهینه نسبت به سایر ویژگی ها خواهند داشت. در این مقاله، یک الگوریتم خوشه بندی فاز...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شیخ بهایی - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023