مجتبی بنایی

نام پژوهشگر: مجتبی بنایی

استخراج کلمات کلیدی برای داده های بزرگ به صورت مستقل از زبان

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - دانشکده برق و کامپیوتر 1393
بهاره هاشم زاده مجید عبدالرزاق نژاد

می دانیم که تجارت الکترونیک در سه شاخه، تجارت الکترونیکی کالا، خدمات و اطلاعات توسعه یافته است. از طرفی بحث اطلاعات، بازیابی و مدیریت آن از منظر اقتصادی، اجتماعی، سیاسی و امنیتی اهمیت بسیار زیادی برای کشورهای مختلف و کمپانی های بزرگ حوزه اطلاعات و فن آوری اطلاعات دارند. بنابراین حوزه تحقیقاتی متن کاوی و بازیابی اطلاعات و بطور ویژه پیاده سازی آنها بر روی پایگاه داده های بزرگ از اهمیت بسیار ویژه یی برخوردار می باشد. اولین گام در این حوزه، شناسایی و استخراج کلمات کلیدی از متون می باشد. یکی از چالشهای عمده بر سر راه این امر، وجود زبانهای بسیار متنوع برای اطلاعات متنی و وابستگی روشهای موجود استخراج کلمات کلیدی به نوع زبان و ساختار گرامی آن زبان خاص می باشد. لذا هدف این پژوهش، طراحی الگوریتمی مستقل از زبان به منظور استخراج کلمات کلید برای پیاده سازی روی پایگاه داده های بزرگ می باشد. از این رو با تمرکز روی خاصیت تکرار کلمات کلیدی در هر متن و تشدید آن در سایر متون به سمت بهبود و اصلاح الگوریتم tf-idf رفته و الگوریتم پیشنهادی را بر روی معماری linq2sql پایگاه داده بزرگ پیاده سازی نموده ایم. عملکرد الگوریتم پیشنهادی نیز توسط معیار نرخ دقت تشخیص مورد ارزیابی قرار گرفته است. اگرچه کارهای مشابه در این زمینه بر روی داده های بزرگ و مستقل از زبان وجود نداشته ولی مقایسه عملکرد با کارهای نزدیک در حوزه استخراج کلمات کلیدی وابسته به زبان، حکایت از عملکرد قابل قبول الگوریتم پیشنهادی را دارد.