استخراج اطلاعات از پیکره زبانی: معرفی پیکرۀ مقاله‎های علمی‎‎پژوهشی دانشگاه فردوسی مشهد

Authors

  • هانیه حبیبی دانش آموخته مهندسی کامپیوتر و دانشجوی کارشناسی ارشد زبانشناسی دانشگاه فردوسی مشهد
Abstract:

هدف: پردازش زبان طبیعی، استفاده در فرهنگ‌نگاری، پیگیری تحولات زبانی و استخراج اطلاعات زبانی خاص از مهم‌ترین کاربردهای پیکره است. هدف از انجام این پژوهش معرفی و توصیف چگونگی ساخت پیکرۀ مقاله‌های علمی‎پژوهشی است که نگارندگان پدید آورده‌اند. روش: برای ایجاد پیکره، نخست نرم‌افزار پیکره‌ساز طراحی و ساخته شد. این نرم‌افزار انواع فرمت از جمله doc،docx ،rtf ،txt  و pdf را پشتیبانی می‌کند. همچنین می‌توان پارامترهای ساخت پیکره را از قبل نیز برای آن تعیین کرد. برای مثال، مشخص کرد که حداقل تعداد توکن فایل برای حضور یک متن در پیکره چه عددی باشد. سپس مجموعه مقاله‌های علمی‌پژوهشی اعضای هیئت‎علمی دانشگاه فردوسی مشهد جمع‌آوری شد. مجموع مقاله‌های مشتمل بر 7.154.202 کلمه و 1100 عنوان است. کلّ پیکره در فایل‌های مجزا به جمله‌های تشکیل‌دهنده آن تجزیه شد. ریشۀ کلمات استخراج و برچسب نحوی کلمات زده شد. علاوه ‌بر امکان استخراج اطلاعات به‌طور مستقیم، نرم‌افزار جانبی دیگری با کاربرد ساده‌تر  برای استخراج اطلاعات آماری نیز طراحی و به آن افزوه شد تا کاربران غیرتخصصی هم بتوانند از آن استفاده و اطلاعات را استخراج کنند. یافته: برای ارزیابی درستیِ  ابزارهای ریشه‌یاب و برچسب‌زنی مقوله‌های گفتار، از پیکره‌های استاندارد موجود مانند پیکره PerDT  (در سایت دادگان) که شامل تعداد قابل‌توجهی جملۀ برچسب‎خورده با اطلاعات نحوی و ساخت‎واژی است استفاده شد. همچنین با مطالعه موردی عبارات احتیاط‌آمیز (بخشی از طرح پژوهشی که به چاپ نرسیده است) یافته‌ این پژوهش که ساخت پیکرۀ مقاله‌های علمی‌پژوهشی است آزمایش و با دقت حدود96% تأیید شد. نتیجه: بر اساس نتایج  به‎دست‎آمده، پیکرۀ ساخته‎شده قابلیت بسیار بالایی برای داده‌کاوی و استفاده در تمام پژوهش‌هایی که بر روی متون علمی انجام می‌شود را دارا است. با استفاده از این پیکره می‌توان توصیفی داده‎محور از نحوۀ کاربرد زبان توسط گروه‌های مختلف کاربران زبانی ارائه کرد. با بارگذاری این پیکره در سایت کتابخانه مرکزی دانشگاه فردوسی مشهد، امکان کاربری عام آن به‎زودی فراهم خواهد شد.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

معرفی و آزمون مدل مفهومی پذیرش فنّاوری اطلاعات و خدمات اینترنتی در بین دانشجویان دانشگاه (مورد مطالعه: دانشگاه فردوسی مشهد)

مطالعه حاضر با توسعه مدل پذیرش فنّاوری و لحاظ کردن متغیرهای دیگر، سعی در ارائه مدلی ارتقاءیافته و دربرگیرنده ابعاد گسترده تر تأثیر گذار بر این فرایند، داشته است. مدل ارائه شده با مطالعه توصیفی- همبستگی و بررسی نظرات یک نمونه 263 نفری از دانشجویان دانشگاه فردوسی مشهد، تأثیر مؤلفه های معرفی شده را بر پذیرش فنّاوری اطلاعات از سوی این دانشجویان مورد سنجش قرار داد. به منظور آزمون فرضیه ها، از روش های ...

full text

د‌ه سال پژوهش در دانشگاه فردوسی مشهد

در این مقاله 424 طرح تحقیقاتی اجرا شده توسط اعضای هیئت علمی دانشگاه فردوسی مشهد به لحاظ طرح تحقیق شماره 1و2 بودن، در سالهای 1370 تا 1380 مورد بررسی قرار گرفته‌اند. این تحقیقات با توجه به دانشکده و گروه مجری و با احتساب تعداد تحقیقاتی که اعضای هیئت علمی انجام داده‌اند با دیدی کم‍ّی مورد توجه قرار گرفته‌اند. فهرستی از اطّلاعات مربوط به طرحهای کاربردی دانشگاه...

full text

مطالعة وضعیت تولید اطلاعات علمی اعضای هیئت علمی دانشگاه فردوسی مشهد

این پژوهش با استفاده از روش پیمایشی انجام شده و هدف اصلی آن تعیین وضعیت کم‍ّی تولید اطلاعات علمی در دانشگاه فردوسی مشهد است. برای آزمون فرضیه‌ها از آزمون یومان ویتنی، ضریب همبستگی پیرسون و اسپیرمن، آزمون کروسکال- والیس و نشانه ویلکاکسون استفاده شد و نتایج زیر به دست آمد: 1) بین تولیدات علمی- پژوهشی...

full text

ارائه و آزمون مدل همسویی سیاست‌های امنیت اطلاعات بازاریابی با برنامه سیستم‌های اطلاعات استراتژیک (مورد مطالعه: دانشگاه فردوسی مشهد)

همسویی سیاست­های امنیت اطلاعات بازاریابی با برنامه سیستم­های اطلاعات استراتژیک به­منظور حداکثر بهره­برداری از دارایی­های اطلاعاتی، توجه متخصصان این حوزه را به خود اختصاص داده است. از اینرو هدف پژوهش حاضر، دستیابی به مدلی است که ابعاد و مؤلفه­های همسویی سیاست­های امنیت اطلاعات بازاریابی با برنامه سیستم­های اطلاعات استراتژیک را تبیین کند. در این راستا ابتدا ابعاد و مؤلفه­های همسویی با استفاده از ...

full text

ارزیابی کیفیت وب‎سایت کتابخانه مرکزی دانشگاه فردوسی مشهد از دید دانشجویان این دانشگاه

  هدف پژوهش: هدف از این پژوهش ارزیابی کیفیت (جذابیت و قابلیت استفاده) وب‎سایت کتابخانه‎ مرکزی دانشگاه فردوسی مشهد به عنوان یکی از دانشگاه ‌های برتر کشور بود. روش شناسی: پژوهش حاضر پیمایشی و از نوع کاربردی است، جامعه آماری این پژوهش شامل دانشجویان دانشگاه فردوسی مشهد است. با توجه به جامعه آماری دانشجویان دانشگاه فردوسی مشهد، تعداد 380...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 21  issue شماره 2(پیاپی 82)

pages  3- 25

publication date 2018-07-23

By following a journal you will be notified via email when a new issue of this journal is published.

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023