یک مدل موضوعی احتمالاتی مبتنی بر روابط محلّی واژگان در پنجره‌های هم‌پوشان

Authors

Abstract:

A probabilistic topic model assumes that documents are generated through a process involving topics and then tries to reverse this process, given the documents and extract topics. A topic is usually assumed to be a distribution over words. LDA is one of the first and most popular topic models introduced so far. In the document generation process assumed by LDA, each document is a distribution over topics and each word in the document is sampled from a chosen topic of that distribution. It assumes that a document is a bag of words and ignores the order of the words. Probabilistic topic models such as LDA which extract the topics based on documents-level word co-occurrences are not equipped to benefit from local word relationships. This problem is addressed by combining topics and n-grams, in models like Bigram Topic Model (BTM). BTM modifies the document generation process slightly by assuming that there are several different distributions of words for each topic, each of which correspond to a vocabulary word. Each word in a document is sampled from one of the distributions of its selected topic. The distribution is determined by its previous word. So BTM relies on exact word orders to extract local word relationships and thus is challenged by sparseness. Another way to solve the problem is to break each document into smaller parts for example paragraphs and use LDA on these parts to extract more local word relationships in these small parts. Again, we will be faced with sparseness and it is well-known that LDA does not work well on small documents. In this paper, a new probabilistic topic model is introduced which assumes a document is a set of overlapping windows but does not break the document into those parts and assumes the whole document as a single distribution over topics. Each window corresponds to a fixed number of words in the document. In the assumed generation process, we walk through windows and decide on the topic of their corresponding words. Topics are extracted based on words co-occurrences in the overlapping windows and the overlapping windows affect the process of document generation because; the topic of a word is considered in all the other windows overlapping on the word. On the other words, the proposed model encodes local word relationships without relying on exact word order or breaking the document into smaller parts. The model, however, takes the word order into account implicitly by assuming the windows are overlapped. The topics are still considered as distributions over words. The proposed model is evaluated based on its ability to extract coherent topics and its clustering performance on the 20 newsgroups dataset. The results show that the proposed model extracts more coherent topics and outperforms LDA and BTM in the application of document clustering.  

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

رفع ابهام معنایی واژگان مبهم فارسی با مدل موضوعی LDA

Word sense disambiguation is the task of identifying the correct sense for the word in a given context among a finite set of possible sense. In this paper a model for farsi word sense disambiguation is presented. The model use two group of features: first, all word and stop words around target word and topic models as second features. We extract topics from a farsi corpus with Latent Dirichlet ...

full text

رفع ابهام معنایی واژگان مبهم فارسی با مدل موضوعی lda

ابهام زدایی از واژگان مبهم و دارای معانی متعدد موضوع مهمی در حوزه ی پردازش زبان های طبیعی می باشد. در این مقاله، مدلی برای رفع ابهام از واژگان مبهم فارسی بر اساس استخراج ویژگی های جدید پیشنهاد شده است. برای ایجاد این مدل دو دسته ویژگی واژگان و نشانه های همراه واژه مبهم و ویژگی هایی که با بکار بردن روش های مدل سازی موضوع بدست می آید، استفاده شده است. یک مدل موضوعی، مدلی آماری برای استخراج چکیده ...

full text

ارائه یک مدل استخراج ویژگی مخلوط احتمالاتی مبتنی بر روش تحلیل همبستگی های پایه دو بعدی

از زمان ساخت اولین رایانه ها، همواره تلاش متخصصان این حوزه بر این موضوع معطوف بوده است که چگونه می توان با استفاده از الگوریتم های مختلف، کارایی رایانه ها را در پردازش حجم وسیع داده ها افزایش داد به گونه ای که با صرف زمان و منابع کمتر، بتوان داده ها را با دقت مناسبی پردازش کرد. با افزایش روز افزون حجم داده ها و نیز حجم نویز موجود در آن ها، متخصصان به این نتیجه رسیدند که لازم است داده ها نیز برا...

15 صفحه اول

مکان یابی دوربین ها در یک سامانه چند دوربینه ی همپوشان، مبتنی بر شیء خطی

کالیبراسیون دوربین¬های یک سیستم¬های بینایی ماشین اولین قدم در پیاده¬سازی آنها است. در این پایان¬نامه یک روش کالیبراسیون دو مرحله¬ای بر مبنای یک الگوریتم بهینه¬سازی نوآورانه ارائه خواهد شد. در مرحله اول (کالیبراسیون ایستا)، با استفاده از یک شی ایستای چهار نقطه¬ای، موقعیت اولیه دوربین¬های سیستم¬ تخمین¬زده می¬شود. این عملیات با استفاده از الگوریتم¬های کلاسیک انجام خواهد شد. در ادامه نیز نشان داده ...

پربسامد ترین روابط مفهومی میان واژگان

این تحقیق به بررسی روابط مفهومی میان واژگان زبان می پردازد. روابط مفهومی انواع روابطی را تشکیل می دهند که در نظام معنایی زبان میان واژگانی یافت می شوند که چه بسا در ابتدا مستقل از هم به نظر برسند اما در عمل و در حقیقت ارتباط تنگاتنگی میان آن هاوجود دارد. در مورد تعداد این روابط و گستردگی آن ها تحقیقات قابل توجهی انجام شده است. در این تحقیق، سعی شده است تا با کمک آزمون روانشناختی تداعی معنایی به...

full text

روابط متداخل واژگان ادبیات جاهلی و قرآنی

زبان عربی که در دروة جاهلی از فصاحت و بلاغت و غنای معنایی در الفاظ یا واژگان، به رشد چشمگیری نائل شده بود، آمادة پذیرایی وحی الهی در این زبان گردید. از طرف دیگر قرآن (کلام الهی)، دارای معانی بلند و حقایق علمی بی‌پایان، در قالب الفاظ عربی می‌بایست طوری تجلی می‌نمود، تا بتواند پیام وحی را آن‌طور که هست به مخاطبانش برساند، با توجه به نزول وحی، مراتب علمی قرآن که دارای لایه‌های متعدد معنایی است در...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 15  issue 4

pages  57- 70

publication date 2019-03

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

No Keywords

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023