Probabilistic Latent Semantic Analysis (PLSA) untuk Klasifikasi Dokumen Teks Berbahasa Indonesia
نویسنده
چکیده
Abstrak Salah satu pekerjaan yang ada di dalam mengelola dokumen adalah bagaimana menemukan intisari dari dokumen. Topic modeling merupakan teknik yang dikembangkan untuk menghasilkan representasi dokumen berupa kata-kata kunci dari dokumen. Kata-kata kunci tersebut yang akan digunakan dalam proses pengindeksan serta pencarian dokumen untuk ditemukan kembali sesuai kebutuhan pengguna. Pada penelitian ini, akan dibahas secara spesifik mengenai Probabilistic Latent Semantic Analysis (PLSA). Pembahasan akan meliputi mekanisme bagaimana PLSA yang juga melibatkan algoritma Expectation Maximization (EM) sebagai pelatihan diterapkan pada sekumpulan data korpus, serta bagaimana melakukan uji coba dan memperoleh akurasi hasil penggunaan PLSA. Keyword: topic modelling, Probabilistic Latent Semantic Analysis, Expectation Maximization
منابع مشابه
Klasifikasi Komponen Argumen Secara Otomatis pada Dokumen Teks berbentuk Esai Argumentatif
Abstrak Dengan pengenalan argumen secara otomatis dari dokumen teks, penulis esai dapat melakukan inspeksi pada teks yang mereka tulis. Hal ini akan membantu penilaian esai secara lebih objektif dan tepat karena penilai esai akan melihat seberapa baik komponen argumentasi terbentuk. Beberapa peneliti mencoba untuk melakukan pendeteksian dan klasifikasi argumen serta penerapannya pada berbagai d...
متن کاملAutomatic Essay Grading With Probabilistic Latent Semantic Analysis
Probabilistic Latent Semantic Analysis (PLSA) is an information retrieval technique proposed to improve the problems found in Latent Semantic Analysis (LSA). We have applied both LSA and PLSA in our system for grading essays written in Finnish, called Automatic Essay Assessor (AEA). We report the results comparing PLSA and LSA with three essay sets from various subjects. The methods were found ...
متن کاملLearning spoken document similarity and recommendation using supervised probabilistic latent semantic analysis
This paper presents a model-based approach to spoken document similarity called Supervised Probabilistic Latent Semantic Analysis (PLSA). The method differs from traditional spoken document similarity techniques in that it allows similarity to be learned rather than approximated. The ability to learn similarity is desirable in applications such as Internet video recommendation, in which complex...
متن کاملCorrelated PLSA for Image Clustering
Probabilistic Latent Semantic Analysis (PLSA) has become a popular topic model for image clustering. However, the traditional PLSA method considers each image (document) independently, which would often be conflict with the real occasion. In this paper, we presents an improved PLSA model, named Correlated Probabilistic Latent Semantic Analysis (C-PLSA). Different from PLSA, the topics of the gi...
متن کاملA Tutorial on Probabilistic Latent Semantic Analysis
Historically, many believe that these three papers [7, 8, 9] established the techniques of Probabilistic Latent Semantic Analysis or PLSA for short. However, there also exists one variant of the model in [11] and indeed all these models were originally discussed in an earlier technical report [10]. In [2], the authors extended MLE-style estimation of PLSA to MAP-style estimations. A hierarchica...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- CoRR
دوره abs/1512.00576 شماره
صفحات -
تاریخ انتشار 2015