Cara Kerja Word Embedding FastText | Catatan Penelitian #9
FastText merupakan open source library, ringan dan gratis untuk mempelajari representasi kata dan pengklasifikasi kata. FastText dapat berjalan pada perangkat keras pada umumnya.
FastText merupakan open source library, ringan dan gratis untuk mempelajari representasi kata dan pengklasifikasi kata. FastText dapat berjalan pada perangkat keras pada umumnya.
Salah satu teknik pembuatan pre-trained word embedding adalah dengan menggunakan GloVe. Sebelumnya juga sudah saya jelaskan bagaimana prinsip kerja GloVe. Ekperimen pembuatan GloVe kali ini juga dengan memanfaatkan data korpus Wikipedia Bahasa Indonesia.
GloVe termasuk metode unsupervised learning saat melakukan proses pembelajaran representasi kata dari kemunculan kata dalam corpus yang diberikan. Unsupervised learning merupakan metode yang tidak menggunakan data latih sehingga data berasal dari data yang ada dengan mengklasifikasikan menjadi beberapa bagian.
Model deep learning tidak dapat langsung melakukan pemrosesan data dalam bentuk teks. Oleh karena itu data perlu diolah ke dalam bentuk integer (berupa matriks ataupun vektor), proses ini bisa disebut word embedding.
Word2vec dikembangkan oleh Thomas Mikolov, merupakan implementasi jaringan syaraf tiruan yang dapat mengolah kata-kata dari dataset yang sangat besar dengan waktu yang relatif singkat dan nilai akurasi yang lebih baik dibandingkan dengan metode yang pernah ada sebelumnya.
Dataset yang telah diperoleh melalui proses scrapping halaman website menggunakan library Python Beautifulsoup4 masih berupa data asli/mentah sehingga memerlukan pengolahan ke dalam format sebagaimana mestinya.
© 2020 Rifqifai.com. Developed by Rifqi Fauzi Rahmadzani