NER (Named-entity recognition) Pada Relasi Artikel Dengan Python
Di tulisan Nadia kali ini, aku mau nge posting gimana sih cara menggunakan NER pada relasi antar artikel dengan python. Postingan ini juga sekaligus buat di pake di tugas besar mata kuliah Topik Khusus (hidup tubes! 😀)
Sebelumnya aku mau ngasih tau kalian dulu tentang apa sih itu NER?
NER --> Named-Entity Recognition (juga dikenal sebagai entitas identifikasi, chunking entitas dan entitas ekstraksi) adalah subtugas ekstraksi informasi yang berusaha untuk mencari dan mengelompokkan bernama entitas dalam teks ke dalam kategori yang ditetapkan seperti nama-nama orang, organisasi, lokasi, ekspresi kali, jumlah, nilai-nilai moneter, persentase, dll.
Nah di tubes nadia kali ini kita bakal melakukan relasi antar artikel dengan memakai konsep NER dengan tujuan untuk mendapatkan infomasi relasi keterhubungan dari artikel seperti nama orang dan organisasi. Kemudian dari hasil relasi antar artikel tersebut dapat menampilkan graph keterhubungan antara orang-orang pada artikel yang berbeda, dengan bahasa pemrograman python.
Tools yang digunakan antara lain:
- Notepad
- Python 2.7.13 : https://www.python.org/downloads/
- Anaconda https://www.continuum.io/downloads
Library yang digunakan antara lain:
- NLTK Library
- Matplotlib.pyplot Library
- RE Library
- OS Library
Step by step:
1. Install
2. Relasi Artikel
Siapkan minimal 10 artikel dalam bahasa Inggris hal ini untuk memudahkan python mendeteksi nama atau organisasi yang ada di dalam artikel tersebut karena jika menggunakan artikel berbahasa Indonesia, python akan kesulitan mendeteksi nama atau organisasi yang berasal dari Indonesia.
- pilih artikelnya
- kemudian paste kan ke editor (notepad), lalu hapus semua kutip (" " & atau ' ')
- Lalu save data artikel tersebut ke dalam 1 folder yang nanti folder tersebut untuk menampung semua data artikel dalam format .txt (disini aku simpan di folder TOPSUS)
- Buka file detik_ie.py, kemudian ketikan pemanggilan
artikel mulai baris ke 5,
seperti pada gambar di bawah ini:
- Setelah itu buka file information_extraction.py lalu mulai dari baris ke 5 diganti dengan
hasil copy dari file detik_ie.py seperti pada screenshot di bawah ini;
- Berikut merupakan hasil run dari sepuluh artikel yang di jalankan:
3. Membuat Graph
- Buka file learn_networkx.py , kemudian isikan nama-nama hasil yang di jalankan mulai dari artikel 1 s/d 10 pada baris 22 dan 34 seperti pada screenshot di bawah.
- Setelah selesai pada langkah di atas, lalu jalankan learn_networkx.py pada Command Prompt dan berikut hasilnya
Komentar
Posting Komentar