NER (Named-entity recognition) Pada Relasi Artikel Dengan Python

Hallo assalamualaikum temen-temen...!

Di tulisan Nadia kali ini, aku mau nge posting gimana sih cara menggunakan NER pada relasi antar artikel dengan python. Postingan ini juga sekaligus buat di pake di tugas besar mata kuliah Topik Khusus (hidup tubes! 😀)

Sebelumnya aku  mau ngasih tau kalian dulu tentang apa sih itu NER?

NER --> Named-Entity Recognition (juga dikenal sebagai entitas identifikasi, chunking entitas dan entitas ekstraksi) adalah subtugas ekstraksi informasi yang berusaha untuk mencari dan mengelompokkan bernama entitas dalam teks ke dalam kategori yang ditetapkan seperti nama-nama orang, organisasi, lokasi, ekspresi kali, jumlah, nilai-nilai moneter, persentase, dll.

Nah di tubes nadia kali ini kita bakal melakukan relasi antar artikel dengan memakai konsep NER dengan tujuan untuk mendapatkan infomasi relasi keterhubungan dari artikel seperti nama orang dan organisasi. Kemudian dari hasil relasi antar artikel tersebut dapat menampilkan graph keterhubungan antara orang-orang pada artikel yang berbeda, dengan bahasa pemrograman python.

Tools yang digunakan antara lain:

Library yang digunakan antara lain:
  • NLTK Library
  • Matplotlib.pyplot Library
  • RE Library
  • OS Library


Step by step:

1. Install
  • Install python 
  • Install & download library NLTK untuk python dengan menggunakan cmd / anaconda.
  • Kemudian setelah kalian mengikuti perintah Anaconda/CMD Command diatas, kemudian akan ada tampilan NLTK Downloader yang berfungsi untuk mendownload NLTK packages nya nanti kalian klik download.

2. Relasi Artikel
Siapkan minimal 10 artikel dalam bahasa Inggris hal ini untuk memudahkan python mendeteksi nama atau organisasi yang ada di dalam artikel tersebut karena jika menggunakan artikel berbahasa Indonesia, python akan kesulitan mendeteksi nama atau organisasi yang berasal dari Indonesia.
  • pilih artikelnya
  • kemudian paste kan ke editor (notepad), lalu hapus semua kutip (" " & atau ' ')
  • Lalu save data artikel tersebut ke dalam 1 folder yang nanti folder tersebut untuk menampung semua data artikel dalam format .txt (disini aku simpan di folder TOPSUS)
  • Buka file detik_ie.py, kemudian ketikan  pemanggilan artikel mulai baris ke 5, seperti pada gambar di bawah ini:

  • Setelah itu buka file information_extraction.py lalu mulai dari baris ke 5 diganti dengan hasil copy dari file detik_ie.py  seperti pada screenshot di bawah ini;
  • Berikut merupakan hasil run dari sepuluh artikel yang di jalankan:


3. Membuat Graph
  • Buka file learn_networkx.pykemudian isikan nama-nama hasil yang di jalankan mulai dari artikel 1 s/d 10 pada baris 22 dan 34 seperti pada screenshot di bawah.

  • Setelah selesai pada langkah di atas, lalu jalankan learn_networkx.py pada Command Prompt dan berikut hasilnya


Komentar

Postingan populer dari blog ini

Step by step 1,2,3.. Klasifikasi Data