Minggu, 16 Oktober 2016

PENERAPAN TEKNIK WEB SCRAPING PADA MESIN PENCARI ARTIKEL ILMIAH



PENERAPAN TEKNIK WEB SCRAPING PADA MESIN PENCARI ARTIKEL ILMIAH
Abstrak
Search  engine  yaitu  kombinasi  perangkat  keras  dan  perangkat  lunak  komputer  yang  disediakan  oleh perusahaan tertentu melalui website yang telah ditentukan. Search engine mengumpulkan informasi dari web melalui program bot atau web crawler yang secara periodik menelusuri web. Proses pengambilan informasi dari websitewebsite yang ada ini disebut dengan “web scraping”.Web Scraping adalah suatu teknik penggalian informasi dari situs  web .Perlu  pula  diperhatikan  bahwa  implementasi  scraping  pada  tulisan  ini  hanya melibatkan mesin pencari yang gratis  seperti: portal garuda, Indonesian scientific journal database (ISJD), google scholar.
Pendahuluan
Meningkatnya kebutuhan akan informasi mendorong manusia  untuk  mengembangkan  teknologi-teknologi baru  agar  pengolahan  data  dan  informasi  dapat dilakukan  dengan  mudah  dan  cepat.  Salah  satu teknologi yang sedang berkembang dengan pesat saat ini adalah teknologi informasi/komputer ,  teknologi  internet.  Dengan adanya  internet  akan  mempermudah  dan mempercepat  proses  pengolahan  data,  mencari informasi  dan  lain-lain.  Salah  satu  fasilitas pendukung  perkembangan  internet  adalah  search engine (mesin pencarian).Search  engine  (mesin  pencarian)  yaitu  kombinasi perangkat keras dan perangkat lunak komputer yang disediakan  oleh  perusahaan  tertentu  melalui  websiteyang  telah  ditentukan.  Banyak  peneliti  dan  surveymenunjukkan  bahwa  Google  adalah  search  enginenomor satu diikuti oleh  Yahoo.  Search  engine  mengumpulkan informasi dari  web  melalui program  bot  (robot) atau web  crawler  yang  secara  periodik  menelusuri  web. Proses  pengambilan  informasi  dari  website-website yang ada ini disebut dengan “web scraping”. Web  Scraping  adalah  proses pengambilan  sebuah  dokumen  semi-terstruktur  dari internet,  umumnya  berupa  halaman-halaman  web dalam  bahasa  markup  seperti  HTML  atau  XHTML, dan  menganalisis  dokumen  tersebut  untuk  diambil data  tertentu  dari  halaman  tersebut  untuk  digunakan bagi kepentingan lain.Web scraping sering dikenal sebagai screen scraping. Web Scraping  tidak dapat dimasukkan dalam bidang data  mining  karena  data  mining  menyiratkan  upaya untuk  memahami  pola  semantik  atau  tren  dari sejumlah  besar  data  yang  telah  diperoleh.   Aplikasi web  scraping  (juga disebut  intelligent, automated, or autonomous  agents)  hanya  fokus  pada  cara memperoleh data melalui pengambilan dan ekstraksi data dengan ukuran data yang bervariasi.  A. Josi, L.A. Abdillah, Suryayusra, Penerapan teknik web scraping pada mesin pencari artikel ilmiah160 Web  scraping  memiliki  sejumlah  langkah,  sebagai berikut: 
1)  Create  Scraping  Template:  Pembuat program  mempelajari  dokumen  HTML  dari  website yang  akan  diambil  informasinya  untuk  tag  HTML yang  mengapit  informasi  yang  akan  diambil,
 2) Explore  Site  Navigation:  Pembuat  program mempelajari teknik navigasi pada  website  yang akan
diambil  informasinya  untuk  ditirukan  pada  aplikasi web  scraper  yang  akan  dibuat,
3)  Automate Navigation  and  Extraction:  Berdasarkan  informasi yang  didapat  pada  langkat  1  dan  2  di  atas,  aplikasi web  scraper  dibuat  untuk  mengotomatisasi pengambilan informasi dari  website  yang ditentukan, dan
4)  Extracted  Data  and  Package  History: Informasi  yang  didapat  dari  langkah  3  disimpan dalam tabel atau tabel-tabel  database. 
Manfaat dari web scraping  ialah agar informasi yang dikeruk  lebih  terfokus  sehingga  memudahkan  dalam melakukan  pencarian  sesuatu,  adapun  cara mengembangkan  teknik  web  scraping  yaitu   dengan cara  pertama  Pembuat  program  mempelajari dokumen  HTML  dari  website  yang  akan  diambil informasinya  untuk  di  tag  HTML  tujuannya  ialah untuk  mengapit  informasi  yang  diambil  (Create Scraping  Template),  setelah  itu  pembuat  program mempelajari teknik navigasi pada  website  yang akan diambil  informasinya  untuk  ditirukan  pada  aplikasi web  scraping  yang  akan  dibuat  (Explore  Site Navigation),  kemudian  aplikasi  web  scraping  akan mengotomatisasi informasi yang didapat dari website yang  telah  ditentukan  (Automate  Navigation  and Extraction),  informasi  yang  didapat  tersebut  akan disimpan  ke  dalam  tabel  basisdata  Sejumlah  penelitian  terkait  web  srcapping,  antara lain:
1)  Aplikasi  Search Engine  Paper  Karya Ilmiah Berbasis  Web 
2) Penghasil  konten  otomatis  halaman  web   
3)  Aplikasi  Search  Engine  dengan  Metode Depth  First  Search  (DFS)  dan 
4)  Web  Scraping  pada  Situs  Wikipedia.Berdasarkan  latar  belakang  di  atas  penulis  tertarik untuk  meneliti,  merancang  dan mengimplementasikan  sebuah  aplikasi  pencariandengan menggunakan bahasa pemrograman PHP dan database  MySQL  sebagai  medium  penyimpanan datanya  yang  akan  dimanfaatkan  secara  spesifik untuk  mengumpulkan  informasi  mengenai  artikelpada  dokumen  ilmiah.  Dokumen  ilmiah   yang  paling  populer  adalah  artikel  jurnal ilmiah dari suatu bidang atau topik.  Apalagi saat ini, peningkatan  volume  literatur  ilmiah  yang dipublikasikan  baik  dalam  format  naskah  dan  juga tersedia  secara  elektronik  .
Ringkasan jurnal
Penerapan teknik web scraping pada mesin pencari artikel ilmiah160 Web  scraping  memiliki  sejumlah  langkah,  sebagai berikut: 
1)  Create  Scraping  Template:  Pembuat program  mempelajari  dokumen  HTML  dari  website yang  akan  diambil  informasinya  untuk  tag  HTML yang  mengapit  informasi  yang  akan  diambil,
 2) Explore  Site  Navigation:  Pembuat  program mempelajari teknik navigasi pada  website  yang akan
diambil  informasinya  untuk  ditirukan  pada  aplikasi web  scraper  yang  akan  dibuat,
3)  Automate Navigation  and  Extraction:  Berdasarkan  informasi yang  didapat  pada  langkat  1  dan  2  di  atas,  aplikasi web  scraper  dibuat  untuk  mengotomatisasi pengambilan informasi dari  website  yang ditentukan, dan
4)  Extracted  Data  and  Package  History: Informasi  yang  didapat  dari  langkah  3  disimpan dalam tabel atau tabel-tabel  database. 
Sejumlah  penelitian  terkait  web  srcapping,  antara lain:
1)  Aplikasi  Search Engine  Paper  Karya Ilmiah Berbasis  Web  , 
2) Penghasil  konten  otomatis  halaman  web  , 
3)  Aplikasi  Search  Engine  dengan  Metode Depth  First  Search  (DFS),  dan 
4)  Web  Scraping  pada  Situs  Wikipedia.
Tinjauan pustaka
Waktu penelitian dimulai dari  awal bulan Desember 2013  sampai  dengan  akhir  bulan  Januari  2014  (dua bulan).   Penelitian  penerapan  teknik  web  scraping dilakukan  dengan  observasi  pada  sejumlah  portal gratis,  sebagai  berikut: 
1)  Portal  Garuda, 
2)  Portal Indonesian  Scientific  Journal  Database  (ISJD),  dan
3) Portal Google Cendekia .
Metode  pengembangan  sistem  yang  digunakan adalah  linear  sequential  model  (Pressman,  2001)model  atau  classic  life  cycle  atau  waterfall  model,yang melibatkan fase-fase:
1)  Analysis,       
2)  Design,
3) Coding, dan
4) Testing.
2.1 Analisis
Kegiatan analisis melibatkan 4 aktivitas, yang terdiri atas: 
1)  Initiating  the  Process, 
2)  Facilitated Application  Specification  Techniques,
3)  Quality function deployment  (QFD):
 a)  Normal requirements,
b)  Expected  requirements, 
c)  Exciting  requirements, dan
4) Use-Cases.
2.2 Perancangan Basisdata (Database Design) Pada bagian  desain,  penulis  fokus  pada  .  Desain  database  merupakan salah  satu  cara  untuk  merancang  dan  membangun sistem, dalam hal ini web scraping.
2.3 Pembuatan Kode (Coding)
Pada  fase  ini  rancangan  yang  telah  dibuat diterjemahkan ke dalam bentuk bahasa pemrograman dalam  hal  ini  menggunakan  bahasa  pemrograman PHP.  Koding  berfungsi  untuk  menjalankan  aplikasi dengan  logika  algoritma  yang  telah  di  terjemahkan, agar  aplikasi  berjalan  sesuai  dengan  harapan  maka koding harus sesuai dengan alur rancangan.
Logika Pencarian Web ScrapingAliran  proses  pencarian  artikel  pada  website  dengan web scraping  .Variabel keyword  dimasukkan sebagai dasar pencarian artikel, jika artikel ditemukan di dalam database maka artikel akan ditampilkan, namun jika artikel tidak ditemukan maka  dilakukan  proses  web  scraping  untuk  kata kunci  yang  dimasukan.  Jika  web  scraping  berhasil menemukan  artikel  maka  akan  ditampilkan  ke halaman  web,  apabila  tidak  maka  akan  ditampilkan pesan error Not Found .
Berikut  langkah-langkah  untuk  mencari  data  scrapedari website:
1) Masukkan pencarian,
 2) aplikasi akan melakukan pencarian, dan
3)  Jika data di temukan > data  akan  di  tampilkan,  jika  tidak,  maka  akan  di tampilkan  pesan  data  tidak  di  temukan. 
2.4 Pengujian (Testing)
Pada  fase  ini  apilkasi  web  scraping  yang  telah berhasil dibuat programnya dilakukan pengujian atau testing  untuk  mencari  kesalahan  coding  dan kesalahan logika, pengujian ini menggunakan  blackbox  testing  dan  pengujian  dengan  pendekatan  topdown .menampilkan  pengujian  aplikasi  web scraping  dengan  pendekatan  top-down,  aplikasi dibagi  menjadi  empat  modul  utama  (P,  I,  G,  L). pengujian  dilakukan  dimulai  dari  sisi  sebelah  kiri (modul P). Apabila modul telah berjalan dengan baik maka  pengujian  berpindah  kearah  kanan,  sampai dengan modul L.
Setelah  semua  modul  melewati  fase  pengujian, didapatilah  sebuah  aplikasi  yang  berjalan  dengan sempurna.  Aplikasi  ini  mempunyai  output  berupa hasil pencarian, dan nantinya hasil pencarian tersebut akan disimpan pada database, hasil data scrape dapat dilihat  di  halaman  administrator.  Adapun pembahasan  yang  dimulai  dari  pembahasan  menu homepage,  menu  pencarian  artikel  pada  portal garuda,  ISJD,  Google  Scholar,  dan  login administrator.
Kesimpulan
1)  Aplikasi  search  engine  yang  dihasilkan dengan  menerapkan  teknik  web  scrapingini  berhasil  mengekstrak  informasi mengenai  artikel  jurnal  ilmiah  dari sejumlah portal akademik baik yang berasal dari Indonesia maupun luar negeri.
2)  Aplikasi  ini  berhasil  menyimpan  otomatis data hasil scraping pada database.
3)  Dengan  adanya  aplikasi  ini,  pengguna dapat dengan mudah untuk mengumpulkan informasi mengenai artikel/jurnal ilmiah.
4)  Teknik  web  scraping  merupakan  suatu teknik  yang  sangat  bermanfaat  untuk mendapatkan  data  artikel  ilmiah  secara cepat dari halaman-halaman web.
5)  Web  scraping  adalah  legal  selama  tidak dilakukan untuk pencurian data, manipulasi informasi, dsb. Bahkan  web scraping  dapat memberikan  mutual  simbiosme  dengan meningkatnya  trafik  atas  sumber  asli  linkyang di-scrape.
6)  Selanjutnya,  penulis  tertarik  untuk: 
a) menerapkan teknik ini ke aplikasi  web baselainnya  yang berkaitan dengan pendidikan, politik,  wisata,  dll.,
 b)  melakukan percobaan  scrape  ke  sejumlah  web  secara bersamaan,
                c)  pengembangan  dengan menggunakan  bahasa  pemrograman  yanag berbeda,  serta 
d)  percobaan  yang melibatkan konten yang lebih banyak.
Daftar pustaka

Abdillah,  L.  A.  (2012).  PDF  articles  metadata harvester.  Jurnal  Komputer  dan  Informatika (JKI), 10(1), 1-7.
Abdillah,  L.  A.,  &  Emigawaty.  (2009).  Analisis laporan  tugas  akhir  mahasiswa  Diploma  I  dari sudut  pandang  kaidah  karya  ilmiah  dan penggunaan teknologi informasi.  Jurnal Ilmiah MATRIK, 11(1), 19-36.
Abdillah,  L.  A.,  Falkner,  K.,  &  Hemer,  D.  (2010). Information  retrieval  and  storing  for  the contents of scientific journals (HDR poster day /poster  presentation).  Adelaide,  South Australia: The University of Adelaide.
Abdillah,  L.  A.,  Falkner,  K.,  &  Hemer,  D.  (2011). Scientific  document  retrieval  based  on evidence,  citation  position,  and  authorinformation  of  metadata  usage  (HDR  poster day  /poster  presentation).  Adelaide,  South Australia: The University of Adelaide.
Bakaev, M., & Avdeenko, T. (2014). Data Extraction for  Decision-Support  Systems:  Application  in Labour  Market  Monitoring  and  Analysis. International  Journal  of  e-Education,  eBusiness,  e-Management  and  e-Learning (IJEEEE), 4(1).
Darmadi, B. A., Intan, R., & Lim, R. (2006). Aplikasi Search  Engine  Paper  Karya  Ilmiah  Berbasis Web  dengan  Metode  Fuzzy  Relation.  Jurnal Informatika, 6(2), pp. 95-99. Hirschey,  J.  (2014).  Symbiotic  Relationships: Pragmatic  Acceptance  of  Data  Scraping. Berkeley Technology Law Journal, 29.
Jennings, F., & Yates, J. (2009). Scrapping over data: are  the  data  scrapers'  days  numbered?  Journal of  Intellectual  Property  Law  &  Practice,  4(2), 120-129. 
A. Josi, L.A. Abdillah, Suryayusra, Penerapan teknik web scraping pada mesin pencari artikel ilmiah164
Juliasari,  N.,  &  Sitompul,  J.  C.  (2012).  Aplikasi Search  Engine  dengan  Metode  Depth  First Search (DFS). BIT Numerical Mathematics, 9.
Lindenberg,  F.  Getting  Data  from  the  Web,  from http://datajournalismhandbook.org/1.0/en/getting_data_3.html (last visited June 23, 2014)
Pressman,  R.  S.  (2001).  Software  engineering:  a practitioner’s  approach  (5th  ed.).  New  York, USA: McGraw-Hill.
Sobri, M., & Abdillah, L. A. (2013).  Aplikasi belajar membaca  iqro'  berbasis  mobile.  Paper presented  at  the  Seminar  Nasional  Teknologi Informasi  &  Multimedia  (Semnasteknomedia), STMIK AMIKOM Yogyakarta
The  Computer  Advisor.  Web  site  scraper  the  most effective tool for web data extraction,  [Online] (Updated  09  Juni  2014)  Available at:http://www.thecomputeradvisor.net/web-sitescraper-the-most-effective-tool-for-web-dataextraction/ [Diakses 09 Juni 2014]
Turland,  M.  (2010).  php|  architect’s  Guide  to  Web Scraping with PHP. Introduction-Web Scraping Defined, str, 2. Utomo,  M.  S.  (2012).  Implementasi  PHP  sebagai Penghasil  Konten  Otomatis  pada  Halaman Situs.  Dinamik-Jurnal  Teknologi  Informasi, 17(2).
Utomo,  M.  S.  (2013).  Web  Scraping  pada  Situs Wikipedia  menggunakan  Metode  Ekspresi Regular.  Dinamik-Jurnal  Teknologi  Informasi, 18(2).

Tidak ada komentar:

Posting Komentar