PENERAPAN TEKNIK WEB SCRAPING PADA
MESIN PENCARI ARTIKEL ILMIAH
Abstrak
Search engine yaitu
kombinasi perangkat keras
dan perangkat lunak
komputer yang disediakan
oleh perusahaan tertentu melalui website yang telah ditentukan. Search
engine mengumpulkan informasi dari web melalui program bot atau web crawler
yang secara periodik menelusuri web. Proses pengambilan informasi dari
websitewebsite yang ada ini disebut dengan “web scraping”.Web Scraping adalah
suatu teknik penggalian informasi dari situs
web .Perlu pula diperhatikan
bahwa implementasi scraping
pada tulisan ini
hanya melibatkan mesin pencari yang gratis seperti: portal garuda, Indonesian scientific
journal database (ISJD), google scholar.
Pendahuluan
Meningkatnya kebutuhan akan informasi mendorong manusia untuk
mengembangkan teknologi-teknologi
baru agar pengolahan
data dan informasi
dapat dilakukan dengan mudah
dan cepat. Salah
satu teknologi yang sedang berkembang dengan pesat saat ini adalah
teknologi informasi/komputer ,
teknologi internet. Dengan adanya
internet akan mempermudah
dan mempercepat proses pengolahan
data, mencari informasi dan
lain-lain. Salah satu
fasilitas pendukung perkembangan internet
adalah search engine (mesin
pencarian).Search engine (mesin
pencarian) yaitu kombinasi perangkat keras dan perangkat lunak
komputer yang disediakan oleh perusahaan
tertentu melalui websiteyang
telah ditentukan. Banyak
peneliti dan surveymenunjukkan bahwa
Google adalah search
enginenomor satu diikuti oleh Yahoo.
Search engine mengumpulkan informasi dari web
melalui program bot (robot) atau web crawler
yang secara periodik
menelusuri web. Proses pengambilan
informasi dari website-website yang ada ini disebut dengan
“web scraping”. Web Scraping adalah
proses pengambilan sebuah dokumen
semi-terstruktur dari internet, umumnya
berupa halaman-halaman web dalam
bahasa markup seperti
HTML atau XHTML, dan
menganalisis dokumen tersebut
untuk diambil data tertentu
dari halaman tersebut
untuk digunakan bagi kepentingan
lain.Web scraping sering dikenal sebagai screen scraping. Web Scraping tidak dapat dimasukkan dalam bidang data mining
karena data mining
menyiratkan upaya untuk memahami
pola semantik atau
tren dari sejumlah besar
data yang telah
diperoleh. Aplikasi web scraping
(juga disebut intelligent,
automated, or autonomous agents) hanya
fokus pada cara memperoleh data melalui pengambilan dan
ekstraksi data dengan ukuran data yang bervariasi. A. Josi, L.A. Abdillah, Suryayusra, Penerapan
teknik web scraping pada mesin pencari artikel ilmiah160 Web scraping
memiliki sejumlah langkah,
sebagai berikut:
1) Create Scraping
Template: Pembuat program mempelajari
dokumen HTML dari
website yang akan diambil
informasinya untuk tag
HTML yang mengapit informasi
yang akan diambil,
2) Explore Site Navigation:
Pembuat program mempelajari
teknik navigasi pada website yang akan
diambil
informasinya untuk ditirukan
pada aplikasi web scraper
yang akan dibuat,
3) Automate Navigation and
Extraction: Berdasarkan informasi yang didapat
pada langkat 1
dan 2 di
atas, aplikasi web scraper
dibuat untuk mengotomatisasi pengambilan informasi dari website
yang ditentukan, dan
4) Extracted Data
and Package History: Informasi yang
didapat dari langkah
3 disimpan dalam tabel atau
tabel-tabel database.
Manfaat dari web scraping
ialah agar informasi yang dikeruk
lebih terfokus sehingga
memudahkan dalam melakukan pencarian
sesuatu, adapun cara mengembangkan teknik web
scraping yaitu dengan cara
pertama Pembuat program
mempelajari dokumen HTML dari
website yang akan
diambil informasinya untuk di
tag HTML tujuannya
ialah untuk mengapit informasi
yang diambil (Create Scraping Template),
setelah itu pembuat
program mempelajari teknik navigasi pada
website yang akan diambil informasinya
untuk ditirukan pada
aplikasi web scraping yang
akan dibuat (Explore
Site Navigation), kemudian aplikasi
web scraping akan mengotomatisasi informasi yang didapat
dari website yang telah ditentukan
(Automate Navigation and Extraction), informasi yang
didapat tersebut akan disimpan
ke dalam tabel basisdata
Sejumlah penelitian terkait
web srcapping, antara lain:
1) Aplikasi Search Engine
Paper Karya Ilmiah Berbasis Web
2) Penghasil
konten otomatis halaman
web
3) Aplikasi Search
Engine dengan Metode Depth
First Search (DFS)
dan
4) Web Scraping
pada Situs Wikipedia.Berdasarkan latar
belakang di atas
penulis tertarik untuk meneliti,
merancang dan mengimplementasikan sebuah
aplikasi pencariandengan menggunakan
bahasa pemrograman PHP dan database
MySQL sebagai medium
penyimpanan datanya yang akan dimanfaatkan secara
spesifik untuk mengumpulkan informasi
mengenai artikelpada dokumen
ilmiah. Dokumen ilmiah yang
paling populer adalah
artikel jurnal ilmiah dari suatu
bidang atau topik. Apalagi saat ini, peningkatan volume
literatur ilmiah yang dipublikasikan baik
dalam format naskah
dan juga tersedia secara
elektronik .
Ringkasan jurnal
Penerapan teknik web scraping pada mesin pencari artikel
ilmiah160 Web scraping memiliki
sejumlah langkah, sebagai berikut:
1) Create Scraping
Template: Pembuat program mempelajari
dokumen HTML dari
website yang akan diambil
informasinya untuk tag
HTML yang mengapit informasi
yang akan diambil,
2) Explore Site Navigation:
Pembuat program mempelajari
teknik navigasi pada website yang akan
diambil
informasinya untuk ditirukan
pada aplikasi web scraper
yang akan dibuat,
3) Automate Navigation and
Extraction: Berdasarkan informasi yang didapat
pada langkat 1
dan 2 di
atas, aplikasi web scraper
dibuat untuk mengotomatisasi pengambilan informasi dari website
yang ditentukan, dan
4) Extracted Data
and Package History: Informasi yang
didapat dari langkah
3 disimpan dalam tabel atau
tabel-tabel database.
Sejumlah
penelitian terkait web
srcapping, antara lain:
1) Aplikasi Search Engine
Paper Karya Ilmiah Berbasis Web ,
2) Penghasil
konten otomatis halaman
web ,
3) Aplikasi Search
Engine dengan Metode Depth
First Search (DFS),
dan
4) Web Scraping
pada Situs Wikipedia.
Tinjauan pustaka
Waktu penelitian dimulai dari awal bulan Desember 2013 sampai
dengan akhir bulan
Januari 2014 (dua bulan).
Penelitian penerapan teknik
web scraping dilakukan dengan
observasi pada sejumlah
portal gratis, sebagai berikut:
1) Portal Garuda,
2) Portal Indonesian Scientific
Journal Database (ISJD),
dan
3) Portal Google Cendekia .
Metode pengembangan sistem
yang digunakan adalah linear
sequential model (Pressman,
2001)model atau classic
life cycle atau
waterfall model,yang melibatkan
fase-fase:
1)
Analysis,
2)
Design,
3) Coding, dan
4) Testing.
2.1 Analisis
Kegiatan analisis melibatkan 4 aktivitas, yang terdiri atas:
1)
Initiating the Process,
2)
Facilitated Application
Specification Techniques,
3)
Quality function deployment
(QFD):
a)
Normal requirements,
b) Expected
requirements,
c) Exciting
requirements, dan
4) Use-Cases.
2.2 Perancangan Basisdata (Database Design) Pada bagian desain,
penulis fokus pada . Desain
database merupakan salah satu
cara untuk merancang
dan membangun sistem, dalam hal
ini web scraping.
2.3 Pembuatan Kode (Coding)
Pada fase ini rancangan yang
telah dibuat diterjemahkan ke dalam
bentuk bahasa pemrograman dalam hal ini menggunakan bahasa
pemrograman PHP. Koding berfungsi
untuk menjalankan aplikasi dengan logika
algoritma yang telah
di terjemahkan, agar aplikasi
berjalan sesuai dengan
harapan maka koding harus sesuai
dengan alur rancangan.
Logika Pencarian Web ScrapingAliran proses
pencarian artikel pada
website dengan web scraping .Variabel keyword dimasukkan sebagai dasar pencarian artikel, jika
artikel ditemukan di dalam database maka artikel akan ditampilkan, namun jika
artikel tidak ditemukan maka
dilakukan proses web
scraping untuk kata kunci
yang dimasukan. Jika
web scraping berhasil menemukan artikel
maka akan ditampilkan
ke halaman web, apabila
tidak maka akan ditampilkan
pesan error Not Found .
Berikut
langkah-langkah untuk mencari
data scrapedari website:
1) Masukkan pencarian,
2) aplikasi akan melakukan
pencarian, dan
3) Jika data di
temukan > data akan di
tampilkan, jika tidak,
maka akan di tampilkan
pesan data tidak
di temukan.
2.4 Pengujian (Testing)
Pada fase ini
apilkasi web scraping
yang telah berhasil dibuat programnya
dilakukan pengujian atau testing
untuk mencari kesalahan
coding dan kesalahan logika,
pengujian ini menggunakan blackbox testing
dan pengujian dengan
pendekatan topdown .menampilkan pengujian
aplikasi web scraping dengan
pendekatan top-down, aplikasi dibagi menjadi
empat modul utama
(P, I, G, L).
pengujian dilakukan dimulai
dari sisi sebelah
kiri (modul P). Apabila modul telah berjalan dengan baik maka pengujian
berpindah kearah kanan,
sampai dengan modul L.
Setelah semua modul
melewati fase pengujian, didapatilah sebuah
aplikasi yang berjalan
dengan sempurna. Aplikasi ini
mempunyai output berupa hasil pencarian, dan nantinya hasil
pencarian tersebut akan disimpan pada database, hasil data scrape dapat dilihat
di
halaman administrator. Adapun pembahasan yang dimulai dari
pembahasan menu homepage, menu
pencarian artikel pada
portal garuda, ISJD, Google
Scholar, dan login administrator.
Kesimpulan
1) Aplikasi search
engine yang dihasilkan dengan menerapkan
teknik web scrapingini
berhasil mengekstrak informasi mengenai artikel
jurnal ilmiah dari sejumlah portal akademik baik yang
berasal dari Indonesia maupun luar negeri.
2) Aplikasi ini berhasil
menyimpan otomatis data hasil
scraping pada database.
3) Dengan adanya
aplikasi ini, pengguna dapat dengan mudah untuk
mengumpulkan informasi mengenai artikel/jurnal ilmiah.
4) Teknik web
scraping merupakan suatu teknik
yang sangat bermanfaat
untuk mendapatkan data artikel
ilmiah secara cepat dari
halaman-halaman web.
5) Web scraping
adalah legal selama
tidak dilakukan untuk pencurian data, manipulasi informasi, dsb.
Bahkan web scraping dapat memberikan mutual
simbiosme dengan meningkatnya trafik
atas sumber asli
linkyang di-scrape.
6) Selanjutnya, penulis
tertarik untuk:
a) menerapkan teknik ini ke
aplikasi web baselainnya yang berkaitan dengan pendidikan, politik, wisata,
dll.,
b)
melakukan percobaan scrape ke
sejumlah web secara bersamaan,
c) pengembangan
dengan menggunakan bahasa pemrograman
yanag berbeda, serta
d)
percobaan yang melibatkan konten
yang lebih banyak.
Daftar pustaka
Abdillah, L.
A. (2012). PDF
articles metadata harvester. Jurnal
Komputer dan Informatika (JKI), 10(1), 1-7.
Abdillah, L.
A., & Emigawaty.
(2009). Analisis laporan tugas
akhir mahasiswa Diploma
I dari sudut pandang
kaidah karya ilmiah
dan penggunaan teknologi informasi.
Jurnal Ilmiah MATRIK, 11(1), 19-36.
Abdillah, L.
A., Falkner, K.,
& Hemer, D.
(2010). Information retrieval and
storing for the contents of scientific journals (HDR
poster day /poster presentation). Adelaide,
South Australia: The University of Adelaide.
Abdillah, L. A., Falkner,
K., & Hemer,
D. (2011). Scientific document
retrieval based on evidence,
citation position, and
authorinformation of metadata
usage (HDR poster day
/poster presentation). Adelaide,
South Australia: The University of Adelaide.
Bakaev, M., & Avdeenko, T.
(2014). Data Extraction for
Decision-Support Systems: Application
in Labour Market Monitoring
and Analysis. International Journal
of e-Education, eBusiness,
e-Management and e-Learning (IJEEEE), 4(1).
Darmadi, B. A., Intan, R., &
Lim, R. (2006). Aplikasi Search
Engine Paper Karya
Ilmiah Berbasis Web dengan
Metode Fuzzy Relation.
Jurnal Informatika, 6(2), pp. 95-99. Hirschey, J.
(2014). Symbiotic Relationships: Pragmatic Acceptance
of Data Scraping. Berkeley Technology Law Journal,
29.
Jennings, F., & Yates, J.
(2009). Scrapping over data: are
the data scrapers'
days numbered? Journal of
Intellectual Property Law
& Practice, 4(2), 120-129.
A. Josi, L.A. Abdillah, Suryayusra,
Penerapan teknik web scraping pada mesin pencari artikel ilmiah164
Juliasari, N.,
& Sitompul, J.
C. (2012). Aplikasi Search Engine
dengan Metode Depth
First Search (DFS). BIT Numerical Mathematics, 9.
Lindenberg, F.
Getting Data from
the Web, from http://datajournalismhandbook.org/1.0/en/getting_data_3.html
(last visited June 23, 2014)
Pressman, R.
S. (2001). Software
engineering: a practitioner’s approach
(5th ed.). New
York, USA: McGraw-Hill.
Sobri, M., & Abdillah, L. A.
(2013). Aplikasi belajar membaca iqro'
berbasis mobile. Paper presented at the Seminar
Nasional Teknologi Informasi &
Multimedia (Semnasteknomedia),
STMIK AMIKOM Yogyakarta
The Computer
Advisor. Web site
scraper the most effective tool for web data
extraction, [Online] (Updated 09
Juni 2014) Available at:http://www.thecomputeradvisor.net/web-sitescraper-the-most-effective-tool-for-web-dataextraction/
[Diakses 09 Juni 2014]
Turland, M.
(2010). php| architect’s
Guide to Web Scraping with PHP. Introduction-Web
Scraping Defined, str, 2. Utomo, M. S.
(2012). Implementasi PHP
sebagai Penghasil Konten Otomatis
pada Halaman Situs. Dinamik-Jurnal Teknologi
Informasi, 17(2).
Utomo, M.
S. (2013). Web
Scraping pada Situs Wikipedia menggunakan
Metode Ekspresi Regular. Dinamik-Jurnal Teknologi
Informasi, 18(2).