Site icon Pesona Informatika

Apa itu web scraping?

Pengertian web scraping

Web scraping (panen web) adalah pengambilan sebuah dokumen semi-terstruktur dari internet, umumnya berupa halaman-halaman web dalam bahasa markup seperti HTML atau XHTML, dan menganalisis dokumen tersebut untuk diambil data tertentu dari halaman tersebut. Istilah gampangnya yaitu pengambilan konten atau sebagian data dari suatu situs web.

Web scraping mempunyai banyak kegunaan dan sangat membantu masalah pengambilan data. Salah satunya yaitu untuk konten artikel dimana isi kontenya langsung diambil dari situs lain misal konten dari wikipedia. Contohnya pada pesonainformatika.com misalkan kata kunci yang dicari tidak ditemukan, maka otomatis akan melakukan scraping dari situs wikipedia berdasarkan kata kunci atau keyword yang dicari.

Contoh lain dari kegunaan web scraping yaitu untuk mengambil data2 dari suatu situs. Misalnya mengambil data-data dari berbagai situs marketplace untuk dibandingkan harganya, menampilkan jadwal imsak di dimana data berasal dari KEMENAG , mengambil data prakiraan cuaca, dan masih banyak lainya. Web scraping juga bisa digunakan untuk mengexport kumpulan list data dari website ke format file csv, json, excel, dsb.




Untuk pengguna wordpress, tersedia plugin WP web scraper di wordpress.org. Cara penggunaanyapun juga mudah, tinggal import alamat konten yang akan di scraping, misal ingin mengambil konten yang berada dalam alamat https://id.wikipedia.org/wiki/Daerah_Khusus_Ibukota_Jakarta , kita buat postingan baru seperti biasa, menuliskan judul seperti biasanya, kemudian bagian konten kita tulis seperti ini :
Untuk praktek digunakan pada fungsi search sebuah situs yang otomatis akan menscaping jika artikel tidak ditemukan berdasarkan kata kunci, kita perlu merubah sedikit pada file search.php yaitu dengan menambahkan beberapa kode. contoh sebagai berikut :

else :
   //get_template_part( 'template-parts/content', 'none' );
   $kueri_cari = get_search_query();
   $keyw=str_replace(" ","+",$kueri_cari); 
   echo wpws_get_content('https://en.wikipedia.org/w/index.php?search='.$keyw , '' );

kode diatas adalah blok kode didalam else pada file search.php jika artikel tidak ditemukan.

Semoga bermanfaat, sampai jumpa di postingan selanjutnya.

Written by @akhi_syabab

Exit mobile version