Belajar web scraping, pengenalan.

Belajar web scraping – pesonainformatika.com . Web scraping atau banyak disebut grabbing, atau web data extraction adalah proses dimana kita ingin mengekstrak sebagian data dari website. Perusahaan / perorangan/ pelaku bisini sangat membutuhkan namanya data. Jadi wajar jika job web scraping akan selalu ada. Naah disini web scraping fokus mengambil data dari sebuah website. Kita belajar bareng mulai artikel ini


Apa itu web scraping?

Web scraping, kalau kita pisah per kata. Web berasal dari website, scraping yaitu mengikis atau mengorek. Jadi secara gampangnya, kita ingin mengambil sebagian data dari website, kemudian kita gunakan data tersebut buat suatu kebutuhan. Misal ambil data produk dari toko online kemudian kita jual kembali, atau sebagai perbandingan harga dengan produk yang kita jual. Contoh lain yaitu kita mengambil data dari sebuah website yang memuat email/nomor HP. Nah email ini kita butuhkan untuk promosi produk kita, dan masih banyak lainya. Web scraping biasa juga disebut grabbing, data extraction.

Apa persiapan yang diperlukan untuk belajar web scraping? Jadi ini kita akan fokus menggunakan bahasa python karena memang penulis sehari-hari menggunakan bahasa ini.

  1. Python basic.

Yup ini merupakan syarat wajib bagi anda yang ingin mempelajari web scraping. Karena memang basic seperti variable, looping, dictionary, list, dll nanti kita gunakan untuk mengolah data yang ingin kita ambil. Naah untuk mempelajari basic ini, anda bisa belajar melalui w3schools, python.org, atau lainya sesuai dengan kenyamanan dimana tempat belajar.

  1. Network activity.

Saat anda melakukan browsing melalui google chrome, mozilla, atau web browser lainya. Sebetulnya browser melakukan aktifitas Send requests dan Get Response dari server. Naah anda bisa lihat jika menggunakan chrome, klik kanan -> inspect -> network.

Coba refresh halaman anda, maka di samping kiri akan terdapat banyak sekali aktifitas network yang bisa kita lihat. Nah kemampuan membaca dari network activity ini wajib dimiliki oleh scraper developer.

  1. HTTP Requests

Kalau ini adalah model http. Jadi ada beberapa macam metode yaitu GET, POST, PUT, HEAD, DELETE, PATCH, OPTIONS. Tapi yang sering digunakan yaitu get dan post. Untuk gambar diatas nomor 2, kita bisa melihat requests method yang digunakan yaitu GET. Hanya meminta data tidak butuh mengirim data menggunakan post. Contohnya post yaitu pada proses login, dimana kita butuh mengirim email dan password ke server. 

Anda bisa kunjungi tulisan saya di medium yang membahasa minimal pengetahuan yang harus dimiliki oleh web scraper developer sebagai tambahan inforamasi: https://medium.com/@akhisyabab/how-to-web-or-api-scraping-become-a-developer-scraper-minimal-things-that-must-be-known-bed7fe4e17d8

Pengetahuan paling minimal untuk belajar web scraping sudah saya jelaskan diatas, Jadi untuk artikel berikutnya kita akan mulai menggunakan library untuk belajar web scraping. Untuk sesi selanjutnya kita akan menggunakan library Beautifulsoup. Jadi pantau terus postingan kami 🙂 .

Semoga bermafaat kita bertemu di postingan selanjutnya.
Written by: 

@akhisyabab