Crawling Dalam Digital Marketing

 


Pengertian dan cara kerja Web Crawling

    Web crawling adalah proses yang memungkinkan suatu website untuk muncul di search engine. Proses ini dilakukan dengan bantuan tools yang disebut dengan web crawler.

Baik proses maupun tools web crawler sendiri tidak banyak diketahui oleh orang. Padahal, web crawling membawa sejumlah fungsi yang bahkan berperan penting dalam meningkatkan rank atau peringkat dalam sebuah website.

Apa itu Web Crawling?

Web Crawling Dikutip dari Totally Techweb crawling adalah proses di mana search engine menemukan konten yang di-update di sebuah situs atau halaman baru, perubahan situs, atau link yang mati.

Adapun menurut Mozweb crawling adalah proses di mana mesin pencari mengirimkan tim robot (crawler atau spider) untuk menemukan konten-konten baru dan konten yang telah di-update.

Konten yang dimaksud bisa bervariasi, mulai dari laman website, gambar, video, dokumen, dan lain lain.
Jika masih belum paham, kamu bisa membayangkan seekor laba-laba. 
Laba-laba datang ke sebuah jaring dan melihat sebuah laman website, kemudian mengikuti link yang terdapat di halaman website tersebut untuk mencari alamat website atau url  yang baru, dengan mendatangi berbagai URL tersebut, laba-laba akan menemukan konten baru dan memasukkannya dalam indeks mereka.

Indeks di sini berarti suatu database berisi URL yang telah ditemukan oleh laba-laba tersebut.
Ketika ada user yang mencari sebuah konten di search engine dengan keyword tertentu, search engine akan mencari di indeks dan menentukan konten mana yang paling sesuai untuk user  tersebut.
Proses web crawling tidak bisa dilakukan secara manual. Ada beragam pilihan tools yang wajib digunakan.
Tools untuk web crawling tersebut ialah web crawler yang sering juga disebut sebagai web robot atau web spider

Cara kerja Web Crawling

Internet selalu berubah dan berkembang setiap jaman. Karena tak memungkinkan untuk mengetahui jumlah pasti berapa banyak yang ada di internet, perayap web ini memulai pekerjaan berdasarkan daftar tautan halaman yang sudah ia kenal sebelumnya dari sitemap suatu situs web.

Nah, dari daftar link sitemap tersebut, ia akan menemukan link-link lain yang tersebar di dalamnya. Setelah itu, ia akan melakukan crawling atau merangkak ke link-link yang baru saja ditemukan itu. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti.

Namun, web crawler ini tidak melakukan crawling. Ada beberapa aturan yang tetap harus mereka patuhi, sehingga mereka bisa lebih selektif dalam merangkak. Biasanya dalam melakukan crawling , ia mempertimbangkan 3 hal, yaitu ;


Ungkapan Penting dan Relevan Suatu Halaman

Web crawler tidak langsung mengindeks semua yang ada di internet. Ia menentukan mana yang perlu dirayapi, berdasarkan jumlah halaman lain yang halaman tautan ke halaman tersebut dan jumlah pengunjung ke sana.

Jadi, jika suatu halaman muncul di banyak halaman lain dan mendapatkan pengunjung yang tak sedikit, kemungkinan besar halaman itu memang penting.

Halaman penting ini biasanya berisi konten atau informasi yang dicari oleh banyak orang, sehingga mesin pencari pasti akan memasukkannya ke indeks agar orang-orang lebih mudah mengaksesnya.


Kunjungan Rutin

Konten-konten yang ada di internet itu selalu berganti setiap detiknya. Entah karena update, dihapus, atau dipindah ke tempat lain. Maka dari itu, web crawler perlu untuk mengunjungi berbagai halaman situs secara rutin agar memastikan versi terbaru halaman tersebut yang ada di indeks.

Apalagi kalau halaman itu merupakan halaman yang penting dan banyak pengunjungnya, dipastikan akan sering melakukan kunjungan ulang yang rutin ke sana.


Menuruti Robots.txt

Perayap web juga menentukan halaman mana yang perlu dirayapi berdasarkan keinginan robots.txt. Jadi sebelum menjelajah ke suatu situs web, ia akan mengecek robots.txt dari situs web itu terlebih dahulu.

Robots.txt ini merupakan file di sebuah situs web yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tidak boleh.

Contoh Web Crawler

  • Bingbot dari Bing
  • Slurp Bot dari Yahoo
  • DuckDuckBot dari DuckDuckGO
  • Baiduspider dari Baidu (mesin pencari dari China)
  • Yandex Bot dari Yandex (mesin pencari dari Rusia)
  • Sogou Spider dari Sogou (mesin pencari dari China)
  • Exabot dari Exalead
  • Alexa Crawler dari Amazon

Komentar