Crawling Dalam Digital Marketing
Pengertian dan cara kerja Web Crawling
Baik proses maupun tools web crawler sendiri tidak banyak diketahui oleh orang. Padahal, web crawling membawa sejumlah fungsi yang bahkan berperan penting dalam meningkatkan rank atau peringkat dalam sebuah website.
Apa itu Web Crawling?
Konten yang dimaksud bisa bervariasi, mulai dari laman website, gambar, video, dokumen, dan lain lain.
Jika masih belum paham, kamu bisa membayangkan seekor laba-laba.
Ketika ada user yang mencari sebuah konten di search engine dengan keyword tertentu, search engine akan mencari di indeks dan menentukan konten mana yang paling sesuai untuk user tersebut.
Proses web crawling tidak bisa dilakukan secara manual. Ada beragam pilihan tools yang wajib digunakan.
Tools untuk web crawling tersebut ialah web crawler yang sering juga disebut sebagai web robot atau web spider
Internet selalu berubah dan berkembang setiap jaman. Karena tak memungkinkan untuk mengetahui jumlah pasti berapa banyak yang ada di internet, perayap web ini memulai pekerjaan berdasarkan daftar tautan halaman yang sudah ia kenal sebelumnya dari sitemap suatu situs web.
Nah, dari daftar link sitemap tersebut, ia akan menemukan link-link lain yang tersebar di dalamnya. Setelah itu, ia akan melakukan crawling atau merangkak ke link-link yang baru saja ditemukan itu. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti.
Namun, web crawler ini tidak melakukan crawling. Ada beberapa aturan yang tetap harus mereka patuhi, sehingga mereka bisa lebih selektif dalam merangkak. Biasanya dalam melakukan crawling , ia mempertimbangkan 3 hal, yaitu ;
Ungkapan Penting dan Relevan Suatu Halaman
Web crawler tidak langsung mengindeks semua yang ada di internet. Ia menentukan mana yang perlu dirayapi, berdasarkan jumlah halaman lain yang halaman tautan ke halaman tersebut dan jumlah pengunjung ke sana.
Jadi, jika suatu halaman muncul di banyak halaman lain dan mendapatkan pengunjung yang tak sedikit, kemungkinan besar halaman itu memang penting.
Halaman penting ini biasanya berisi konten atau informasi yang dicari oleh banyak orang, sehingga mesin pencari pasti akan memasukkannya ke indeks agar orang-orang lebih mudah mengaksesnya.
Kunjungan Rutin
Konten-konten yang ada di internet itu selalu berganti setiap detiknya. Entah karena update, dihapus, atau dipindah ke tempat lain. Maka dari itu, web crawler perlu untuk mengunjungi berbagai halaman situs secara rutin agar memastikan versi terbaru halaman tersebut yang ada di indeks.
Apalagi kalau halaman itu merupakan halaman yang penting dan banyak pengunjungnya, dipastikan akan sering melakukan kunjungan ulang yang rutin ke sana.
Menuruti Robots.txt
Perayap web juga menentukan halaman mana yang perlu dirayapi berdasarkan keinginan robots.txt. Jadi sebelum menjelajah ke suatu situs web, ia akan mengecek robots.txt dari situs web itu terlebih dahulu.
Robots.txt ini merupakan file di sebuah situs web yang berisi informasi mengenai halaman mana yang boleh diindeks dan halaman mana yang tidak boleh.
Contoh Web Crawler
- Bingbot dari Bing
- Slurp Bot dari Yahoo
- DuckDuckBot dari DuckDuckGO
- Baiduspider dari Baidu (mesin pencari dari China)
- Yandex Bot dari Yandex (mesin pencari dari Rusia)
- Sogou Spider dari Sogou (mesin pencari dari China)
- Exabot dari Exalead
- Alexa Crawler dari Amazon

Komentar
Posting Komentar