Cara Membuat Robots Txt Yang Aman Untuk Indexing
Cara Membuat Robots Txt Yang Aman Untuk Indexing. Robots txt adalah file kecil yang sering disepelekan, padahal bisa menentukan nasib indexing sebuah website. Saya sudah berkali kali menemukan kasus website bisnis yang trafiknya turun tajam atau halaman barunya tidak pernah masuk indeks hanya karena robots txt salah konfigurasi. Lebih parah lagi, banyak pemilik website tidak sadar bahwa penyebabnya ada di file ini, karena semuanya terlihat normal dari sisi tampilan.
Robots txt bukan alat untuk membuat ranking naik secara langsung, tetapi robots txt adalah alat untuk mengarahkan crawler. Dengan robots txt yang rapi, mesin pencari lebih efisien merayapi halaman penting, tidak membuang waktu di halaman yang tidak bernilai, dan tidak terjebak pada parameter atau halaman sistem. Sebaliknya, robots txt yang terlalu agresif bisa membuat Google tidak bisa mengakses file penting seperti CSS dan JavaScript, sehingga halaman sulit dipahami. Bahkan bisa juga memblokir seluruh website jika ada satu baris yang salah.
Di artikel ini saya akan membahas cara membuat robots txt yang aman untuk indexing dengan pendekatan praktis. Anda akan paham fungsi robots txt, perbedaan disallow dan noindex, struktur yang benar, contoh aturan untuk berbagai jenis website, kesalahan fatal yang sering terjadi, cara menguji robots txt, dan cara mengelola robots txt saat website berkembang.
Robots Txt Itu Apa Dan Apa Yang Bisa Dilakukan File Ini
Robots txt adalah file teks yang berada di root domain, biasanya bisa diakses dengan menambahkan robots.txt setelah domain. File ini dipakai untuk memberi arahan kepada crawler mengenai bagian mana yang boleh atau tidak boleh dirayapi.
Yang bisa dilakukan robots txt.
Mengizinkan atau melarang crawling untuk path tertentu. Menentukan aturan untuk user agent tertentu. Menyertakan lokasi sitemap. Membantu mengurangi crawling pada halaman sistem yang tidak perlu.
Yang tidak bisa dilakukan robots txt.
Robots txt tidak bisa memaksa halaman terindeks. Robots txt juga bukan alat untuk menghapus URL dari indeks jika URL tersebut sudah terindeks dan masih bisa ditemukan dari tempat lain. Robots txt juga bukan pengganti meta robots di halaman.
Kalimat sederhana yang perlu anda ingat.
Robots txt mengatur crawling, bukan indexing secara absolut.
Namun karena crawling adalah langkah awal sebelum indexing, robots txt sangat berpengaruh pada proses indexing.
Perbedaan Disallow Dan Noindex Yang Sering Membingungkan
Ini salah satu sumber kesalahan terbesar. Banyak orang ingin halaman tidak muncul di pencarian, lalu mereka memblokirnya di robots txt. Padahal pendekatannya bisa berbeda.
Disallow berarti crawler tidak boleh merayapi halaman. Tetapi URL masih bisa terindeks jika Google menemukan URL tersebut dari link lain dan tidak bisa merayapi untuk melihat isi. Akibatnya di hasil pencarian bisa muncul URL tanpa deskripsi.
Noindex biasanya dipasang lewat meta robots di halaman atau header. Noindex berarti anda memberi instruksi agar halaman tidak masuk indeks. Google perlu merayapi halaman untuk melihat instruksi noindex. Jadi jika anda memblokir halaman dengan robots txt lalu berharap noindex bekerja, itu bisa gagal karena crawler tidak bisa masuk ke halaman.
Cara paling aman untuk mencegah halaman masuk indeks adalah gunakan noindex pada halaman, lalu jangan blokir lewat robots txt jika anda masih ingin Google membaca instruksi tersebut.
Robots txt lebih cocok untuk memblokir halaman yang memang tidak perlu dirayapi sama sekali, misalnya folder sistem, file admin, atau endpoint yang tidak punya nilai.
Tujuan Robots Txt Yang Aman Untuk Indexing
Robots txt yang aman punya tujuan yang jelas.
Mengizinkan crawler mengakses halaman penting. Mengizinkan crawler mengakses resource penting seperti CSS dan JavaScript. Memblokir halaman yang tidak bernilai seperti halaman sistem, halaman login, halaman cart dan checkout, hasil pencarian internal, dan parameter yang menghasilkan duplikasi. Mencegah crawler membuang waktu pada URL yang tidak perlu sehingga crawl budget lebih efisien.
Ketika robots txt disusun dengan tujuan ini, indexing halaman penting biasanya menjadi lebih rapi.
Struktur Dasar Robots Txt Yang Benar
Robots txt terdiri dari kelompok aturan. Setiap kelompok biasanya punya user agent lalu beberapa aturan disallow dan allow.
User agent menentukan bot mana yang dikenai aturan. Jika anda menulis tanda bintang, itu berlaku umum.
Disallow memberi larangan. Allow memberi pengecualian jika ada konflik.
Selain itu, anda bisa menambahkan baris sitemap untuk menunjukkan lokasi sitemap XML.
Robots txt itu sederhana tetapi sensitif. Satu baris yang salah bisa membuat banyak halaman terblokir. Karena itu, anda harus menulis dengan hati hati dan selalu menguji.
Prinsip Utama Robots Txt Agar Tidak Menghambat Indexing
Saya sarankan anda memegang beberapa prinsip.
Jangan memblokir halaman penting. Jangan memblokir CSS dan JavaScript yang dibutuhkan untuk rendering. Jangan menulis aturan terlalu umum yang bisa mengenai halaman lain. Hindari memblokir folder yang isinya campuran antara halaman penting dan tidak penting. Gunakan pola yang spesifik. Tambahkan sitemap di robots txt agar crawler menemukan sitemap dengan mudah.
Jika anda menggunakan CMS seperti WordPress, jangan menyalin template robots txt dari internet tanpa memahami efeknya. Banyak template memblokir path yang ternyata penting di website tertentu.
Kesalahan Fatal Robots Txt Yang Harus Anda Hindari
Saya akan sebutkan kesalahan paling berbahaya yang saya temui.
Kesalahan pertama memblokir seluruh website. Ini biasanya terjadi karena ada disallow garis miring untuk semua user agent. Jika itu aktif, crawling berhenti total.
Kesalahan kedua memblokir resource. Banyak orang memblokir folder yang berisi script atau style, lalu Google tidak bisa merender halaman dengan benar.
Kesalahan ketiga memblokir URL yang seharusnya noindex. Jika halaman butuh noindex, Google perlu akses untuk membaca instruksi.
Kesalahan keempat memblokir folder upload atau media tanpa alasan. Ini bisa menghambat gambar muncul di hasil pencarian gambar dan bisa mengganggu layout.
Kesalahan kelima memblokir file sitemap atau memblokir akses bot ke sitemap.
Kesalahan keenam menambahkan aturan untuk terlalu banyak bot yang tidak relevan, lalu lupa aturan utama. Robots txt jadi panjang tapi tidak jelas.
Kesalahan ketujuh menggunakan wildcard yang terlalu agresif sehingga memblokir banyak hal.
Jika anda menghindari tujuh kesalahan ini, robots txt anda biasanya sudah cukup aman.
Robots Txt Untuk Website Bisnis Jasa Yang Umum
Untuk website bisnis jasa, kebutuhan utamanya adalah membiarkan halaman layanan dan artikel dirayapi, lalu memblokir area admin dan halaman sistem.
Hal yang biasanya aman diblokir.
Folder admin. Halaman login. Endpoint sistem yang tidak bernilai. Halaman hasil pencarian internal jika ada.
Hal yang sebaiknya tidak diblokir.
Folder yang berisi CSS, JavaScript, gambar, dan halaman konten.
Selain itu, tambahkan baris sitemap agar rapi.
Jika website anda kecil dan tidak punya banyak URL yang aneh, robots txt yang minimal sering paling aman. Semakin banyak aturan, semakin tinggi risiko salah.
Robots Txt Untuk WordPress Agar Aman
WordPress punya pola tertentu yang sering Anda temui.
Ada area admin yang jelas. Ada folder includes. Ada parameter komentar. Ada halaman hasil pencarian internal.
Namun saya ingin anda hati hati. Beberapa folder seperti wp-includes dan wp-content memuat resource penting. Memblokir seluruh folder wp-content bisa membuat Google tidak bisa mengambil CSS atau gambar. Ini berbahaya.
Yang biasanya aman adalah memblokir akses admin, dan mengizinkan file admin tertentu yang dibutuhkan.
Selain itu, jika anda memakai plugin SEO, sitemap sudah ada. Pastikan anda menaruh lokasi sitemap yang benar di robots txt.
Untuk WordPress, fokus terbaik adalah memblokir area yang jelas jelas bukan konten dan membiarkan sisanya.
Robots Txt Untuk Website E Commerce Dan Website Dengan Filter
Website dengan banyak filter dan parameter sering punya masalah duplikasi. Robots txt bisa membantu mengurangi crawling pada URL parameter tertentu, tetapi ini perlu hati hati.
Memblokir parameter di robots txt bisa mengurangi crawling, tetapi tidak selalu menghapus URL dari indeks jika URL sudah muncul. Anda juga harus memakai canonical, noindex untuk halaman tertentu, dan pengaturan parameter.
Jika anda menggunakan filter yang menghasilkan banyak URL, robots txt bisa memblokir path yang jelas menghasilkan duplikasi, misalnya path filter tertentu. Namun jangan memblokir halaman kategori utama yang justru penting.
Untuk e commerce, anda biasanya ingin memblokir halaman cart, checkout, akun, dan halaman yang tidak punya nilai pencarian.
Robots Txt Dan Crawl Budget Untuk Website Besar
Jika website anda punya puluhan ribu URL, robots txt menjadi alat manajemen crawl budget yang penting.
Tujuannya adalah memastikan crawler fokus pada halaman yang anda ingin rankingkan.
Anda bisa memblokir halaman yang selalu berubah dan tidak perlu tampil di pencarian, seperti halaman parameter sorting, session ID, halaman pencarian internal, dan sebagainya.
Namun saya tekankan lagi. Robots txt hanya satu bagian. Website besar juga butuh internal link yang rapi, sitemap index yang bersih, dan canonical yang benar.
Cara Menulis Robots Txt Dengan Pola Yang Spesifik
Agar robots txt aman, gunakan aturan yang spesifik. Semakin spesifik, semakin kecil risiko memblokir hal yang tidak anda maksud.
Saya sarankan pola seperti ini.
Tentukan dulu apa yang benar benar harus diblokir. Tulis aturan untuk itu. Lalu berhenti.
Jangan menulis aturan tambahan hanya karena melihat contoh di internet.
Jika anda perlu mengecualikan satu file dalam folder yang diblokir, gunakan allow.
Pastikan urutan logis. Bot akan memproses aturan sesuai spesifikasi yang berlaku untuk user agent.
Cara Menambahkan Sitemap Di Robots Txt Dengan Benar
Menambahkan sitemap di robots txt adalah praktik yang bagus.
Pastikan URL sitemap menggunakan versi domain utama. Pastikan sitemap bisa diakses dan statusnya 200. Jika anda memakai sitemap index, taruh sitemap index, bukan sitemap kecil satu per satu.
Dengan menaruh sitemap, anda membantu crawler menemukan peta URL penting lebih cepat.
Uji Robots Txt Sebelum Live Agar Tidak Salah
Robots txt harus diuji. Jangan menebak.
Yang harus anda uji.
Apakah halaman layanan bisa dirayapi. Apakah artikel bisa dirayapi. Apakah CSS dan JS bisa diakses. Apakah admin terblokir. Apakah sitemap bisa diakses.
Anda juga perlu mengecek bagaimana bot melihat aturan. Ada alat pengujian robots txt yang bisa membantu. Intinya adalah memastikan tidak ada aturan yang memblokir konten utama.
Jika anda mengubah robots txt, jangan lupa bahwa perubahan bisa memengaruhi crawling cukup cepat. Jadi lakukan perubahan dengan hati hati.
Cara Membaca Tanda Tanda Robots Txt Menghambat Indexing
Ada beberapa gejala yang sering muncul ketika robots txt bermasalah.
Halaman baru tidak terindeks meski sudah di sitemap. Banyak URL di laporan indexing yang statusnya diblokir. Search Console menandai URL sebagai blocked by robots. Tampilan halaman di hasil pencarian aneh karena snippet kosong. Google tidak bisa mengambil halaman karena akses dibatasi.
Jika anda melihat gejala seperti ini, cek robots txt dulu sebelum membongkar hal lain.
Strategi Robots Txt Yang Minimalis Untuk Menghindari Error
Banyak pemilik website ingin robots txt yang kompleks, padahal kompleks berarti risiko.
Saya sering menyarankan pendekatan minimalis.
Blokir admin dan area sistem. Biarkan konten dan resource terbuka. Tambahkan sitemap. Selesai.
Setelah itu, jika anda punya masalah duplikasi karena parameter, barulah anda tambah aturan spesifik. Jangan tambah aturan sebelum ada masalah nyata.
Dengan pendekatan ini, anda jarang terkena kasus indexing terhambat karena robots txt.
Robots Txt Dan Hubungannya Dengan Noindex Dan Canonical
Agar anda tidak salah alat, saya rangkum hubungan tiga komponen ini.
Robots txt mengatur crawling. Noindex mengatur apakah halaman masuk indeks. Canonical mengatur versi utama halaman yang ingin anda anggap sebagai otoritas.
Untuk menjaga indexing aman.
Gunakan robots txt untuk memblokir area yang tidak perlu dirayapi. Gunakan noindex untuk halaman yang tidak ingin muncul di hasil pencarian tetapi masih bisa diakses. Gunakan canonical untuk mengatasi duplikasi dari variasi URL.
Jika anda mencampur alat ini tanpa memahami fungsinya, masalah sering muncul.
Checklist Robots Txt Yang Aman Untuk Indexing
Berikut checklist yang bisa anda gunakan.
Robots txt bisa diakses publik dan status 200
Tidak ada aturan yang memblokir seluruh website
Halaman layanan dan artikel tidak diblokir
CSS dan JavaScript tidak diblokir
Folder admin dan halaman login diblokir
Halaman sistem yang tidak bernilai diblokir jika memang ada
Halaman yang butuh noindex tidak diblokir agar instruksi bisa dibaca
Sitemap dicantumkan dan mengarah ke URL sitemap yang benar
Aturan tidak terlalu umum dan tidak memakai wildcard agresif
Setelah perubahan, anda menguji beberapa URL penting
Jika checklist ini terpenuhi, robots txt anda biasanya aman dan tidak menghambat indexing.
Baca juga: Cara Membuat Sitemap XML Tanpa Terkena Error.
Langkah Praktis Yang Bisa Anda Jalankan Sekarang
Jika anda ingin mulai sekarang, lakukan ini.
Buka robots txt website anda dan baca isinya. Pastikan tidak ada aturan yang memblokir semua halaman. Cek apakah sitemap sudah dicantumkan. Cek apakah ada blokir terhadap folder yang berisi resource. Lalu uji beberapa URL penting seperti halaman layanan dan artikel, pastikan bisa dirayapi.