https://undercover.co.id/ – Banyak orang yang penasaran cara Google mendeteksi halaman duplikat dan memilih halaman canonical atau halaman “resmi” untuk dimasukkan dalam daftar di halaman pencarian. Google menyatakan bahwa mereka membandingkan setidaknya 20 sinyal yang berbeda untuk bisa meng-identifikasi halaman mana yang merupakan halaman canonical.
Cara Google menghadapi canonicalization atau duplikasi
Saat membahas tentang masalah deteksi duplikasi , Google menjelaskan bahwa mereka mengumpulkan sinyal lalu membuat inti atau poin-poin dari sebuah konten, inti atau poin-poin ini disebut dengan istilah checksum. Lalu checksum dari setiap halaman akan saling dibandingkan untuk mengidentifikasi checksum yang identik.
Pertama-tama, mereka akan mendeteksi adanya duplikasi, lalu mengelompokkan website-website tersebut dan menyebutnya sebagai duplikat satu sama lain. Langkah selanjutnya adalah menemukan halaman utama dari kesemuanya.
Cara menentukannya adalah dengan membandingkan checksum dari tiap halaman website. Teknik seperti ini dilakukan karena jauh lebih mudah dibandingkan membandingkan kata per kata, karena ada halaman yang mengandung 3000-an kata.
Proses penilaian ini dapat menangkap baik halaman yang hanya melakukan sedikit duplikasi ataupun duplikasi secara keseluruhan dan sama persis. Google memiliki beberapa algoritma yang disiapkan untuk itu.
Penghitungan checksum biasanya hanya mengambil dari bagian pertengahan atau inti dari suatu halaman website, tidak memperhitungkan bagian navigasi dan footer. Sehingga isi halaman yang terlihat mirip, baik banyak maupun sedikit, akan terjaring dalam kelompok yang sama.
Checksum bisa dianggap seperti sidik jari pada manusia, bedanya dalam kasus ini checksum digunakan untuk mengenali konten dari file. Hasil akhir dari perhitungan checksum ini adalah memilih satu halaman utama untuk ditampilkan di halaman pencarian.
Google mencegah tampilnya halaman duplikasi dalam daftar hasil pencarian karena pengguna biasanya tidak menyukai jika konten yang sama terus muncul. Hal ini juga dilakukan Google karena tempat penyimpanan mereka di index terbatas, sehingga tidak ada gunanya untuk memasukkan beberapa hasil duplikat yang sama dalam index.
Walaupun prosesnya terdengar mudah, Google mengakui bahwa memilih halaman mana yang “memimpin” bukanlah hal yang mudah. Karena bahkan sulit bagi manusia untuk menentukan halaman mana yang harus muncul di hasil pencarian, apalagi bagi algoritma Google.
Sehingga Google pun mengambil sekitar 20 sinyal untuk menentukan halaman canonical dari sekian banyak website dalam kelompok yang sama. Sinyal ini bisa berupa konten atau beberapa elemen lain seperti PageRank.
Atau bisa juga, terutama pada situs yang sama, mempertimbangkan halaman mana yang ada di https URL, halaman mana yang dimasukkan dalam sitemap, atau halaman mana yang mengarah ke halaman lain. Jika begitu maka itu adalah sinyal yang jelas bahwa halaman lainnya yang menjadi canonical.
Elemen rel=canonical juga merupakan sinyal yang cukup kuat, karena itu berarti seseorang sengaja menspesifikasikan bahwa halaman lain yang merupakan halaman canonical.
baca juga
- 6 Konsep SEO Terkini
- SEO Politik Untuk Pemasaran Kampanye
- FAQ SEO
- 19 Kesalahan Pemasaran Email
- Google Core Web Vitals
Setiap sinyal yang dikumpulkan Google memiliki “berat” masing-masing. Dan algoritma Google akan melakukan serangkaian proses untuk menghitung “berat” sinyal-sinyal tersebut.
Pertanyaan selanjutnya adalah, apakah berat setiap sinyal tersebut menjadi faktor yang menentukan ranking website? Atau apakah duplikasi ini tidak mempengaruhi ranking?
Duplikasi atau canonicalization tidak ada hubungannya dengan ranking. Tapi, halaman canonical yang dipilih yang akan muncul di hasil pencarian, dan rankingnya tidak akan berdasarkan pada sinyal yang diambil Google untuk proses deteksi duplikasi.