Sebuah algoritma kecil menentukan keberhasilan atau kegagalan website di
dalam rumus PageRank Google. CHIP menunjukkan bagaimana cara kerjanya.
Coba kita mulai dengan beberapa logika berikut ini. Internet sangat
besar, sebaliknya website sangat kecil. Tidak heran, apabila sebuah
website sangat sulit untuk menonjolkan diri dan bersaing dengan milyaran
website serupa untuk menampakkan diri*nya kepada seluruh pengakses
Internet.
Pengguna hanya bisa melihat suatu website apabila ia menjalankan
pencarian di Google dan website tersebut berada paling atas dalam daftar
hits. Hanya saja, apabila ada ratusan website serupa di Internet, yang
mana yang akan tampil paling atas atau paling bawah dalam daftar hits?
Jawabannya dituangkan ke dalam sebuah rumus algoritma PageRank. Seperti
kita ketahui, PageRank adalah sebuah algoritma yang telah dipatenkan
yang berfungsi menentukan website mana yang lebih penting atau populer.
PageRank merupakan salah satu feature utama mesin pencari Google dan
diciptakan oleh pendirinya, Larry Page dan Sergey Brin.
Bagi Anda yang mengenal, memahami, dan menggunakan PageRank, dapat
mendongkrak websitenya ke atas daftar hits. Namun, yang menyalah
gunakannya akan dihukum. Namun bagaimana cara kerja PageRank dan kapan
sebuah website berada di atas dalam daftar hits?
Cara kerja rumus dan formula PageRank
Di balik PageRank ada pemikiran yang sederhana sekaligus jenius:
2. Setiap website memiliki sebuah PageRank.
3. Link dari website B ke website A dihitung sebagai satu suara dari B untuk A. Seperti dalam pemungutan suara.
4. Selain itu, PageRank website B memberi bobot suara untuk A. Semakin tinggi PageRank website B, semakin baik.
5. Faktor-faktor lainnya, berapa banyak link terdapat di website B.
Semakin sedikit jumlahnya, semakin baik untuk PageRank website A.
6. Jumlah semua PageRank sama dengan jumlah semua dokumen di
Internet. Jadi, PageRank adalah pembobotan sebuah dokumen di Internet
secara keseluruhan yang tercatat.
PageRank dihitung untuk setiap website, bukan untuk seluruh tawaran
website. Oleh karena itu, sebuah artikel tertentu di webserver bisa jadi
mendapat PageRank lebih tinggi daripada websitenya sendiri.
Sebagai rumus seluruh algoritma PageRank tampak sebagai berikut:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(TN))
Berikut penjelasan rumus diatas: PageRank website A adalah jumlah
PageRank website T1 hingga Tn, masing-masing dibagi dengan jumlah link
pada website yang bersangkutan. Selain itu, ada faktor peredam, sebuah
elemen sangat penting yang selanjutnya masih akan berperan.
KALKULASI PAGERANK - Empat website saling menghubungi melalui link.
Tergantung jumlah link yang mengantar ke sebuah website, maka di dapat
nilai PageRank tertentu (PR).
Prinsip PageRank dapat diperjelas. Anggaplah seluruh web hanya terdiri
atas empat website A, B, C, dan D. Dalam contoh masing-masing memiliki
nilai PageRank awal “1”. Jumlahnya sama dengan jumlah website. Dalam
contoh pertama website B, C, dan D masing-masing memiliki sebuah link ke
website A dan tidak ada link lainnya. Apabila faktor peredam diabaikan,
hasilnya adalah rumus:
PR(A) = 1/1 + 1/1 + 1/1
PageRank website A adalah 3. Contoh yang lebih rumit (lihat halaman
199): Website A memiliki link ke website B dan C. B hanya memiliki
sebuah link ke A. C memiliki link ke A, B, dan D. D hanya memiliki link
ke B. Rumus untuk A akan menjadi:
PR(A) = 1/1 + 1/3
Link dari B bernilai 1, sementara dari C hanya 1/3 dengan jumlah links 3. Hasilnya adalah 1,33.
Untuk B:
PR(B) = 1/2 + 1/3 + 1/1
Dibulatkan hasilnya adalah 1,83.
Untuk C:
PR(C) = ½
Hasilnya 0,5.
Untuk D:
PR(D) = 1/3
Hasilnya dibulatkan 0,33.
Jumlah PageRank website A, B, C dan D seharusnya sama dengan jumlah website :
1,33 + 1,83 + 0,5 + 0,33 = 3,99
Kekurangan 0,1 disebabkan oleh pembulatan. Dalam kalkulasi ini masih ada
yang kurang. PageRank setiap website tidak disertakan. Sekali lagi kita
ambil contoh website B. Apabila kalkulasi disesuaikan dengan PageRank
yang didapat dari langkah pertama:
PR(B) = 1/2 + 1/3 + 1/1
Didapat term berikut:
PR(B) = 1,33/2 + 0,5/3 + 0,33/1
Hasilnya dibulatkan adalah 1,62. Tentu saja kalkulasi baru PageRank
website B mengubah PageRank website A, C, dan D. Nilai baru D kembali
mengubah nilai B. Oleh karena itu, Google mendekati PageRank secara
iteratif. Google mengambil hasil sebuah putaran untuk kalkulasi dalam
langkah iterasi berikutnya. Menurut keterangan Page dan Brin, cukup 100
kali putaran iterasi untuk mencapai secara mendekati nilai PageRank dari
milyaran website yang terdapat di Internet.
Faktor peredam: Menyertakan pengguna dalam kalkulasi
Berdasarkan asumsi Google, PageRank merepresentasikan kemungkinan
seorang peselancar sampai ke sebuah website de*ngan mengklik sebuah
link. Berhubung peselancar tidak mungkin meng-klik tanpa henti, maka ke
dalam rumus di masukkan faktor peredam.
Bisa dikatakan, faktor peredam ini mensimulasikan peselancar kehilangan
minat mengikuti link. Peredaman ini dikalkulasikan ke dalam jumlah
voting me*lalui link ke website. Dalam penjelasan algo*ritmanya, Sergey
Brin dan Larry Page mensyaratkan faktor peredaman 0,85. Bisa
diasumsikan, dalam realita Google nilai tersebut memang berkisar pada
0,85.
Berbeda dengan contoh di atas, PageRank sebenarnya ditetapkan antara 0
dan 1 sebagai nilai prakiraan. Dari situ didapat pecahan desimal kecil
yang menghasilkan PageRank sebuah website. Sebuah website dengan nilai
0,01 memiliki kemungkinan sebesar 1% mendapat kunjungan seorang pengguna
ketika yang bersangkutan mengklik sebuah link secara kebetulan.
Namun, berikut ini masih teka-teki. Apabila PageRank dinyatakan sebagai angka antara 0 dan 1, mengapa pada toolbar Google (http://toolbar.google.com)
nilainya ditampilkan antara 1 dan 10? Jawabannya, Google
mengkonversinya. Bagaimana caranya, tidak jelas. Namun banyak pakar
berpendapat, konversinya tidak linear, melainkan logaritmis. Artinya,
lompatan PageRank dari 1 ke 2 pada toolbar jauh lebih mudah daripada
dari 9 ke nilai terbaik 10.
Filter: PageRank pembantu-pembantu kecil
Berdasarkan rumus PageRank Google te*lah menyisir Internet dengan sukses
besar. Namun dengan itu juga timbul masalah, para pengelola website
dengan cepat me*ngetahui cara kerjanya dan berupaya merekayasa agar
websitenya terdongkrak ke atas daftar hits.
Akibatnya, Google mulai menangkal spammer semacam itu dengan metoda yang
selalu baru. Oleh karena itu, saat ini PageRank hanyalah salah satu
dari banyak faktor yang mempengaruhi kedudukan website dalam daftar hits
Google.
Walau demikian, PageRank sering diperlakukan seperti sebuah valuta.
”Apabila Anda memberi saya dua link dari PageRank 4, saya memberi Anda
sebuah link dari website dengan PageRank 5“. Namun, tindakan bertukar
link ini tidak ada gunanya.
Misalnya, bertukar link antara sebuah website sepakbola dengan sebuah
website otomotif tidak ada gunanya bagi pembaca dan juga tidak ada
dengungnya di Google. Soalnya, Google memberi nilai lebih tinggi untuk
link yang relevan, daripada yang tidak ada kaitannya sama sekali. Jadi,
apabila Anda mendapat sebuah e-mail de*ngan tawaran barter link,
sebaiknya periksa dulu, apakah website nya tepat. Apabila relevan, tentu
ada gunanya.
Kembali ke algoritma Google, PageRank hanyalah puncak gunung es. Di
bawah tampilan Google tersembunyi banyak filter dan metoda penilaian
untuk website dan hasil pencarian (Daftar hits).
TRIK PROFESSIONAL - Dalam blognya, Matt Cutts memberikan beragam tips
seputar optimalisasi mesin pencari untuk website. Sebagai kepala tim
Google Webspam, ia menentukan filter dan aturan baru.
SEO (Search Engine Optimization)
Prinsip optimalisasi mesin pencari adalah “Berikan kode yang benar dan
isi yang bagus serta sedapat mungkin yang unik”. Jadi, mengingatnya
berpeluang mengangkat websitenya ke urutan teratas.
Kode yang benar terkait dua karakter kode HTML sebuah website. Di satu
sisi, harus benar secara sintaks. Di sisi lain perlu menggunakan elemen
HTML yang ada. Penting bagi Google terutama tags <title>,
<p>, serta tag title <h1> hingga <h6>. Di dalam
<title> terdapat penjelasan singkat mengenai dokumen dengan
<p> alinea diatur dengan rapi, judul-judul <h> menentukan
struktur artikel.
Tampaknya, penting juga untuk menggunakan judul <h1> sekali saja,
tetapi judul lainnya seperti <h2> atau <h3> lebih sering.
Sebuah syarat lainnya untuk hasil pencarian yang lebih baik adalah
kesabar*an. Sedikit demi sedikit pengelola website lain dihubungkan
dengan sebuah tawaran dan dengan demikian mendongkrak Page*Rank serta
popularitas website.
Tuning: Membangun link untuk website
Selain melalui Google, sebenarnya banyak jalan untuk mempublikasikan
website. Salah satunya adalah menyisipkan alamat atau link website Anda
di dalam forum atau blog. Namun pengelola blog sering tidak senang
mengenai ini. Link semacam itu baru berguna, apabila menawarkan info
relevan bagi pembaca forum atau blog yang bersangkutan.
Selain itu, masih banyak cara lain. Dalam komentar blog biasanya link
otomatis dilengkapi dengan parameter ”rel=nofollow”. Artinya, Google
tidak mengikuti link ini dan tidak menilainya sebagai voting untuk
PageRank.
Pihak yang bertanggung jawab atas keberadaan parameter ini lagi-lagi
spammer. Program botnya memenuhi blog dan forum dengan teks tidak
berguna dan banyak link untuk mendongkrak website mereka dalam mesin
pencari.
Link-Tracking: Voting melalui klik
Raksasa mesin pencari Google akan tidak berguna apabila ia tidak menilai
perilaku pengguna. Soalnya berdasarkan urutan klik ia dapat
menyimpulkan hasil pencarian mana yang lebih disukai pengguna dan
menyesuaikan rankingnya.
Dalam penjelasan perlindungan data Google, bagian yang bersangkutan
berbunyi “Google dapat menempatkan links dalam sebuah format, yang
memberi kami kemungkinan untuk mengetahui, apakah links ini digunakan.“
Demikian tercantum di www.google.com/privacypolicy.html.
Keuntungan pengukuran ini bagi Google adalah hampir tidak ada yang dapat
mempengaruhi. Satu-satunya cara untuk mendapatkan banyak klik adalah
memberi judul dan keterangan website yang bagus.
Sebagai judul biasanya Google memilih isi <title>-tags. Judul
sedapat mungkin harus menarik, sehingga pengguna tertarik untuk
mengklik.
Pada teks yang ditampilkan di bawah link oleh Google, HTML-metatags yang
lama diabaikan ini menunjukkan kelebihannya dalam <head>-element
sebuah website . Dalam
<meta name=“description“ content=“xyz“ />
sebaiknya programmer mencantumkan keterangan singkat mengenai isi pada
xyz. Seperti subheadline sebuah artikel di suratkabar, ia bisa berisi
semua fakta penting sebuah website. Dengan demikian, akan menarik
perhatian pengguna untuk mengkliknya.
Apabila sebuah artikel tidak memiliki metatags, Google memilih sebuah
bagian teks yang menurutnya tepat untuk ditempatkan di bawah link.
Black Hat SEO: Menipu Google
Setiap program dan setiap sistem memiliki kelemahan, termasuk Google.
Sejak mesin pencari mengirim pengguna ke website, banyak yang berupaya
mengubah hasil pencarian. Dengan demikian, ada kompetisi terus menerus
antara spammer dan pengelola mesin pencari. Yang satu ingin memanipulasi
untuk mendapatkan keuntungan, yang lain menginginkan hasil yang bersih
dan bebas spam.
Para manipulator, termasuk Black Hat SEO memanfaatkan celah aktual untuk
tujuannya. Metoda yang digunakan saat ini adalah konten spam dan link
spam. Keduanya menarik pengguna ke sebuah website yang ditampilkan di
daftar atas oleh Google, karena pada umumnya iklan-iklan di website ini
yang memiliki isi, pe*ngunjung mengkliknya dan spammer mendapatkan uang.
Konten spam ada dalam banyak versi. Yang paling sederhana adalah mengisi
sebuah teks dengan banyak istilah yang digunakan untuk mencari. Namun,
cara ini sekarang tidak seefektif dulu, ketika mesin pencari sekadar
menghitung berapa banyak istilah yang bersangkutan dalam sebuah website.
Google dan mesin pencari lainnya sudah mengatasi “Keyword-Stuffing” (http://www.google.com/support/webmas...y?answer=66358).
Caranya adalah membandingkan jumlah istilah-istilah dalam teks satu
dengan yang lainnya (keyword density). Dari persentase tertentu, sebuah
teks dapat dianggap spam.
Sebuah upaya penipuan lainnya yang telah diatasi Google adalah teks
tersembunyi. Di website, spammer menuliskan teks berwarna putih di atas
latar belakang putih. Dengan HTML atau CSS tidak masalah, karena pembaca
website tidak tahu apa-apa. Sebaliknya, dengan mesin pencari pasti
menemukan ratusan atau ribuan istilah tertentu dari teks tersebut.
Namun teks tersembunyi sudah tidak manjur lagi. Matt Cutts, juru bicara
tidak resmi Google untuk hal-hal SEO, dalam blognya menulis, tidak ada
gunanya menuliskan teks kelabu terang pada latar belakang putih (http://www.mattcutts.com/blog/seo-mi...y-hidden-text/).
Metode yang masih sering digunakan adalah “Scraping” atau penjiplakan
isi website lain untuk mengisi website sendiri. Cara ini sering
digunakan spammer dalam kaitan dengan layanan Google Adsense, untuk
mendapatkan uang melalui iklan. Namun tim anti-spam Google juga sudah
berupaya mengatasi cara ini (www.mattcutts.com/blog/step-into-my-shoes/).
Scraping tentu mengesalkan website yang berisi teks aslinya. Soalnya
website Scrape bisa saja ditempatkan lebih atas daripada website asli.
Link Spamming: Sampah dalam blog
Pengelola blog dan forum harus menghadapi link spamming. Karena link
farming sendiri tidak lagi berfungsi dengan baik, kini spammer
menggunakan cara lain. Mereka membanjiri blog, forum dan website dengan
daftar link.
Keuntungan bagi spammer, website yang disalahgunakan tidak mencurigakan.
Dan kalau Google melakukan suatu tindakan terhadap website yang penuh
sampah, bagi spammer tidak masalah. Masih banyak website lain yang dapat
digunakan untuk menampung sampah mereka.
Satu-satunya penangkal adalah atribut “nofollow” untuk anchor-tags yang
diberikan Google. Link semacam itu tidak diikuti Google dan tidak
tercantum dalam indeks. Dalam program blog WordPress, sejak awal atribut
“nofollow” diaktifkan. Meskipun tidak mencegah spam, setidaknya membuat
spam tersebut tidak efektif.
Bagi spammer tidak masalah. Mereka terus mengisi komentar blog dengan
harapan menemukan blog yang tidak menggunakan “nofollow”. Hanya dengan
layanan anti spam seperti Akismet pengelola website dapat mengatasi
link spam.
Spammer lainnya membuat blog sendiri. Dengan harapan memasukkan
tawarannya ke dalam Google. Pada dasarnya ini tidak berbeda dengan
link-farming bia*sa. Membuat website yang hanya berisi teks tanpa arti
dan hyperlink. Ini pun sudah lama diperangi oleh Google.
Cloaking: Favorit baru spammer
Cloaking berasal dari kata cloack (mantel), adalah sebuah teknik mesin
pencari lainnya yang digunakan spammer. Tampil*an asli website
disembunyikan. Konten untuk mesin pencari berbeda dengan untuk pembaca.
Hal ini dimungkinkan, karena googlebots yang digunakan untuk menyisir
website selalu dapat dikenali. Demi keamanan cloaker juga dapat
menyamakan alamat IPnya.
Apabila website Cloaking mengenali googlebots, ia menampilkan konten
khusus untuk mesin pencari. Misalnya ratusan kalimat yang menekankan
sebuah atau beberapa istilah dalam berbagai variasi. Namun, apabila
seorang pembaca membuka website ini, ia menemukan isi yang sama sekali
berbeda, dirancang khusus untuk umum dan tak ada kaitannya dengan yang
dicari.
Berdasarkan pola serupa adalah “site-redirect”. Melalui sebuah metatag
atau JavaScript, setelah website di-load pengunjung, maka akan
dibelokkan ke website lain. Berhubung Google tidak menginterpretasikan
JavaScript, googlebot tetap di website pertama dan menemukan konten
khusus.
Masyarakat umum mengetahui teknik ini ketika Februari 2005 perusahan otomotif ternama BMW keluar dari indeks Google (http://www.mattcuts.com/blog/ramping...ional-webspam/).
Perusahaan mobil ini telah menggunakan JavaScript-redirect. BMW
menampilkan kepada googlebot sebuah website teks berisi kata-kata kunci,
tetapi menggiring pengguna ke sebuah galeri foto mobil-mobil.
Konten Duplikat: Spam yang tidak diinginkan
Seorang webmaster mungkin berniat baik, namun ketika masuk ke dalam
daftar Google, tindakannya bisa saja salah. Salah satu sebabnya adalah
konten ganda, terutama ditemukan pada website yang lengkap. Konten
duplikat bisa terjadi dengan dua cara. Pertama, memang duplikat.
Misalnya, apabila sebuah website tersedia untuk browser dan dalam versi
cetak, serta di indeksasi oleh Google. Kedua, website ditemukan teks
yang sama.
Kini Google tidak lagi melihatnya terlalu sempit. Dua hingga tiga versi
artikel pada sebuah website “White-Hat“ tidak masalah, demikian tulis
Matt Cutts dalam blognya (http://www.mattcuts.com/blog/duplica...tent-question/).
Sebuah cara lainnya adalah melalui URL. Apabila sebuah website dapat
dicapai melalui beberapa nama domain, bisa menimbulkan masalah. Demikian
pula dengan filepath berbeda yang memiliki arti yang sama.
Contoh, sebuah artikel dapat dicapai melalui “www.myside.xy/artikel.php?id=1” maupun “www.myside.xy/greatheading-1”.
Bagi Google merupakan dua alamat berbeda, juga dua dokumen berbeda,
tetapi de*ngan isi yang sama. Oleh karena itu, website diturunkan
tingkatnya dalam indeks.
Masalah ini dapat diatasi dengan sebuah pembelokan. Apabila pengguna
misalnya memasukkan filepath yang pertama, ia akan dibelokkan ke path
file kedua. Pembelokan dilakukan oleh modul mod_rewrite pada server
Apache. Kode yang dibutuhkan misalnya dicantumkan dalam file .htaccess
yang harus berada di dalam root-directory website yang bersangkutan.
Mekanisme pembelokan terdiri dari tiga baris kode:
RewriteEngine on
RewriteCond %{HTTP_HOST} !^www\.myside\.xy$
RewriteRule ^(.*)$ http://www.myside.xy/$1 [R=permanent]
Baris pertama mengaktifkan fungsi untuk mengubah URL. Setelah itu,
RewriteCool memeriksa nama website yang bersangkutan. Apabila bukan www.myside.xy, baris ke 3 membelokkan semua permintaan ke www.myside.xy.
Sebagai tipe pembelokan dipilih ”permanent”. Dengan demikian, Google dan
mesin pencari lainnya dapat mengetahui alamat yang baru dan berlaku
seterusnya.
Pembelokan ini memang merepotkan pengelola website. Selama ada spammer
yang berupaya menduduki urutan atas dalam daftar hits, Google akan terus
ber*upaya menangkalnya.
0 komentar:
Post a Comment
comment as you like..