Google Page Rank(PR值)-什麼是PR值,要去哪看?

瀏覽: 人氣

Posted on 21 12 月, 2013 by A-MO

google-page-rank-explainedGoogle的PageRank數值(PR值)是Google用來評估「網頁重要性」的指標之一,數值為0~10,最高是10。在Google的搜尋結果中,PR值越高越有可能出現在Google搜尋結果的前幾頁,所以PR值越高才有辦法在茫茫網海中脫穎而出。

PageRank,網頁排名,又稱網頁級別、Google左側排名或佩奇排名,是一種由搜索引擎根據網頁之間相互的超連結計算的技術,而作為網頁排名的要素之一,以Google公司創辦人拉里·佩奇(Larry Page)之姓來命名。Google用它來體現網頁的相關性和重要性,在搜索引擎優化操作中是經常被用來評估網頁優化的成效因素之一。Google的創始人拉里·佩奇和謝爾蓋·布林於1998年在史丹福大學發明了這項技術。

PageRank演算法

簡單的

假設一個由4個頁面組成的小團體:ABCD。如果所有頁面都鏈向A,那麼APR(PageRank)值將是BCD的和。

PR(A)= PR(B) + PR(C) + PR(D)

繼續假設B也有連結到C,並且D也有連結到包括A的3個頁面。一個頁面不能投票2次。所以B給每個頁面半票。以同樣的邏輯,D投出的票只有三分之一算到了A的PageRank上。

PR(A)= \frac{PR(B)}{2}+ \frac{PR(C)}{1}+ \frac{PR(D)}{3}

換句話說,根據鏈出總數平分一個頁面的PR值。

PR(A)= \frac{PR(B)}{L(B)}+ \frac{PR(C)}{L(C)}+ \frac{PR(D)}{L(D)}

最後,所有這些被換算為一個百分比再乘上一個係數d。由於「沒有向外連結的頁面」傳遞出去的PageRank會是0,所以,Google通過數學系統給了每個頁面一個最小值(1 - d)/N

PR(A)=\left( \frac{PR(B)}{L(B)}+ \frac{PR(C)}{L(C)}+ \frac{PR(D)}{L(D)}+\,\cdots \right) d + \frac{1 - d}{N}

說明:在Sergey Brin和Lawrence Page的1998年原文中給每一個頁面設定的最小值是1 - d,而不是這裡的(1 - d)/N(關於這一部分內容也可以參考英文版的維基百科詞條)。 所以一個頁面的PageRank是由其他頁面的PageRank計算得到。Google不斷的重複計算每個頁面的PageRank。如果給每個頁面一個隨機PageRank值(非0),那麼經過不斷的重複計算,這些頁面的PR值會趨向於穩定,也就是收斂的狀態。這就是搜索引擎使用它的原因。

完整的

這個方程式引入了隨機瀏覽的概念,即有人上網無聊隨機打開一些頁面,點一些連結。一個頁面的PageRank值也影響了它被隨機瀏覽的機率。為了便於理解,這裡假設上網者不斷點網頁上的連結,最終到了一個沒有任何鏈出頁面的網頁,這時候上網者會隨機到另外的網頁開始瀏覽。

為了處理那些「沒有向外連結的頁面」(這些頁面就像「黑洞」會吞噬掉用戶繼續向下瀏覽的機率)帶來的問題,d=0.85(這裡的d被稱為阻尼係數(damping factor),其意義是,在任意時刻,用戶到達某頁面後並繼續向後瀏覽的機率。1-d=0.15就是用戶停止點擊,隨機跳到新URL的機率)的演算法被用到了所有頁面上,估算頁面可能被上網者放入書籤的機率。

所以,這個等式如下:

{\rm PageRank}(p_i) = \frac{1-d}{N} + d \sum_{p_j \in M(p_i)} \frac{{\rm PageRank} (p_j)}{L(p_j)}

p_1, p_2, ..., p_N是被研究的頁面,M(p_i)是鏈入p_i頁面的集合,L(p_j)p_j鏈出頁面的數量,而N是所有頁面的數量。

PageRank值是一個特殊矩陣中的特徵向量。這個特徵向量為

\mathbf{R} = \begin{bmatrix} {\rm PageRank}(p_1) \\ {\rm PageRank}(p_2) \\ \vdots \\ {\rm PageRank}(p_N) \end{bmatrix}

R是等式的答案

\mathbf{R} = \begin{bmatrix} {(1-q) / N} \\ {(1-q) / N} \\ \vdots \\ {(1-q) / N} \end{bmatrix} + q \begin{bmatrix} \ell(p_1,p_1) & \ell(p_1,p_2) & \cdots & \ell(p_1,p_N) \\ \ell(p_2,p_1) & \ddots & & \\ \vdots & & \ell(p_i,p_j) & \\ \ell(p_N,p_1) & & & \ell(p_N,p_N) \end{bmatrix} \mathbf{R}

如果p_j不鏈向p_i,而且對每個j都成立時,\ell(p_i,p_j)等於0

\sum_{i = 1}^N \ell(p_i,p_j) = 1,

這項技術的主要缺點是舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多外鏈,除非它是某個站點的子站點。

這就是PageRank需要多項演算法結合的原因。PageRank似乎偏好於維基百科頁面,在條目名稱的搜索結果中,維基百科頁面總在大多數或者其他所有頁面之前。原因主要是維基百科內相互的連結很多,並且有很多站點鏈入。

Google經常處罰惡意提高PageRank的行為,至於其如何區分正常的連結和不正常的連結仍然是個商業機密。但是在Google的鏈接規範中,已經很清楚的說明,那些做法是屬於違反操作Pagerank的行為。

PR值查詢頁面(繁體介面)http://pagerank.easylife.tw/
PR值查詢頁面(英文介面):http://www.prchecker.info/