午夜精品在线观看,国产亚洲激情在线,少妇在线看www

當前位置：首頁>網站專題>網絡營銷

GooglePageRank排名新算法(二)

時間：2006年12月14日內容來源：互諾科技瀏覽量：0

做拋磚引玉之用。

2-1. Google的主題性趨向

2-1-1. 關于頁面級別(PageRank)及Google的舊算法出現(xiàn)問題的原因

頁面級別(PageRank)計算系統(tǒng)所遵循的思路是：通過一個經由互聯(lián)網的“隨機運動”來告訴你哪些站點是最重要的。該系統(tǒng)模擬的是一個隨機沖浪者跟進點擊某頁面上的隨機鏈接，至最深層頁面時按“返回”按鈕這一過程。頁面的等級越高，則隨機網絡沖浪者發(fā)現(xiàn)它的機率亦越高。

這種思路其實相當富有創(chuàng)意。一個網頁的外部鏈接越多，則對任意網絡沖浪者來說，發(fā)現(xiàn)它的機會也就越大。同時，在頁面級別算法系統(tǒng)中，頁面越流行，則其導入鏈接就越能從鏈接中受益—這是由于任意網絡沖浪者發(fā)現(xiàn)這些鏈接的機會就越大。

在特定領域的研究論文查詢方面，頁面級別系統(tǒng)幾乎無可挑剔。例如，如果用戶查詢關于素粒子物理學研究方面的論文(或網頁)文獻集，則對于一個給定條件的查詢，頁面級別的算法可以很快告訴你，哪些論文才是與該特定查詢條件最相關及最重要的論文，其原因就在于這些論文較其它論文的引用次數(shù)要多。

若互聯(lián)網上的資源具有同一主題性，那么這種工作可說是盡善盡美了。但正如我們所知道的，互聯(lián)網上的資源涵蓋了上百萬甚至更多的主題，而且在人們的實際生活中，查詢用戶所尋找的往往是一些具有特定主題的信息。所以雖然頁面級別系統(tǒng)考慮了所有鏈接，但卻忽視了鏈接頁面的主題性。

Google已試圖將鏈接的文本內容計入排名算法來克服這一局限性。但精明的搜索引擎營銷商卻通過在網絡上到處建立充盈關鍵詞的鏈接來欺騙Google的排名算法。一種新的作坊式行業(yè)也隨著PageRank應運而生—即有償交換和交易一些來自較高“頁面級別”頁的鏈接。

如果網站能夠從毫不相關的站點購買或交易導入鏈接而使網站排名得到提升的話，那么頁面級別技術已然無法為絕大多數(shù)查詢條件提供高質量的搜索結果了。我們有理由相信，當Google這個世界最頂級的搜索引擎一旦發(fā)現(xiàn)其搜索結果的質量開始惡化時，它是不會坐視不管的。

2-1-2. 新技術閃亮登場：主題性頁面級別技術(Topic-Sensitive PageRank)

2002年，斯坦福大學的一名博士生塔赫爾。哈維利瓦拉(Taher H. Haveliwala)發(fā)表了一篇非常有意思的論文，名為“Topic-Sensitive PageRank(主題性頁面級別計算系統(tǒng))”。而更加有趣的是，一年之后哈維利瓦拉成了Google的一份子。

“主題性頁面級別計算系統(tǒng)”通過對隨機查詢用戶的隨機運動增加一個“偏差”來處理基本的頁面級別計算系統(tǒng)所存在的問題。這個新的隨機查詢用戶具有明確的查詢目的，并更感興趣于跟進那些具有某個特定主題的相關網頁上的相關鏈接。這是一個相對而言較為新穎的思路，它解決了搜索結果的質量性方面的一系列關鍵性問題。

毫無疑問，哈維利瓦拉將成為搜索引擎業(yè)界中一個舉足輕重的角色。他已經在搜索技術的其它領域方面進行了一些實質性的研究工作，包括如何更有效計算頁面級別方面的一些比較有趣的研究。

在最初的研究論文中，哈維利瓦拉描述了他是如何利用斯坦福大學的網絡數(shù)據(jù)庫，對應于ODP(開放目錄)的16個頂級目錄的16個主題來計算“主題性”頁面級別得分。雖然該研究的主題和數(shù)據(jù)數(shù)量(8千萬個網頁)十分有限，但能夠看出這種新系統(tǒng)可改善搜索結果，且具備對查詢用戶感興趣于何種主題的理解能力。

就在去年，當我回過頭來再閱讀這篇論文時，我注意到哈維利瓦拉所描述的這種系統(tǒng)對搜索引擎來說還存在著兩個問題。不過下面我們將會看到，這兩個問題現(xiàn)在都能得到妥善解決了。

第一個問題是充分拓展主題的數(shù)量。要想改善搜索結果，16個主題自然是遠遠不夠的。但由于Google的頁面級別計算系統(tǒng)的代價非常之高，因而除非新系統(tǒng)能夠提供一些改進的措施，否則Google不大可能實施這個新系統(tǒng)。但隨著這一領域在過去的一年中的深遠發(fā)展，因而我相信現(xiàn)在在主題數(shù)量上已不是大問題了。

第二個問題就是如何決定一個查詢條件可能對應的主題–- 當用戶輸入諸如“自行車”一類的查詢條件時，這個用戶是想買自行車呢，還是想騎自行車旅游呢？下面我將為大家簡單闡述一下Google可能會怎樣匹配一給定查詢條件以最恰當?shù)闹黝}，以及為什么一些查詢條件更容易受到影響的原因。

2-1-3. 關于Applied Semantics公司及其專利技術CIRCA

Applied Semantics網絡廣告軟件公司是互聯(lián)網廣告方面的專家，于2003年4月份被Google收購。Google此舉旨在加強搜索和廣告功能。如今該公司的技術已對Google產生了深遠的影響。例如在Google的Adwords關鍵詞廣告系統(tǒng)中，為PPC廣告客戶提供基于內容的廣告就是采用了Applied Semantics的AdSense技術。

事實上Google在這次收購中獲利的還不止AdSense技術，AdSense的后臺技術其實就是Applied Semantics公司所擁有的專利技術CIRCA。

CIRCA技術所基于的是一個獨立語言并具有高度擴展性的本體論，這個本體論中包含了上百萬詞語，詞語含義及這些詞語與其它自然語言中的詞語之間的概念性關系。由復雜的搜索技術所支持的本體論是對詞語的多樣性含義的概念性理解的基礎，它能夠使計算機對信息進行更加有效的管理和檢索，從而為搜索用戶更好的提供探索知識的機會。

CIRCA技術的作用就在于它可以確定對特定詞語或短語的相關概念。該技術目前被用來從眾多內容中為廣告客戶提供相關廣告服務，亦可應用于Google的關鍵詞詞根還原系統(tǒng)。

尤其值得一提的是：CIRCA能夠計算“短語A”對“概念B”的相關程度。例如，如果用戶查詢“Colorado bicycle trips”，CIRCA能夠將其與“Colorado”地域，“騎車”，“旅游”等主題概念性地聯(lián)系起來。這意味著它們能夠計算其數(shù)據(jù)庫中不同的概念與用戶查詢條件之間的“距離”。這一點十分重要。

2-1-4. 二者的有機結合：主題性搜索引擎的實現(xiàn)

現(xiàn)在我們對主題性頁面級別和CIRCA都有了一定的了解，那么接下來的問題就是：這二者之間是如何有機聯(lián)系的？換言之，Google如何結合這些技術來產生一個更好的搜索引擎呢？

首先，讓我們來設想一下：假如對于大量的(上百直至上千個)主題或概念，Google已然解決了如何計算其主題性頁面級別的問題。

在Google過去所使用的頁面級別系統(tǒng)中，計算結果的精準性是相當重要的。但隨著主題性算法的發(fā)展，不久我們就可能看到，也許速度快而且效果良好的近似計算結果才是他們所需要的。從上述論文中我們不難看出這一點已然頗具可行性。

現(xiàn)在，如果用戶再查詢的話，則查詢條件中的詞語將至少與CIRCA數(shù)據(jù)庫中若干主題緊密匹配。Google完全能夠基于用戶所使用的查詢條件及數(shù)據(jù)庫中所包含的主題之間的“距離”來提供“主題性頁面級別”得分，從而向用戶提供更好的搜索結果。查詢與主題的關系越密切，則主題性頁面級別得分效果越佳。

由于一個給定的搜索查詢條件有可能與數(shù)據(jù)庫中的多個主題匹配，所以頁面級別計算中出現(xiàn)的任何小錯誤都將由影響該查詢條件的多個主題性頁面級別得分平攤，因而只需近似的主題性頁面級別得分就足以提供高質量的搜索結果了。

當數(shù)據(jù)庫中無任何主題與用戶的查詢條件匹配時，則Google可使用原來的頁面級別系統(tǒng)。若與查詢條件匹配的主題太多，則仍使用新系統(tǒng)計算主題性頁面級別得分，盡管新算法可能會與原算法得出的分數(shù)相似。如果匹配主題與查詢條件之間的相關度很低，則效果亦會大打折扣。

2-1-5. 安然接受和理解算法的改變

可能某些查詢條件返回的搜索結果有較大的變動-–但原來在搜索結果中排名在前100位的網頁全都被刷下去的情形卻少之又少。

有效數(shù)據(jù)所面臨的一個大問題在于：對于發(fā)生搜索結果改變較大的報告呈上升趨勢。從這些“自述”數(shù)據(jù)之中我們可以看到Google的很多搜索結果發(fā)生了徹底的改變。而造成我們看到這種局面的原因恰好在于，這些“自述”數(shù)據(jù)中的絕大部分都是由那些排名被刷下來的網站提供的。

我們并未從這些“自述”變化著手，而是采用了另外一種途徑，即從若干可用的網上資源中記錄下最近時間內發(fā)生的搜索，然后觀察搜索結果中的變化。

我們隨機(沒有任何成見地)研究了上百個人們日常使用的真實存在的查詢條件，并標識出其中每個查詢條件的改變總數(shù)，然后我們發(fā)現(xiàn)改變的程度在總體上仍保持著一貫的干凈局面。在實際生活中，這種根本性的改變只是發(fā)生的例外，把它當成規(guī)則就大錯特錯了。

2-1-6. 主題并非關鍵詞... 亦并非十全十美

千萬不要把“主題”和“關鍵詞”相混淆。主題代表的是一個綜合性題目，例如“計算處理”、“市場營銷”等等。而特定的查詢條件(關鍵詞)，如“筆記本電腦租賃”，“電子郵件營銷”等，將與更多的綜合性主題聯(lián)系起來。

但從Google目前所提供的一些搜索結果來看，不難發(fā)現(xiàn)其中的部分搜索結果所匹配的主題是錯誤的。例如對”laptop rental”，用戶搜索“筆記本租賃”往往是想租賃一臺筆記本電腦，但在Google返回的搜索結果中，排在前面的卻是大學里面的筆記本租賃信息-- www.google.com/search?sourceid=navclient&q=laptop+rental。

這是怎么回事呢？只要看看鏈接到這些網頁上的鏈接，就可以發(fā)現(xiàn)這些鏈接大都具有相似的主題性，如Computing，Housing(學生在校園里出租住處)，等等。大家可以用其它詞語進行查詢，然后分析排名靠前的那些頁面上的外部鏈接，就會更容易理解為什么“l(fā)aptop rentals”會有如此的搜索結果了。

Google仍有可能提供不夠理想的搜索結果，當然也有可能再次受到蒙騙，只是這種機率越來越小而已。同時我們相信Google會多花一些時間來修正這些問題。

2-1-7. 為什么只有部分搜索結果頁發(fā)生了根本的改變？

我們不必理會那些對Google新算法的非議，只要再來看看真實的數(shù)據(jù)，你就不難理解為什么有些查詢條件較其它查詢條件更易受到影響。

我們以“Real Estate”為例，依照Scroogle.org的方法論，有77個原來排名在前100位的網頁排名降到了100名之后。而對于更為具體的查詢條件“Colorado Real Estate”，有24個排名在前100名的網站受到了影響。

而在那些被刷下來的網頁中，我第一個看到的是一個標題為“Southern California Real Estate”的頁面。有趣的是，倘若用“Southern California Real Estate”進行更具體的查詢，你會發(fā)現(xiàn)它排名高踞第二位。換言之，這些網頁并不是受到了Google的處罰，而只是由于缺乏對查詢條件的相關主題性而使排名掉下來罷了。

也有極少數(shù)競爭性很強的查詢關鍵詞對搜索結果的排名沒有造成什么影響。這種現(xiàn)象已被用作對Google排名算法的各種猜測的正確性與否的一個依據(jù)。但我認為對這種現(xiàn)象的解釋其實也很簡單--以“search engine optimization”為例，在返回的搜索結果中，前30個網頁列表幾乎沒什么變化。如果對排在榜首的頁面進行分析的話，就可以發(fā)現(xiàn)這些網頁上的外部鏈接都具有良好的相關性，這樣的網頁在一個主題性頁面級別的計算系統(tǒng)下也會做的很好。

可能Google采用的新算法與我的猜測大相徑庭，不過目前為止我尚未發(fā)現(xiàn)比這更好的猜測。不過這些并不重要，我們只要清楚一點：不管Google怎么改變它的算法，成功的秘訣其實相當簡單--勝出的往往是那些擁有大量內容和大量相關鏈接(包括導入鏈接和導出鏈接)的站點。而那些使用門頁(Doorway Page)和鏈接交換的網站就不會再這么好運氣了。

返回列表

中文字幕在线直播,成人免费图片免费观看,国内精品国语自产拍在线观看,国产欧美精品区一区二区三区