“HillTop”論-探索Google排名新算法
2003的11月16號(hào)--這個(gè)日子可能會(huì)成為搜索引擎歷史的一個(gè)重要里程碑。正是在這次被大家稱為" Google Florida"的更新中,Google對(duì)其排名算法進(jìn)行了大規(guī)模改動(dòng),并導(dǎo)致很多原來排名很好的網(wǎng)站在一夜之間如夢(mèng)魘般直落孫山。每個(gè)更新周期可能會(huì)對(duì)排名算法做一些小小的改動(dòng)Google一貫的做法,但這次如此大手筆的改動(dòng),不能不讓網(wǎng)站管理員乃至整個(gè)搜索引擎優(yōu)化行業(yè)都倍感震驚和始料不及。不但很多原來排名一直保持前矛的商業(yè)網(wǎng)站丟掉了排名,同時(shí)亦使得許多做網(wǎng)站排名優(yōu)化的公司都受到了不小的沖擊。但由于Google幾乎占據(jù)了搜索市場(chǎng)的大半江山,倘若此時(shí)棄而轉(zhuǎn)用其它搜索引擎進(jìn)行生意推廣,并不見得為明智之舉。
對(duì)于Google新算法到底采用了什么新機(jī)制,仍然是SEO界爭(zhēng)論的焦點(diǎn)。目前有兩種主要理論。一種是"專家系統(tǒng)",即Hilltop算法,也就是本文將要闡述的;另外一種則是以Dan Thiesw為首的 TSPR(Topic-Sensitive-PageRank:主題性頁(yè)面級(jí)別技術(shù))理論,其大概思路為:查詢發(fā)生時(shí),Google將對(duì)查詢條件和CIRCA數(shù)據(jù)庫(kù)中包含的主題進(jìn)行匹配,查詢與主題的關(guān)系越密切,則主題性頁(yè)面級(jí)別得分效果越佳。此外,由于一個(gè)給定的查詢條件可能會(huì)與數(shù)據(jù)庫(kù)中多個(gè)主題匹配,所以頁(yè)面級(jí)別計(jì)算中出現(xiàn)的任何小錯(cuò)誤都將由關(guān)聯(lián)的一定數(shù)量的主題性頁(yè)面級(jí)別得分平攤,因而近似的主題性頁(yè)面級(jí)別得分即可提供高質(zhì)量的搜索結(jié)果。詳細(xì)論述可參看"TSPR理論-如何應(yīng)對(duì)Google PageRank排名新算法"。我們相信,無論Google采用什么新算法,其目的均旨在向用戶提供更為精準(zhǔn)的搜索結(jié)果。
HillTop (LocalScore) 算法
作者:Atul Gupta
Google新算法的廬山真面目到底是什么?這仍然是個(gè)迷。而在Google網(wǎng)站上,從其"對(duì)高質(zhì)量?jī)?nèi)容網(wǎng)站進(jìn)行獎(jiǎng)勵(lì)及對(duì)采用惡意技術(shù)的網(wǎng)站進(jìn)行懲戒"內(nèi)容中,亦無什么新內(nèi)容可尋端倪。自然,作為搜索引擎,這種做法是完全可以理解的。搜索引擎的算法應(yīng)該是保密的,因?yàn)樗鼈儗?duì)新算法的任何評(píng)論,同意或否定的言行都會(huì)泄露其新算法,而任何對(duì)排名系統(tǒng)的一丁點(diǎn)泄漏都有可能被一些人鉆了空子,并用來惡意操縱搜索結(jié)果,從而破壞搜索結(jié)果的客觀公正性。
我們根據(jù)一些比較具有可行性的推測(cè),并結(jié)合實(shí)際研究、試驗(yàn),以及對(duì)搜索引擎行為的發(fā)展趨勢(shì)和歷史的知識(shí)基礎(chǔ),得出了一些發(fā)現(xiàn)。首先,我們來看看對(duì)于Google新算法的一些比較值得注目的發(fā)現(xiàn):
1.Google新算法種種之種種傳言 & 猜測(cè)
對(duì)于Google新算法主要有下面這樣一些傳言和猜測(cè):
開始使用詞典對(duì)號(hào)入座;
意圖施壓使商業(yè)站點(diǎn)使用Adwords廣告服務(wù);
開始使用"基于貝葉斯定理的SPAM過濾系統(tǒng)" ;
開始處罰互惠鏈接,"優(yōu)化"網(wǎng)頁(yè),或"鏈接文本" ;
眾多猜測(cè)中,"Google意圖施壓使商業(yè)站點(diǎn)使用Adwords廣告服務(wù)"顯然占了上風(fēng)。許多搜索引擎優(yōu)化分析家都認(rèn)為:Google通過一個(gè)保密的過濾系統(tǒng)"黑名單"來對(duì)商業(yè)網(wǎng)站進(jìn)行篩選,從而達(dá)到上述目的。對(duì)此觀點(diǎn)我實(shí)在不敢茍同。解釋如下…
1.1 是否若查詢條件中包含"商業(yè)性關(guān)鍵詞"時(shí),Google會(huì)對(duì)搜索結(jié)果進(jìn)行篩選?
因?yàn)檫@次更新中損失最慘重的是一些商業(yè)網(wǎng)站,所以有很多搜索引擎優(yōu)化專家都認(rèn)為Google開始對(duì)那些含有所謂"商業(yè)性關(guān)鍵詞"的查詢條件所產(chǎn)生的查詢結(jié)果進(jìn)行篩選。而從優(yōu)化專家針對(duì)此所做的一些最初的測(cè)試結(jié)果來看,確實(shí)也表明了一些看起來似乎能夠證實(shí)這種推測(cè)的征兆。
1.2 Google此舉動(dòng)機(jī)何在?
如果這是真的,那么Google為什么要這樣做?這種推測(cè)的后盾在于Google算法更新的時(shí)間正好在圣誕購(gòu)物季節(jié)之前,并適逢其IPO上市之際。分析家認(rèn)為:Google這樣做是為了向商業(yè)性站點(diǎn)施加壓力,如果這些商業(yè)網(wǎng)站期盼在一年一度的美國(guó)傳統(tǒng)的圣誕購(gòu)物季節(jié)得到豐厚贏利的話,就得花錢做AdWords自助廣告。免費(fèi)午餐看來是沒有了。還有一些人則認(rèn)為Google此舉旨在為其最終業(yè)績(jī)(即基線)涂抹上一點(diǎn)光明的色彩來打動(dòng)其未來投資者。
1.3 那么又是誰(shuí)取代了商業(yè)站點(diǎn)原來的交椅?
從結(jié)果頁(yè)上看,前20個(gè)結(jié)果好象都是一些官方站點(diǎn)(.gov),教育類站點(diǎn)(.edu),公益組織性站點(diǎn)(.org),目錄及非美國(guó)本土的站點(diǎn)。由于這些站點(diǎn)一般并不太需要做廣告,所以分析家們據(jù)此相信:提升這些類型的網(wǎng)站不會(huì)影響到Google的廣告收入,同時(shí)還可以對(duì)商業(yè)性站點(diǎn)施壓并迫使其加入Google的AdWords自助廣告陣營(yíng)中來。
1.4 Google從何獲得"商業(yè)性關(guān)鍵詞"名單?
從Google的AdWords廣告系統(tǒng),Google已然擁有一個(gè)大型的"商業(yè)性關(guān)鍵詞"的數(shù)據(jù)庫(kù)。有趣的是,等于是那些廣告客戶和商業(yè)性站點(diǎn)的所有者自己把哪些是"好的商業(yè)詞語(yǔ)"告訴給Google了-Google通過廣告者對(duì)關(guān)鍵詞語(yǔ)的競(jìng)標(biāo)價(jià)格的變化完全可以看出每個(gè)關(guān)鍵詞語(yǔ)的"價(jià)值"來。
1.5 事實(shí)究竟如何?Google是否確是在用"商業(yè)關(guān)鍵詞"名單來過濾掉商業(yè)站點(diǎn)?
我個(gè)人認(rèn)為:這種想法實(shí)在與事實(shí)太過相悖,而且我堅(jiān)信:Google并不象分析家們所認(rèn)為的在"過濾"站點(diǎn)。而且我相信,Google壓根就沒有什么"商業(yè)關(guān)鍵詞"名單。一度流行的這種"過濾名單"理論是分析家們從自己所看到的跡象上得出的,而事實(shí)上這些所謂的跡象是由于其它原因所引發(fā)的,而并不是什么"過濾"所導(dǎo)致的。后面我會(huì)就此問題向大家詳細(xì)解釋和闡述。
不可否認(rèn),從實(shí)踐中我們確實(shí)可以看到一些象"過濾"的結(jié)果,但我們有理由相信這樣的結(jié)果實(shí)際上是Google新算法的一種"副產(chǎn)品",而非Google本意。新算法意圖對(duì)商業(yè)性網(wǎng)站而不是公益性網(wǎng)站施加影響。稍后我會(huì)向大家詳細(xì)解釋…
Scroogle.org,這個(gè)由不喜歡Google的群體所建立的網(wǎng)站,原來可以通過一種巧妙的方式從Google上提取數(shù)據(jù),并向用戶提供一種可檢查網(wǎng)站在Google上的"未過濾"的往日排名結(jié)果的工具。不過由于Google現(xiàn)已更新了算法以禁止此類查詢,故Scroogle.org現(xiàn)已無法提供這樣的工具。不過,該網(wǎng)站仍顯示有一個(gè)從其網(wǎng)站上多方搜索而收集到的所謂"Filter Hit"名單。我研究過這個(gè)名單。 我覺得,它充其量也只能證明了Google并未使用任何如上所說之名單。不然的確話,如何解釋"California Divorce Attorney"位于名單之首而"Books"或"Adult"卻屈居最下席?難道在Google眼里,"California Divorce Attorney"比"Books"或"Adult"更有商業(yè)價(jià)值?
Google任何從正常的排名機(jī)制中過濾掉把商業(yè)性站點(diǎn)的企圖都是對(duì)Google品牌,乃至對(duì)其公正的搜索結(jié)果信譽(yù)的嚴(yán)重?fù)p害。若真有這樣的企圖,那Google真是太短視了,根本配不上它的品牌和它的服務(wù)。Google的股票上市(IPO)和最終業(yè)績(jī)都將因此而毀于一旦。此外,Google也說過,其"搜索服務(wù)"和"AdWords自助廣告"服務(wù)分屬兩個(gè)不同的工作部門,且互不搭界、互不影響。對(duì)此我還是相信的。
2.Google搜索技術(shù)的幾個(gè)明顯變化
2.1 Google開始采用詞干技術(shù)(stemming)
Google確已在搜索結(jié)果中采用了詞干技術(shù)。在早先,如果搜索一個(gè)單數(shù)查詢條件如"home garden",則搜索結(jié)果中不會(huì)出現(xiàn)如"home gardens","home gardening"這樣的關(guān)鍵詞變化形式,反之亦然。對(duì)于Google的用戶來說,這種特性可能是一件好事情,因?yàn)樗阉魈峁┑慕Y(jié)果更多了,但站在搜索引擎優(yōu)化的立場(chǎng)來看,由于搜索結(jié)果的驟然增加,對(duì)關(guān)鍵詞的競(jìng)爭(zhēng)亦驟然加劇。
2.2 Google于搜索結(jié)果中使用了拼寫糾錯(cuò)工具
Google開始將其拼寫檢查工具用于搜索結(jié)果中。例如,當(dāng)輸入查詢條件為"Search Engine Optimisation"后,以往Google只會(huì)提示你是否是要找"Search Engine Optimization",但顯示的還是符合"Optimisation"的搜索結(jié)果。不過現(xiàn)在則能看到"Optimization"的搜索結(jié)果。再如:"e-mail solution"和"email solution"的搜索結(jié)果一致,而"e-commerce"則與"ecommerce"的搜索結(jié)果是一致的,這樣就增加了數(shù)據(jù)的競(jìng)爭(zhēng)性。
3.對(duì)Hilltop算法的分析和推測(cè)
3.1 為什么采用新算法
大多數(shù)網(wǎng)迷們都知道,頁(yè)面等級(jí)算法是由Google的創(chuàng)始人Sergey Brin和Larry Page所倡起的,用以精良網(wǎng)站在搜索結(jié)果中的排名。這也是自1998年Google發(fā)布以來的取得種種驕人成績(jī)的重要因素之一。
但頁(yè)面等級(jí)系統(tǒng)亦存在著一個(gè)基本的缺陷,Google也深知這一點(diǎn)。它根據(jù)一個(gè)網(wǎng)頁(yè)上被鏈接的站點(diǎn)數(shù)量和質(zhì)量來給該網(wǎng)頁(yè)分配一個(gè)絕對(duì)的"重要性值"。同時(shí)亦將鏈接頁(yè)面的頁(yè)面等級(jí)考慮在內(nèi)。指向一個(gè)網(wǎng)頁(yè)的外部鏈接頁(yè)的頁(yè)面等級(jí)越高,則該鏈接頁(yè)面?zhèn)鬟f給該網(wǎng)頁(yè)的頁(yè)面等級(jí)值也就越高。但是,"頁(yè)面等級(jí)值"并非針對(duì)查詢?cè)~語(yǔ),因而一個(gè)網(wǎng)頁(yè)即使只是在內(nèi)容中偶然提到了一個(gè)和查詢主題偏離的關(guān)鍵詞語(yǔ),也會(huì)因其居高的頁(yè)面等級(jí)值而獲得一個(gè)比較高的排名。
美國(guó)加州的克利須那。伯哈拉特(Krishna Bharat) 意識(shí)到基于頁(yè)面等級(jí)的排名系統(tǒng)中所存在的這種瑕玼,并于2000年提出了一種新算法,他稱其為"Hilltop"算法,并于2001年的一月份申請(qǐng)了Hilltop專利權(quán),Google成為受讓方。不言而喻,Google已然意識(shí)到這種新算法與其頁(yè)面等級(jí)系統(tǒng)的整合將為Google的排名系統(tǒng)帶來良好的效果。
我深信,在Google最近的更新中,不但運(yùn)用了Google自身的頁(yè)面等級(jí)和相關(guān)性算法,而且還結(jié)合使用了Hilltop算法用于精工調(diào)整頁(yè)面等級(jí)的效果,只不過Hilltop算法可能已迥異于它最初的模樣了。
3.2 什么是Hilltop算法?
對(duì)此算法有興趣了解并想挖根究底的人可以看看克利須那。伯哈拉特當(dāng)年所寫的Hilltop論文及詳細(xì)的Hilltop專利信息。但對(duì)我們大多數(shù)人來說,只要知道Hilltop算法到底是個(gè)什么東東就可以了。簡(jiǎn)單地說,頁(yè)面等級(jí)決定一個(gè)網(wǎng)頁(yè)的"權(quán)威性",而Hilltop(LocalScore)則決定匹配一查詢條件的一個(gè)網(wǎng)頁(yè)的"權(quán)威性"。
Bharat提出:在利用"頁(yè)面等級(jí)"來尋找"權(quán)威"網(wǎng)頁(yè)時(shí),不應(yīng)單純依賴于值的大小來定奪,而應(yīng)將重點(diǎn)放在它與查詢主題的相關(guān)性上; 即不但需要考慮網(wǎng)頁(yè)的頁(yè)面等級(jí),還要考慮該網(wǎng)頁(yè)的頁(yè)面等級(jí)與查詢主題的相關(guān)性是否相稱。若一個(gè)網(wǎng)頁(yè)只與查詢主題只沾點(diǎn)邊,那么即使其頁(yè)面等級(jí)非常之高,對(duì)用戶來說也是沒有意義的。如此一來,于網(wǎng)頁(yè)而言,那些來自于"相關(guān)主題"的文檔的鏈接就更有意義了 (Bharat稱這種"相關(guān)主題"文檔為"專家文檔"),一個(gè)網(wǎng)頁(yè)的所有外部"專家文檔"鏈接構(gòu)成了該網(wǎng)頁(yè)的"權(quán)威性值"。Hilltop算法的意義在于:相同主題網(wǎng)站之間的鏈接應(yīng)比非相關(guān)網(wǎng)站的鏈接具有更高的價(jià)值。
Hilltop算法以如下方式計(jì)算一個(gè)網(wǎng)頁(yè)的"權(quán)威值"(這只是極為簡(jiǎn)單的一個(gè)例子):
以該關(guān)鍵詞進(jìn)行一次普通查詢找專家文檔"文集"。"專家文檔"的定義有嚴(yán)格標(biāo)準(zhǔn),因該"文集"應(yīng)是數(shù)量上易于管理的一組網(wǎng)頁(yè)。
從返回的專家列表中把成員站點(diǎn)(見下注解*)和鏡象站點(diǎn)去掉。
根據(jù)所獲得的上述專家文檔對(duì)其投票的數(shù)量和質(zhì)量,網(wǎng)頁(yè)被分配以一個(gè)“局部分?jǐn)?shù)”(LocalScore)。然后按網(wǎng)頁(yè)的“局部分?jǐn)?shù)”進(jìn)行排名。
*注解:成員站點(diǎn)指來自同一個(gè)域,或域相同而后綴不同的站點(diǎn),如ibm.com,ibm.co.uk,ibm.co.jp等等,或指來自相鄰的IP地址的站點(diǎn) (前三位IP地址相同,形如64.129.220.xxx)
對(duì)于Google新算法到底采用了什么新機(jī)制,仍然是SEO界爭(zhēng)論的焦點(diǎn)。目前有兩種主要理論。一種是"專家系統(tǒng)",即Hilltop算法,也就是本文將要闡述的;另外一種則是以Dan Thiesw為首的 TSPR(Topic-Sensitive-PageRank:主題性頁(yè)面級(jí)別技術(shù))理論,其大概思路為:查詢發(fā)生時(shí),Google將對(duì)查詢條件和CIRCA數(shù)據(jù)庫(kù)中包含的主題進(jìn)行匹配,查詢與主題的關(guān)系越密切,則主題性頁(yè)面級(jí)別得分效果越佳。此外,由于一個(gè)給定的查詢條件可能會(huì)與數(shù)據(jù)庫(kù)中多個(gè)主題匹配,所以頁(yè)面級(jí)別計(jì)算中出現(xiàn)的任何小錯(cuò)誤都將由關(guān)聯(lián)的一定數(shù)量的主題性頁(yè)面級(jí)別得分平攤,因而近似的主題性頁(yè)面級(jí)別得分即可提供高質(zhì)量的搜索結(jié)果。詳細(xì)論述可參看"TSPR理論-如何應(yīng)對(duì)Google PageRank排名新算法"。我們相信,無論Google采用什么新算法,其目的均旨在向用戶提供更為精準(zhǔn)的搜索結(jié)果。
HillTop (LocalScore) 算法
作者:Atul Gupta
Google新算法的廬山真面目到底是什么?這仍然是個(gè)迷。而在Google網(wǎng)站上,從其"對(duì)高質(zhì)量?jī)?nèi)容網(wǎng)站進(jìn)行獎(jiǎng)勵(lì)及對(duì)采用惡意技術(shù)的網(wǎng)站進(jìn)行懲戒"內(nèi)容中,亦無什么新內(nèi)容可尋端倪。自然,作為搜索引擎,這種做法是完全可以理解的。搜索引擎的算法應(yīng)該是保密的,因?yàn)樗鼈儗?duì)新算法的任何評(píng)論,同意或否定的言行都會(huì)泄露其新算法,而任何對(duì)排名系統(tǒng)的一丁點(diǎn)泄漏都有可能被一些人鉆了空子,并用來惡意操縱搜索結(jié)果,從而破壞搜索結(jié)果的客觀公正性。
我們根據(jù)一些比較具有可行性的推測(cè),并結(jié)合實(shí)際研究、試驗(yàn),以及對(duì)搜索引擎行為的發(fā)展趨勢(shì)和歷史的知識(shí)基礎(chǔ),得出了一些發(fā)現(xiàn)。首先,我們來看看對(duì)于Google新算法的一些比較值得注目的發(fā)現(xiàn):
1.Google新算法種種之種種傳言 & 猜測(cè)
對(duì)于Google新算法主要有下面這樣一些傳言和猜測(cè):
開始使用詞典對(duì)號(hào)入座;
意圖施壓使商業(yè)站點(diǎn)使用Adwords廣告服務(wù);
開始使用"基于貝葉斯定理的SPAM過濾系統(tǒng)" ;
開始處罰互惠鏈接,"優(yōu)化"網(wǎng)頁(yè),或"鏈接文本" ;
眾多猜測(cè)中,"Google意圖施壓使商業(yè)站點(diǎn)使用Adwords廣告服務(wù)"顯然占了上風(fēng)。許多搜索引擎優(yōu)化分析家都認(rèn)為:Google通過一個(gè)保密的過濾系統(tǒng)"黑名單"來對(duì)商業(yè)網(wǎng)站進(jìn)行篩選,從而達(dá)到上述目的。對(duì)此觀點(diǎn)我實(shí)在不敢茍同。解釋如下…
1.1 是否若查詢條件中包含"商業(yè)性關(guān)鍵詞"時(shí),Google會(huì)對(duì)搜索結(jié)果進(jìn)行篩選?
因?yàn)檫@次更新中損失最慘重的是一些商業(yè)網(wǎng)站,所以有很多搜索引擎優(yōu)化專家都認(rèn)為Google開始對(duì)那些含有所謂"商業(yè)性關(guān)鍵詞"的查詢條件所產(chǎn)生的查詢結(jié)果進(jìn)行篩選。而從優(yōu)化專家針對(duì)此所做的一些最初的測(cè)試結(jié)果來看,確實(shí)也表明了一些看起來似乎能夠證實(shí)這種推測(cè)的征兆。
1.2 Google此舉動(dòng)機(jī)何在?
如果這是真的,那么Google為什么要這樣做?這種推測(cè)的后盾在于Google算法更新的時(shí)間正好在圣誕購(gòu)物季節(jié)之前,并適逢其IPO上市之際。分析家認(rèn)為:Google這樣做是為了向商業(yè)性站點(diǎn)施加壓力,如果這些商業(yè)網(wǎng)站期盼在一年一度的美國(guó)傳統(tǒng)的圣誕購(gòu)物季節(jié)得到豐厚贏利的話,就得花錢做AdWords自助廣告。免費(fèi)午餐看來是沒有了。還有一些人則認(rèn)為Google此舉旨在為其最終業(yè)績(jī)(即基線)涂抹上一點(diǎn)光明的色彩來打動(dòng)其未來投資者。
1.3 那么又是誰(shuí)取代了商業(yè)站點(diǎn)原來的交椅?
從結(jié)果頁(yè)上看,前20個(gè)結(jié)果好象都是一些官方站點(diǎn)(.gov),教育類站點(diǎn)(.edu),公益組織性站點(diǎn)(.org),目錄及非美國(guó)本土的站點(diǎn)。由于這些站點(diǎn)一般并不太需要做廣告,所以分析家們據(jù)此相信:提升這些類型的網(wǎng)站不會(huì)影響到Google的廣告收入,同時(shí)還可以對(duì)商業(yè)性站點(diǎn)施壓并迫使其加入Google的AdWords自助廣告陣營(yíng)中來。
1.4 Google從何獲得"商業(yè)性關(guān)鍵詞"名單?
從Google的AdWords廣告系統(tǒng),Google已然擁有一個(gè)大型的"商業(yè)性關(guān)鍵詞"的數(shù)據(jù)庫(kù)。有趣的是,等于是那些廣告客戶和商業(yè)性站點(diǎn)的所有者自己把哪些是"好的商業(yè)詞語(yǔ)"告訴給Google了-Google通過廣告者對(duì)關(guān)鍵詞語(yǔ)的競(jìng)標(biāo)價(jià)格的變化完全可以看出每個(gè)關(guān)鍵詞語(yǔ)的"價(jià)值"來。
1.5 事實(shí)究竟如何?Google是否確是在用"商業(yè)關(guān)鍵詞"名單來過濾掉商業(yè)站點(diǎn)?
我個(gè)人認(rèn)為:這種想法實(shí)在與事實(shí)太過相悖,而且我堅(jiān)信:Google并不象分析家們所認(rèn)為的在"過濾"站點(diǎn)。而且我相信,Google壓根就沒有什么"商業(yè)關(guān)鍵詞"名單。一度流行的這種"過濾名單"理論是分析家們從自己所看到的跡象上得出的,而事實(shí)上這些所謂的跡象是由于其它原因所引發(fā)的,而并不是什么"過濾"所導(dǎo)致的。后面我會(huì)就此問題向大家詳細(xì)解釋和闡述。
不可否認(rèn),從實(shí)踐中我們確實(shí)可以看到一些象"過濾"的結(jié)果,但我們有理由相信這樣的結(jié)果實(shí)際上是Google新算法的一種"副產(chǎn)品",而非Google本意。新算法意圖對(duì)商業(yè)性網(wǎng)站而不是公益性網(wǎng)站施加影響。稍后我會(huì)向大家詳細(xì)解釋…
Scroogle.org,這個(gè)由不喜歡Google的群體所建立的網(wǎng)站,原來可以通過一種巧妙的方式從Google上提取數(shù)據(jù),并向用戶提供一種可檢查網(wǎng)站在Google上的"未過濾"的往日排名結(jié)果的工具。不過由于Google現(xiàn)已更新了算法以禁止此類查詢,故Scroogle.org現(xiàn)已無法提供這樣的工具。不過,該網(wǎng)站仍顯示有一個(gè)從其網(wǎng)站上多方搜索而收集到的所謂"Filter Hit"名單。我研究過這個(gè)名單。 我覺得,它充其量也只能證明了Google并未使用任何如上所說之名單。不然的確話,如何解釋"California Divorce Attorney"位于名單之首而"Books"或"Adult"卻屈居最下席?難道在Google眼里,"California Divorce Attorney"比"Books"或"Adult"更有商業(yè)價(jià)值?
Google任何從正常的排名機(jī)制中過濾掉把商業(yè)性站點(diǎn)的企圖都是對(duì)Google品牌,乃至對(duì)其公正的搜索結(jié)果信譽(yù)的嚴(yán)重?fù)p害。若真有這樣的企圖,那Google真是太短視了,根本配不上它的品牌和它的服務(wù)。Google的股票上市(IPO)和最終業(yè)績(jī)都將因此而毀于一旦。此外,Google也說過,其"搜索服務(wù)"和"AdWords自助廣告"服務(wù)分屬兩個(gè)不同的工作部門,且互不搭界、互不影響。對(duì)此我還是相信的。
2.Google搜索技術(shù)的幾個(gè)明顯變化
2.1 Google開始采用詞干技術(shù)(stemming)
Google確已在搜索結(jié)果中采用了詞干技術(shù)。在早先,如果搜索一個(gè)單數(shù)查詢條件如"home garden",則搜索結(jié)果中不會(huì)出現(xiàn)如"home gardens","home gardening"這樣的關(guān)鍵詞變化形式,反之亦然。對(duì)于Google的用戶來說,這種特性可能是一件好事情,因?yàn)樗阉魈峁┑慕Y(jié)果更多了,但站在搜索引擎優(yōu)化的立場(chǎng)來看,由于搜索結(jié)果的驟然增加,對(duì)關(guān)鍵詞的競(jìng)爭(zhēng)亦驟然加劇。
2.2 Google于搜索結(jié)果中使用了拼寫糾錯(cuò)工具
Google開始將其拼寫檢查工具用于搜索結(jié)果中。例如,當(dāng)輸入查詢條件為"Search Engine Optimisation"后,以往Google只會(huì)提示你是否是要找"Search Engine Optimization",但顯示的還是符合"Optimisation"的搜索結(jié)果。不過現(xiàn)在則能看到"Optimization"的搜索結(jié)果。再如:"e-mail solution"和"email solution"的搜索結(jié)果一致,而"e-commerce"則與"ecommerce"的搜索結(jié)果是一致的,這樣就增加了數(shù)據(jù)的競(jìng)爭(zhēng)性。
3.對(duì)Hilltop算法的分析和推測(cè)
3.1 為什么采用新算法
大多數(shù)網(wǎng)迷們都知道,頁(yè)面等級(jí)算法是由Google的創(chuàng)始人Sergey Brin和Larry Page所倡起的,用以精良網(wǎng)站在搜索結(jié)果中的排名。這也是自1998年Google發(fā)布以來的取得種種驕人成績(jī)的重要因素之一。
但頁(yè)面等級(jí)系統(tǒng)亦存在著一個(gè)基本的缺陷,Google也深知這一點(diǎn)。它根據(jù)一個(gè)網(wǎng)頁(yè)上被鏈接的站點(diǎn)數(shù)量和質(zhì)量來給該網(wǎng)頁(yè)分配一個(gè)絕對(duì)的"重要性值"。同時(shí)亦將鏈接頁(yè)面的頁(yè)面等級(jí)考慮在內(nèi)。指向一個(gè)網(wǎng)頁(yè)的外部鏈接頁(yè)的頁(yè)面等級(jí)越高,則該鏈接頁(yè)面?zhèn)鬟f給該網(wǎng)頁(yè)的頁(yè)面等級(jí)值也就越高。但是,"頁(yè)面等級(jí)值"并非針對(duì)查詢?cè)~語(yǔ),因而一個(gè)網(wǎng)頁(yè)即使只是在內(nèi)容中偶然提到了一個(gè)和查詢主題偏離的關(guān)鍵詞語(yǔ),也會(huì)因其居高的頁(yè)面等級(jí)值而獲得一個(gè)比較高的排名。
美國(guó)加州的克利須那。伯哈拉特(Krishna Bharat) 意識(shí)到基于頁(yè)面等級(jí)的排名系統(tǒng)中所存在的這種瑕玼,并于2000年提出了一種新算法,他稱其為"Hilltop"算法,并于2001年的一月份申請(qǐng)了Hilltop專利權(quán),Google成為受讓方。不言而喻,Google已然意識(shí)到這種新算法與其頁(yè)面等級(jí)系統(tǒng)的整合將為Google的排名系統(tǒng)帶來良好的效果。
我深信,在Google最近的更新中,不但運(yùn)用了Google自身的頁(yè)面等級(jí)和相關(guān)性算法,而且還結(jié)合使用了Hilltop算法用于精工調(diào)整頁(yè)面等級(jí)的效果,只不過Hilltop算法可能已迥異于它最初的模樣了。
3.2 什么是Hilltop算法?
對(duì)此算法有興趣了解并想挖根究底的人可以看看克利須那。伯哈拉特當(dāng)年所寫的Hilltop論文及詳細(xì)的Hilltop專利信息。但對(duì)我們大多數(shù)人來說,只要知道Hilltop算法到底是個(gè)什么東東就可以了。簡(jiǎn)單地說,頁(yè)面等級(jí)決定一個(gè)網(wǎng)頁(yè)的"權(quán)威性",而Hilltop(LocalScore)則決定匹配一查詢條件的一個(gè)網(wǎng)頁(yè)的"權(quán)威性"。
Bharat提出:在利用"頁(yè)面等級(jí)"來尋找"權(quán)威"網(wǎng)頁(yè)時(shí),不應(yīng)單純依賴于值的大小來定奪,而應(yīng)將重點(diǎn)放在它與查詢主題的相關(guān)性上; 即不但需要考慮網(wǎng)頁(yè)的頁(yè)面等級(jí),還要考慮該網(wǎng)頁(yè)的頁(yè)面等級(jí)與查詢主題的相關(guān)性是否相稱。若一個(gè)網(wǎng)頁(yè)只與查詢主題只沾點(diǎn)邊,那么即使其頁(yè)面等級(jí)非常之高,對(duì)用戶來說也是沒有意義的。如此一來,于網(wǎng)頁(yè)而言,那些來自于"相關(guān)主題"的文檔的鏈接就更有意義了 (Bharat稱這種"相關(guān)主題"文檔為"專家文檔"),一個(gè)網(wǎng)頁(yè)的所有外部"專家文檔"鏈接構(gòu)成了該網(wǎng)頁(yè)的"權(quán)威性值"。Hilltop算法的意義在于:相同主題網(wǎng)站之間的鏈接應(yīng)比非相關(guān)網(wǎng)站的鏈接具有更高的價(jià)值。
Hilltop算法以如下方式計(jì)算一個(gè)網(wǎng)頁(yè)的"權(quán)威值"(這只是極為簡(jiǎn)單的一個(gè)例子):
以該關(guān)鍵詞進(jìn)行一次普通查詢找專家文檔"文集"。"專家文檔"的定義有嚴(yán)格標(biāo)準(zhǔn),因該"文集"應(yīng)是數(shù)量上易于管理的一組網(wǎng)頁(yè)。
從返回的專家列表中把成員站點(diǎn)(見下注解*)和鏡象站點(diǎn)去掉。
根據(jù)所獲得的上述專家文檔對(duì)其投票的數(shù)量和質(zhì)量,網(wǎng)頁(yè)被分配以一個(gè)“局部分?jǐn)?shù)”(LocalScore)。然后按網(wǎng)頁(yè)的“局部分?jǐn)?shù)”進(jìn)行排名。
*注解:成員站點(diǎn)指來自同一個(gè)域,或域相同而后綴不同的站點(diǎn),如ibm.com,ibm.co.uk,ibm.co.jp等等,或指來自相鄰的IP地址的站點(diǎn) (前三位IP地址相同,形如64.129.220.xxx)
