搜索引擎的第三定律

- 中國WEB開發者網絡 (http://www.webasp.net)
-- 技術教程 (http://www.webasp.net/article/)
--- 搜索引擎的第三定律 (http://www.webasp.net/article/19/18309.htm)
-- 作者:未知
-- 發佈日期: 2005-04-29
■ 第一定律 相關性定律 
 聽起來像是一篇學術論文,的確,就連第一,第二定律的提法以前也沒有過,但是第一,第二定律的內容確早已在業界和學術界得到了公認。其實這第一定律是早在互聯網出現之前就被學術界廣泛研究過的,那就是所謂的相關性定律。這個領域那時叫情報檢索,或信息檢索,也有叫全文檢索的。

 那時的相關性都是基於詞頻統計的,也就是說,當用戶輸入檢索詞時,搜索引擎去找那些檢索詞在文章(網頁)中出現頻率較高的,位置較重要的,再加上一些對檢索詞本身常用程度的加權,最後排出一個結果來(檢索結果頁面) 。早期的搜索引擎結果排序都是基於本文的第一定律的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網絡時代之前學術界的研究成果,工業界的主要精力放在處理大訪問量和大數據量上,對相關性排序沒有突破。

 詞頻統計其實根本沒有利用任何跟網絡有關的特性,是前網絡時代的技術。然而,網絡時代的主要文獻是以網頁的形式存在的,而幾乎每個人都可以隨心所欲地在網上發表各種內容,詞頻相同的兩個網頁,質量相差可以很遠,可是按照搜索引擎的第一定律,對這兩個網頁的排序應該是一樣的。為了能夠派在某些檢索結果的前幾位,許多網頁內容的製作者絞盡腦汁,在其頁面上堆砌關鍵詞,搜索引擎對此防不勝防,苦不堪言。這種情況到了 1996年開始有了改變。 

.....................................................................................
 ■ 第二定律 人氣質量定律
 1996年4月,我到賭城拉斯維加斯開一個有關信息檢索方面的學術會議,會議的內容就像拉斯維加斯的天氣一樣,照例比較枯燥乏味。但遠離公司的我,卻難得有一個靜下心來認真思考問題的機會。就在聽一個毫不相干的論文演講的時候,我突然把科學引文索引的機制跟Web上的超級鏈接聯繫起來了 - 感謝北大,她在我上大三的時候就教授了我科學引文索引的機制,美國恐怕沒有一所大學會在你本科的時候教這玩藝兒。

 科學引文索引的機制,說白了就是誰的論文被引用次數多,誰就被認為是權威,論文就是好論文。這個思路移植到網上就是誰的網頁被鏈接次數多,那個網頁就被認為是質量高,人氣旺。在加上相應的鏈接文字分析,就可以用在搜索結果的排序上了。這就引出了搜索引擎的第二定律:人氣質量定律。根據這一定律,搜索結果的相關性排序,並不完全依賴於詞頻統計,而是更多地依賴於超鏈分析。

 我意識到這是一個突破性的東西,回去以後就很快總結了思路,於96年6月申請了這一方面的美國專利。1999年 7月6號,美國專利和商標局批准了專利號為5,920,859的,以我為唯一發明人的專利。大約在96年底,斯坦福大學計算機系的兩位研究生也想到了同樣的解決方法,他們後來創立了一個叫Google的搜索引擎,Google的網站上至今仍然說他們的這項技術是Patent-pending (專利申請中) ,不知道美國專利局是不是還會再批這樣的專利。Anyway, 超鏈分析的方法98年以後逐漸被各大搜索引擎所接受,由於鏈接是網絡內容的一個根本特性,這時候的搜索引擎才開始真正利用網絡時代的檢索技術。 

 世事難料,2000年起網絡泡沫迅速破滅,各大搜索引擎要麼遭人收購,要麼推遲上市,所有使用人氣質量定律的搜索引擎公司都未能倖免。那麼,搜索引擎的出路到底在哪兒?

.....................................................................................
 ■ 第三定律 自信心定律
 人氣質量定律解決的還是一個技術層面的問題,然而搜索引擎從誕生的那一天起,從來就不是一個純技術現像,它融合了技術,文化,市場等各個層面的因素。解決搜索引擎公司的生存和發展問題需要搜索引擎的第三定律--自信心定律。 

 1998年的時候,沒有太多的人拿一家遠在硅谷500英里以外,剛剛成立的,叫作GoTo.com(現已更名為Overture)的公司當回事兒。它不過是買了一個搜索引擎的技術服務,然後再向那些網站的擁有者們拍賣他們網站在GoTo檢索結果中的排名,誰付的錢多,誰的網站就排在前面,而且付費是根據網民點擊該網站的情況來計算的,僅僅在搜索結果中出現並不需要付費。這就是自信心定律的最早實踐者!根據這一定律,搜索結果的相關性排序,除了詞頻統計和超鏈分析之外,更注重的是競價拍賣。誰對自己的網站有信心,誰就排在前面。有信心的表現就是願意為這個排名付錢。需要聲明的是,自信心定律也是我自己給這一模式起的名字,以前的文獻中並沒有人這樣總結過。 

 今天,在網絡業一片蕭條,那斯達克風聲鶴唳的時候,GoTo卻如日中天,市值高達13億美金,收入高達雅虎總收入的35%。反觀門戶網站,有哪一個能從它們的搜索引擎服務中賺出總收入的三分之一呢?究其原因,就是因為GoTo最早實踐了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM來收費的,而CPM是從傳統廣告業借鑒過來的,沒有考慮網絡媒體即時性,交互性,易競價的特點,而競價排名,點擊收費則是為網站擁有者直接提供銷售線索,而不是傳統意義上的廣告宣傳。自信心定律一改過去搜索引擎靠CPM收錢的尷尬局面,開創了真正屬於互聯網的收費模式。 

 在中國,百度一直致力於推動搜索引擎市場的培植和發展,現在,我們聯合了各大門戶網站的搜索引擎,一起通過百度的競價排名系統來實踐搜索引擎的第三定律,為數十萬網站的擁有者提供一個展示自信心,吸引潛在客戶,發現銷售線索的平台。

webasp.net