今年度過15歲生日的Google早已成了“互聯(lián)網(wǎng)搜索引擎”的代名詞,但是互聯(lián)網(wǎng)搜索引擎并非Google首創(chuàng)——早在20年前,英國年輕人喬納森•弗萊徹(Jonathon Fletcher)就在一所大學的計算機實驗室里做出了世界上第一個使用爬蟲技術(shù)的搜索引擎,而這項技術(shù)是當今Google、必應、雅虎和其他各大搜索工具的基礎。
弗萊徹多年來一直默默無聞,就連他自己也沒有意識到自己就是“互聯(lián)網(wǎng)搜索引擎之父”,直到幾年前有研究人員發(fā)現(xiàn)了他的成就。BB C日前對他進行了專門報道,以下為文章主要內(nèi)容:
首次觸網(wǎng)
在1993年,互聯(lián)網(wǎng)剛剛對公眾開放,第一款大受歡迎的Web瀏覽器Mosaic也剛剛問世——它的界面與我們?nèi)缃袷褂玫母鞣N瀏覽器非常相似。在當時,全球總共只有數(shù)以千計的網(wǎng)頁,如何在Web上查找信息是個有待解決的問題。
Mosaic有個“What’s New”(新鮮事)頁面能對新建的網(wǎng)站加以索引,但網(wǎng)站創(chuàng)建者要想讓Mosaic的開發(fā)者注意到自己的網(wǎng)站,就必須給Mosaic開發(fā)團隊所在的伊利諾伊大學香檳分校(University of Illinois Urbana-Champaign)的美國國家超級計算機應用中心(NCSA)寫信。
那時候,喬納森•弗萊徹是斯特靈大學(University of Stirling)的一名研究生,正準備去格拉斯哥大學(University of Glasgow)攻讀博士學位,前途一片光明。
但是,弗萊徹還沒去格拉斯哥大學,那邊的科研項目經(jīng)費就被砍了,于是他一下子無事可做了。迫于生計,他回到斯特靈大學找了一份技術(shù)類工作——正是這份工作,讓他首次接觸萬維網(wǎng)和Mosaic的“What’s New”頁面。
改進索引
在為斯特靈大學構(gòu)建一臺Web服務器時,弗萊徹意識到“What’s New”頁面存在重大缺陷——網(wǎng)站都是人工添加至列表的,因此網(wǎng)站內(nèi)容變化是無法追蹤的,于是很多鏈接會很快過時或者被加上錯誤的標簽。如果想知道網(wǎng)站內(nèi)容有何變化,就只能回到網(wǎng)站上查看一番。
弗萊徹覺得一定有更好的方法,于是他決定發(fā)揮計算機專業(yè)科班出身的特長、寫點能幫自己查找信息的東西——這個東西,其實就是世界上第一個Web爬蟲軟件。
弗萊徹給自己的發(fā)明取名“JumpStation”。他匯總出一個能被Web爬蟲軟件搜索的網(wǎng)頁索引,而爬蟲會訪問它遇到的每一個網(wǎng)頁上的每一個連接并對它們建立索引——整個流程自動進行,直到爬蟲沒有東西可訪問為止。
10天之后,也就是在1993年12月21日,JumpStation沒有東西可以訪問了。此時,它已經(jīng)對2.5萬個網(wǎng)頁建立了索引。
而今天,谷歌已經(jīng)對超過1萬億個頁面建立了索引。
引擎問世
弗萊徹很快為網(wǎng)頁索引建立了一個容易操作的搜索工具,然后把自己的網(wǎng)站放在了Mosaic的“What’s New”頁面上——世界上第一個現(xiàn)代化的搜索引擎就這樣運行起來了。
澳大利亞皇家墨爾本理工大學(RMIT)的馬克•桑德森(Mark Sanderson)教授是一位研究信息檢索歷史的學者,他認為弗萊徹是“Web搜索引擎之父”。桑德森指出,雖然電腦上的搜索技術(shù)早已有之,但弗萊徹是創(chuàng)造現(xiàn)代搜索引擎雛形的第一人。
但是,谷歌創(chuàng)始人謝爾蓋•布林(Sergey Brin)和拉里•佩奇(Larry Page)的名字早已家喻戶曉,如今生活在香港的弗萊徹卻默默無聞,沒什么人知道他對互聯(lián)網(wǎng)發(fā)展的貢獻。
JumpStation越做越大,需要的投資也越來越多——后來斯特靈大學就不愿繼續(xù)為它提供資金了。“它在一臺共用服務器上運行,磁盤空間并不充裕,而且那時候的磁盤又小又貴。”弗萊徹解釋道。
無奈放棄
到了1994年6月,JumpStation已經(jīng)對27.5個網(wǎng)頁建立了索引。迫于空間限制,弗萊徹只能給網(wǎng)頁標題和導語建立索引,而無法顧及全部網(wǎng)頁內(nèi)容,但是盡管如此,JumpStation還是不堪重負。
不堪重負的還有弗萊徹——畢竟,他的本職工作是維護實驗室、管理系統(tǒng)和處理技術(shù)方面的瑣事,不是運作JumpStation。
后來,他有了一個去東京工作的好機會,而斯特靈大學也沒有對他和他的JumpStation多做挽留。“我顯然沒能成功說服他們相信它的潛力。”弗萊徹說道,“在當時,我做了我認為正確的事情;但是這20年來,我也曾多次回想起昔日時光。”
斯特靈大學計算機科學與數(shù)學學院的院長萊斯利•史密斯(Leslie Smith)教授向BBC表示,他記得弗萊徹和“超前問世”的JumpStation。他還表示,斯特靈大學的同事們對弗萊徹的成就開始被世人所知深感欣慰。
展望未來
弗萊徹雖然并不如意,但是他開創(chuàng)的技術(shù)為后來所有的Web搜索引擎奠定了基礎。
桑德森教授指出,JumpStation在1993年到1994年的互聯(lián)網(wǎng)圈子里無人不知,而谷歌直到1998年才問世。
幾周前,弗萊徹在都柏林的一次會議上引起了關注——作為特邀嘉賓,他與來自微軟、雅虎和谷歌的代表同臺發(fā)言。但是,他在演講中談到了未來。
“我認為,Web不會永久存在,但是查找信息的問題不會消失,人們搜索內(nèi)容和查找信息的欲望與媒介無關。”他向聽眾們?nèi)缡钦f道。
他的后繼者如今已經(jīng)賺得盆滿缽滿,但是他并不后悔。“我的父母為我自豪,我的妻子為我自豪,我的孩子們也為我自豪——這對我來說相當珍貴,所以我很幸福。”