第四十六章 搜索引擎的研發

隋波安撫好了左清泉之後,也答應她,等考試周之後,會讓她負責一些相對輕鬆的工作。

比如公司現在還沒有專門的行政部門。

可以讓她和張軒兩個人先組成CEO辦公室,兼管公司內部行政綜合事務,像法務、公關、後勤、文件報告彙總之類的事情。

這也是一種鍛鍊。

可以從這些內部的職能工作,讓他們全面的熟悉和理解公司正規化運作的流程和模式。

等左清泉離開之後,隋波想了想,還是覺得應該去看看王川團隊的研發進展。

隨着這段時間各項目展開,無論是龐勇還是周楓、王川他們都覺得技術力量不夠,又各自從學校里拉了一些同學進入團隊,整個技術團隊擴張的很快。

當時隋波在外地,就讓左清泉去找了趙寧,把公司隔壁的兩間辦公室也都租了下來。

周楓、許朝軍帶領的校內網開發團隊和王川帶領的搜索引擎研發團隊,都從原來的辦公室分了出來,易趣那個辦公室裡只留了電商團隊。

新業務的研發團隊分別在兩個新辦公室裡閉關。

一推開門,隋波有些驚訝的看到,不大的房間裡,中間是一張長桌,長桌上一個緊挨一個的擺放着十幾臺電腦,將長桌擠得滿滿的。

一幫少年們頭髮亂糟糟,眼圈發黑,眼睛發光的盯着電腦屏幕,渾然忘我的噼裡啪啦敲打着鍵盤。

桌上的電腦之間就算稍微有點空隙,也都擺滿了方便麪火腿腸之類的速食品。

要不是那些電腦屏幕上,顯示的一行行代碼,簡直就是一個小型黑網吧的現場!

王川坐在最靠裡的一臺電腦前,眉頭緊鎖,盯着屏幕,似乎正在思索什麼難題。

別看這個場面,看起來好像是一羣泡吧的頹廢網癮少年。

隋波可是清楚,這幫少年們都是計算機天才!

王川直接從學校里拉了不少水木計算機國家集訓隊的隊友來,組成項目團隊攻關搜索引擎!

隋波想了想,回去找左清泉。

讓她找附近的餐廳預訂每天的飯菜,送到公司來,再買幾箱飲料、咖啡、麪包餅乾之類的小食品,放到幾個研發團隊的辦公室裡。

估計不僅王川團隊,龐勇、周楓他們那兒也都一樣。

這幫技術男們敲起代碼來,都是沒日沒夜的。

沒有打擾其他人的工作,他悄悄把王川叫出來,在自己辦公室裡,和他專門交流研發情況。

目前搜索引擎項目最大的困難在於,沒有可供參考的對象。

雖然可以參考一些國外的資料和論文,但因爲涉及到一些核心技術,是無法通過網絡查找到的,都需要自行開發。

隋波點頭表示同意。

這個時候Google還不存在呢,要到9月份的時候,布林和佩奇才會在加州一個車庫裡開始創業。

百度更是沒影的事兒,老李還在搜信裡混呢。

現階段,無論是國外的Lycos、AltaVista、Infoseek(搜信),雅虎搜索引擎;還是國內搜狐推出的所謂全中文搜索引擎,都還是以人工分類目錄爲主的網站檢索服務。

說是搜索引擎,其實更像是目錄導航網站……

儘管其中一些搜索引擎已經有了網頁關鍵詞檢索、用戶點擊量排序等一些創新,但本質上,還是需要大量的人工編輯的目錄式搜索引擎(Directory Search Engine)。

而隋波希望王川團隊開發的,則是全新的,通過技術程序,自動在互聯網上通過超鏈接網頁進行全文檢索的機器人搜索引擎(Robot Search Engine)。

這樣的話,就需要從頭做起,開發一整套完整的技術體系。

其中包括網絡爬蟲(Web Crawler)服務、索引服務、緩存服務、日誌服務等幾大模塊,各模塊之間互相影響,構成了整個搜索引擎體系。

從開發量上,技術難度是遠遠大於目錄式檢索技術的。

首先說網絡爬蟲,也稱網絡蜘蛛(Web Spider),這項技術是基於Web的自動化瀏覽程序,通過網頁鏈接(URL),爬蟲不斷的通過互聯網中獲得新的網頁數據,下載頁面數據形成後臺數據庫。

可以說,網絡爬蟲抓取數據是搜索引擎工作流程的第一步。

爬蟲的體系架構直接關係到搜索引擎每天數據的採集量,而抓取策略則關係到搜索結果的數據質量,數據的更新策略則關係到系統資源的利用率。

這只是第一步,採集了大量數據信息之後,還需要通過自然語言處理(NLP),將文本信息分解爲結構化數據和價值性數據。

這裡面就又存在一個問題,目前國外的搜索引擎都是英文分詞,而中文比較特殊,最小單位是字,但具有語義的最小單位是詞。

所以,在中文分詞這一部分,就需要技術團隊單獨進行開發。

通過建立詞庫、採用條件隨機概率分佈模型、詞性標註、語義相似度、已存句法分析、情感傾向分析等,通過各種模型判斷,讓程序理解抓取到的關鍵詞中文的語義,才能提高搜索的準確性和查全率。

這還只是其中比較小的開發困難。

比如,搜索引擎的核心就是通過海量數據抓取後的快速檢索,而抓取的數據越多,當龐大的數據存儲在數據庫裡,就需要構建快速存取數據的分佈式存儲架構。

再比如,爲了讓用戶在最短的時間內獲得想要的搜索結果,就需要後臺系統不斷的執行數據抓取和建立索引等操作。

這就需要建立分佈式實時計算系統,以及對索引結構的構建……

王川估計也是最近開發中有些鬱悶了,一說起來就滔滔不絕。

隋波雖然不太懂他說的一些技術術語,但畢竟前世作爲用戶也使用了20多年的搜索引擎,接觸的多了,也瞭解一些基本的知識。

他安靜的聽着王川不斷的講述團隊面臨的一個個困難,又是怎麼想辦法克服的。

不時提問兩句,顯得聽的很認真。

腦子裡卻不斷的在回憶,當初Google和百度是有哪些創新的舉措,才一舉成功的?

印象最深的,就是那句“百度更懂中文”,這應該就是剛纔王川所提的中文分詞了,這塊王川已經考慮到了。

至於是不是更進一步,先弄個智能輸入法出來?……

現在團隊的研發壓力已經很大了,暫時先略過不提。

還有就是百度快照,不過好像這個功能雖然對用戶而言很有價值,但爭議很大……

還有就是Google獨創的PageRank技術。

這是一種根據網頁之間的鏈接結構來評價判斷網頁重要性的排序算法。

想到這裡,隋波就提了一下,是否在搜索結果的排序算法上,可以採用這種模式?

從網頁的鏈接數量、權威性、主題相關性、網頁內容的匹配性等多個方面,綜合分析,進行搜索結果的排序。

王川聽了以後若有所思:“這個算法我回去研究一下,應該沒問題。”

隋波笑道:“技術上我沒辦法給你太大的幫助,不過我可以從公司激勵政策和後勤上爲團隊鼓勁!

你回去和大家說一下,搜索引擎項目的團隊項目獎金定在10萬,而且根據每個人的表現,到時候還有個人獎勵。

我已經讓清泉給你們做好後勤,每天會定時讓樓下餐廳送飯菜過來。

另外給你們弄一個休息間,裡面準備好啤酒、咖啡、飲料和小吃,保證供應。

嗯……,再讓她給你們辦公室裡配一個沙發,大家累了可以躺下休息一會。

王川,這個項目將會是公司除了電商平臺,最核心的業務,還要你多辛苦了!”

王川點頭,一臉的倔強:“波總,你放心,我有信心把這個搜索引擎搞出來!實際上每當解決一個技術難題,大家的那種快樂都是無法言表的,公司又給我這麼大的支持力度,我一定全力以赴!”

隋波拍拍他的肩膀:“我相信你,你也彆着急,和團隊成員要勞逸結合,注意休息,別搞壞了身體,我們還有足夠的時間來成長!”

第二百五十章 狙擊百度上市第二十三章 校園二三事第二十二章 慶功會第六十八章 機構爭搶第三十三章 一次至關重要的挖角第二百六十三章 長城會議-2 前奏第二百五十二章 Who is Baidu?第一百七十六章 遊學硅谷第三百零三章 雲計算競爭第一百六十七章 百度融資第二百八十七章 帝王之術、朋友之義第一百零五章 兩種選擇第一百一十四章 擁抱變化第二百七十三章 展訊通信第二百三十八章 閃電收購-驚雷第二百零六章 在香港第一百四十章 初見老馬第一百二十三章 系統改造與技術升級第三百三十九章 分身乏術……第八十三章 重回校園第三百一十三章 “星魂計劃”第二百三十八章 閃電收購-驚雷第一百五十六章 紅衣大炮和流氓插件第三百零七章 火力全開的隋波第三百五十二章 新總部大樓第一百六十八章 隋波的瘋狂佈局……第一百五十八章 組織架構再次調整第二百六十三章 長城會議-2 前奏第二百一十二章 我們的征途是星辰大海第七章 “波妹”是什麼鬼?第三百四十五章 “和解”談判-2第一百七十五章 一鳴驚人!第六十三章 石舫約談第二百四十七章 新世界第四十八章 小公主第三百一十章 衆望所歸!第二百一十五章 生態閉環第八十九章 四面皆敵第二百九十六章 不平凡的一年第三百二十七章 深市佈局第三十五章 總結和調整第十一章 項目前期評估第四章 讓子彈飛一會兒第二百九十八章 利益共同體第三十五章 總結和調整第二百三十九章 《對話》-解碼隋波的互聯網夢想第一百三十九章 易趣董事會改組第二百四十三章 趣遊問題第二百七十二章 目標:中芯第二百一十二章 我們的征途是星辰大海第二百二十九章 僞.新零售第四十章 提前出現的“校內網”第二十四章 平平無奇的隋波第二百九十七章 大宅門第二百四十二章 沒忍住第六十五章 啓動A輪融資第二百二十七章 老黃的霸氣第一百零一章 上市啓動第三百零八章 走偏的老李第三百二十二章 初心第一百七十章 開放平臺戰略第一百二十三章 系統改造與技術升級第二百八十五章 套現兩百億!第一百四十八章 重生者就是大BUG第一百二十八章 一枝獨秀的易趣第二百三十八章 閃電收購-驚雷第二百三十八章 閃電收購-驚雷第九十九章 分公司治理第三百一十七章 真.實力生態第三百五十二章 新總部大樓第三百三十一章 王者之基-“入口”第三百六十五章 第一站思密達第七十章 融資完成第三百六十三章 遊戲是門大生意第三十八章 “歷史性”的見面第二百零六章 在香港第九十七章 《財富》全球論壇年會第三百九十三章 Android聯盟“問世”!第三百九十七章 起勢!第三百三十章 “乾坤袋”計劃第三百一十五章 夜宴.如神第一百六十九章 老張邀約第三十五章 總結和調整第二百三十三章 “攪局者”還是“顛覆者”第二百五十三章 坐而論道第一百一十五章 搜索平臺是重要的流量入口!第二百四十二章 沒忍住第三百八十四章 好久沒裝逼了第二十一章 易趣“南牆會議”-2第三百二十七章 深市佈局第十四章 意外之喜第九十五章 內部演講第二百二十二章 下一個目標,新浪?第一百四十二章 未雨綢繆第三百五十三章 2006年完美收官第三百八十六章 反響第一百四十八章 重生者就是大BUG第七十六章 大才槃槃第七十三章 人生若真能初見
第二百五十章 狙擊百度上市第二十三章 校園二三事第二十二章 慶功會第六十八章 機構爭搶第三十三章 一次至關重要的挖角第二百六十三章 長城會議-2 前奏第二百五十二章 Who is Baidu?第一百七十六章 遊學硅谷第三百零三章 雲計算競爭第一百六十七章 百度融資第二百八十七章 帝王之術、朋友之義第一百零五章 兩種選擇第一百一十四章 擁抱變化第二百七十三章 展訊通信第二百三十八章 閃電收購-驚雷第二百零六章 在香港第一百四十章 初見老馬第一百二十三章 系統改造與技術升級第三百三十九章 分身乏術……第八十三章 重回校園第三百一十三章 “星魂計劃”第二百三十八章 閃電收購-驚雷第一百五十六章 紅衣大炮和流氓插件第三百零七章 火力全開的隋波第三百五十二章 新總部大樓第一百六十八章 隋波的瘋狂佈局……第一百五十八章 組織架構再次調整第二百六十三章 長城會議-2 前奏第二百一十二章 我們的征途是星辰大海第七章 “波妹”是什麼鬼?第三百四十五章 “和解”談判-2第一百七十五章 一鳴驚人!第六十三章 石舫約談第二百四十七章 新世界第四十八章 小公主第三百一十章 衆望所歸!第二百一十五章 生態閉環第八十九章 四面皆敵第二百九十六章 不平凡的一年第三百二十七章 深市佈局第三十五章 總結和調整第十一章 項目前期評估第四章 讓子彈飛一會兒第二百九十八章 利益共同體第三十五章 總結和調整第二百三十九章 《對話》-解碼隋波的互聯網夢想第一百三十九章 易趣董事會改組第二百四十三章 趣遊問題第二百七十二章 目標:中芯第二百一十二章 我們的征途是星辰大海第二百二十九章 僞.新零售第四十章 提前出現的“校內網”第二十四章 平平無奇的隋波第二百九十七章 大宅門第二百四十二章 沒忍住第六十五章 啓動A輪融資第二百二十七章 老黃的霸氣第一百零一章 上市啓動第三百零八章 走偏的老李第三百二十二章 初心第一百七十章 開放平臺戰略第一百二十三章 系統改造與技術升級第二百八十五章 套現兩百億!第一百四十八章 重生者就是大BUG第一百二十八章 一枝獨秀的易趣第二百三十八章 閃電收購-驚雷第二百三十八章 閃電收購-驚雷第九十九章 分公司治理第三百一十七章 真.實力生態第三百五十二章 新總部大樓第三百三十一章 王者之基-“入口”第三百六十五章 第一站思密達第七十章 融資完成第三百六十三章 遊戲是門大生意第三十八章 “歷史性”的見面第二百零六章 在香港第九十七章 《財富》全球論壇年會第三百九十三章 Android聯盟“問世”!第三百九十七章 起勢!第三百三十章 “乾坤袋”計劃第三百一十五章 夜宴.如神第一百六十九章 老張邀約第三十五章 總結和調整第二百三十三章 “攪局者”還是“顛覆者”第二百五十三章 坐而論道第一百一十五章 搜索平臺是重要的流量入口!第二百四十二章 沒忍住第三百八十四章 好久沒裝逼了第二十一章 易趣“南牆會議”-2第三百二十七章 深市佈局第十四章 意外之喜第九十五章 內部演講第二百二十二章 下一個目標,新浪?第一百四十二章 未雨綢繆第三百五十三章 2006年完美收官第三百八十六章 反響第一百四十八章 重生者就是大BUG第七十六章 大才槃槃第七十三章 人生若真能初見