第158章 我們究竟在談些什麼

顧莫傑本該下班了,但是嚴磊的報告,成功引起了顧莫傑的注意,他決定加夜班。

讓葉敏茹去樓下雲咖啡拿了兩個套餐,然後他在辦公室裡請嚴磊邊吃邊談他的想法。

“說說吧,你對‘谷歌中國五年來在華蒐集的搜索數據’的用法細節,是怎麼看的。”

嚴磊依然保持着四年前認識顧莫傑時的學者氣,不怎麼講究禮貌,就大咧咧坐在顧莫傑對面,一邊用便當,一邊閒聊。

“你不都已經把‘初秘’那個項目交給我做了麼,寒假就要和iphone4的siri掰腕子了,難道就不想讓‘初秘’的水平在這個節骨眼上,再上升一個臺階?”

嚴磊口中提到的這個‘初秘’項目,是顧莫傑從去年初心1代手機上線後,就丟給初音的人工智能研究團隊研發的項目。

他對後世智能手機行業發展那一點僅存的記憶,到2012年底爲止。那段歷史上,蘋果公司的手機在iphone5這個型號上戛然而止。

蘋果公司會做出siri這個人工智能語音助手,顧莫傑是知道的。

那些買了iphone4s以上蘋果手機或者ipad3以上平板的用戶,可以通過siri,對機器發送語音聊天。機器會試圖模擬真人對話,並且給出使用者想搜索的內容、答案、軟件app應用,或者幫助用戶撥打電話、尋找聯繫人等等。

顧莫傑要弄的‘初秘’,就是一個狙擊siri的存在。

iphone4明年二季度就要上市了,初心2代手機會比iphone4更早一兩個月。

‘初秘’的開發,本來已經到了箭在弦上的衝刺階段。

初音集團在人工智能方面的步伐,並不比蘋果公司慢。哪怕沒有別的新招,顧莫傑手下的人也能按期完成初秘。

但是此刻,嚴磊讓顧莫傑看到了一股更高的期待。

他眉毛一挑,身子微微前傾。

“你是說,給你弄到谷歌中國過去五年在華蒐集的搜索數據,就可以幫助你提升初秘的人工智能程度?”

嚴磊細嚼慢嚥地吞下一片肥牛,喝了口飲料:

“當然。問題問答型的人工智能,本來就是要靠不斷訓練、不斷積累雲端大數據,纔會回答地得越來越準、越來越接近真人思維模式。搜索、點擊,本身不就是深度學習算法架構下,問答智能的最初淵藪麼?”

深度學習算法,本該是傑夫辛頓教授提出的學說。

本時空,這個機會被顧莫傑分潤了。

要說所有互聯網大佬當中,對深度學習算法和雲端架構的人工智能認識程度,恐怕顧莫傑能排世界第一。

只是在所有當老闆的人裡面,見識排世界第一。不包括和磚家們比。

也就是說,在對人工智能的遠見卓識上。哪怕拉里佩奇、扎克伯格、喬布斯,這3個大佬的見識,也比不上顧莫傑。

嚴磊的話,點撥到這種程度,已經足夠顧莫傑秒懂。

這個思路很不錯!

用百度,或者谷歌,搜索網頁。

這個搜索動作的本質,是什麼?

其實就是一次問答。

比如一個網民,在百度上搜“權寶兒”三個字,然後彈出幾百萬個搜索結果。

第一個搜的人,得到結果列表後,點擊了“權寶兒”的百度百科詞條。

第二個搜的人,點擊了一條她參加的綜藝節目視頻。

第三個搜的人,點擊了一條關於她的娛樂新聞。

第四個、第五個、第六個,又點了百度百科詞條。

假設,因爲百度的用戶容量夠大,有10萬人次搜了“權寶兒”這三個字,然後百度根據反饋統計:其中43%的人搜索後,點擊了百科詞條,22%的人,點了某娛樂新聞,17%的人……

這時候,如果把百度搜索的雲端大數據,接爲‘初秘’或者siri的服務器端,初秘就會知道:當下一次她的手機主人說出“權寶兒”這三個字的時候,優先把這個詞的百度百科詞條內容推送給主人——當然,是用語音閱讀的方式。

這是最簡單的問答型人工智能,靠統計數據,來讓機器的回答,更貼近代表所有網民中最大衆的那一羣人的意見。

這個過程中,機器並不理解“權寶兒”這三字代表了什麼,它只是在算法上統計了“所有曾經搜過這個詞的人,在搜索後點擊查看了哪條答案”,然後把看過人最多的那條答案,推送給最新問這個問題的人。

這樣的大數據,只有搜索引擎服務的提供商,才擁有。或者說,只有那類公司的數據,樣本容量才足夠巨大,足夠客觀,足夠撇掉誤差。

在中國,只有百度和谷歌有這個資本。

而且,百度和谷歌除了搜索大數據的歷史記錄足夠龐大、完爆其他搜索服務提供商之外,他們還有一個獨門之秘,在2009年只有他們兩家形成了規模。

那就是“百度知道”,以及比百度知道遜色一些的“谷歌問答”。

“知道”,是一個比搜索更加貼近人類語言習慣的問答產品。在搜索的時候,人只會打幾個關鍵詞,很少會直接長篇大論寫一句話,寫一個用人類正常語法表述的問題。

而用百度知道的時候,因爲背後是人類在回答,所以大家都遵循了人類語言的語法。

一個新買手機的用戶,和初秘或者siri聊天的時候,問到的問題,真的是絕無僅有、從來沒有前人問過的麼?

恐怕不盡然。

十幾億人心中的困惑,有相當大一部分是重合的。同一個問題,可能全國有幾百萬人想問。

有了百度知道的雲端大數據之後,初秘或者siri再聽到手機主人的語音發問時,就可以先搜一搜這個雲端數據,看看有沒有近似的或者重複的前人提問。

如果有,直接把前人提問中的“被採納答案”推送過來、語音閱讀一遍就行了。

在“知道”這個產品上,谷歌其實走得比百度慢。谷歌的強項,是“谷歌學術”那種專業標準化的問答,而缺少家長裡短的日常人工智能鍛鍊。

在人工智能領域,如果非要對比谷歌和百度的優劣勢,只能說:谷歌可以訓練出更精密的機器,但是不如百度那樣容易給機器學會‘七情六慾’。

因爲早年的谷歌,壓根就沒想到去鍛鍊其人工智能的這個方面。

當然,說句良心話,百度也沒想到。

“百度知道”日後教會了“度秘”比siri更能插科打諢,也只是百度發展時一招無心插柳的歪打正着。

……

正因爲顧莫傑懂行,因爲他自己就懂深度學習算法,所以,他比別人更能領會嚴磊開出的條件誘惑力。

初音集團,在搜索上是弱項。

但是初音集團,在人工智能的算法領域,是強項。

一個企業人工智能產品的強弱,受制於兩個因素。

一個是算法的好壞,一個是大數據的規模。

比如,谷歌的算法效率假設是10%,而谷歌的日搜索處理量是10億條,所以谷歌的人工智能每天理論消化的問答是1億條。

如果初音的算法效率更好,有20%,但初音每天的搜索處理量只有1億條,那麼初音人工智能每天理論消化的問答只有2000萬,比谷歌弱了五倍。

有好算法,有好的“數據消化效率”,卻沒有足夠的“數據飼料”去餵養這副“消化功能”極強的“胃口”。

這一直是初音人工智能研究院的缺憾,短板。

但是,如果按照嚴磊的說法,把谷歌中國過去五年,在中國市場上搜集到的服務器端歷史記錄數據統統copy過來,“填鴨式”地塞給“初秘”去學習,那麼初秘在“真正聽懂中國人講話”這個問題上,起碼可以贏得相當於額外獲得兩三年時間鍛鍊的效果。

歷史上siri公司成立於2007年,10年被蘋果收購後,在4s上放出了這個人工智能產品。

但是用過iphone4s的用戶,恐怕都有一種記憶:

剛開始,4s上的siri智能程度真的很低,幾乎聽不懂什麼話。還是隻能和舊時代的“語音撥號助手”那樣,幫主人翻翻通訊錄、撥打一下電話爲主。

至於讓siri真的近似於人一樣和主人聊天,似乎是2012~2013年的事情了,那時候的siri才漸漸說話像人話。

那就是因爲,siri花了兩三年時間來“學習”、來積累和消化雲端大數據,漸漸統計出人類語言習慣。

如果谷歌中國不倒下,谷歌在華的那多年數據記錄,肯定是作爲商業秘密不會公開的。因爲那涉及到其對中國人上網習慣的統計。如果公開了,很有可能被對手拿去,作爲優化對手引擎算法的參照物。

但是,如果谷歌中國倒下了,這些數據再遮遮掩掩藏着,似乎就沒什麼意義了。

只要顧莫傑出一筆看上去挺誠意的價碼,谷歌總部相信就會把這筆數據財富賣給初音。

顧莫傑意淫着美好前景,簡直要獸血沸騰。

恨不得現在就在老朋友拉利佩奇脊樑骨上捅一刀,然後把谷歌中國的數據資源巧取豪奪走。

“磊哥,來,好好說說你數據到手之後的詳細使用計劃。我都有點迫不及待了……”

“當然沒問題,就是如此如此,這般這般……”

嚴磊一副指點江山狀,對顧莫傑講解了一個鐘頭的技術路線梗概。

“只要做到了這些,然後,我們的初秘肯定可以在‘人話識別率’上領先siri至少兩年。”

第17章 手術西門子第三十五章 一口老血第16章 體育大數據第七章 殭屍網絡第五十四章 不能慎獨就不要獨第八十三章 給的再多 不如懂我第九十章 谷歌想入股?第五十二章 我自巋然不動第二章 獨闢蹊徑第5章 羅馬假日第一百章 告學霸書第八十九章 梟雄本色第六十九章 畫虎類犬無間道第127章 養肥再殺終極版第五十五章 威武霸氣吊第九十七章 奧黑馬都幫你第二十九章 周立新的野望第一章 甩不脫的拖油瓶第十五章 總要見公婆第106章 產業鏈不全的下場第二十章 小不忍則亂大謀第五十五章 哪兒都去不了第16章 體育大數據第十四章 一碗水端平第九章 這可不是狗大戶的錢第八十一章 豬隊友第十四章 一碗水端平第六十三章 費潔詩第五十二章 我自巋然不動第十九章 山重水複疑無路第二章 不一樣的重生第三十三章 生意上可以當接盤俠第十二章 換個角度看世界第185章 平安夜送買賣第四十五章 抽刀斷水第七十九章 一切皆戰場第一百零七章 收屍洗地的出場了第九十八章 斬草除根的序幕第200章 首富遇首富第六十二章 啥生意都能做成共享經濟第三十四章 女生的暗戰第159章 頂級峰會第91章 自毀長城第五十七章 媽媽再也不擔心我跪着看視頻了第五十二章 門口的野蠻人-下第十章 雲舟泛海第一百章 連環增資-下第143章 閱後即焚第二十七章 2003年的第一次約第三十四章 連橫合縱皆未果第七十五章 3G曙光第六十五章 開胃菜不開胃第39章 二分天下的密謀第五章 錢燒包的富二代第四十四章 於無聲處聽驚雷第32章 肌肉時刻喪鐘響第126章 含着淚也要跟完第四十五章 多線出擊第八十四章 硅谷氛圍第75章 血流乾了纔想到爺第三十六章 曲線陰影第三十二章 多國聯軍圍剿第三章 這特麼不是感情戲第161章 放開纔不和你做朋友第十六章 一步到位第二章 喬布斯怎麼配有主角光環?第二十一章 一人做事一人當第四十章 統一口徑第九十二章 含沙射人影至死人不疑第一百十二章 微信:絕地反擊第165章 電商入口第十章 雲舟泛海第八十二章 步子邁大點第七十五章 3G曙光第63章 不買OV也敢叫洗剪吹第33章 花大錢給咱當陪練第八十五章 逼上梁山第七十八章 教授堆裡的暴發戶第十四章 激活初音娘第四十六章 高考前夜第三十七章 可汗學院計劃第190章 SIRI大戰初音娘-上第七十二章 猴子都甩你一條街第三十一章 幕後交易第八十八章 STEAM生態第二十七章 2003年的第一次約第108章 一言不合世界首富第四十五章 攤牌時刻第三十八章 青青子衿第三十三章 一炮打響第170章 索尼影業是個什麼東西?第34章 神仙太多認不全第126章 含着淚也要跟完第五章 非正常解決方案第41章 搶票軟件第125章 完全停不下來第61章 狗急跳牆第三十三章 機震第200章 首富遇首富第四十八章 塵埃落定
第17章 手術西門子第三十五章 一口老血第16章 體育大數據第七章 殭屍網絡第五十四章 不能慎獨就不要獨第八十三章 給的再多 不如懂我第九十章 谷歌想入股?第五十二章 我自巋然不動第二章 獨闢蹊徑第5章 羅馬假日第一百章 告學霸書第八十九章 梟雄本色第六十九章 畫虎類犬無間道第127章 養肥再殺終極版第五十五章 威武霸氣吊第九十七章 奧黑馬都幫你第二十九章 周立新的野望第一章 甩不脫的拖油瓶第十五章 總要見公婆第106章 產業鏈不全的下場第二十章 小不忍則亂大謀第五十五章 哪兒都去不了第16章 體育大數據第十四章 一碗水端平第九章 這可不是狗大戶的錢第八十一章 豬隊友第十四章 一碗水端平第六十三章 費潔詩第五十二章 我自巋然不動第十九章 山重水複疑無路第二章 不一樣的重生第三十三章 生意上可以當接盤俠第十二章 換個角度看世界第185章 平安夜送買賣第四十五章 抽刀斷水第七十九章 一切皆戰場第一百零七章 收屍洗地的出場了第九十八章 斬草除根的序幕第200章 首富遇首富第六十二章 啥生意都能做成共享經濟第三十四章 女生的暗戰第159章 頂級峰會第91章 自毀長城第五十七章 媽媽再也不擔心我跪着看視頻了第五十二章 門口的野蠻人-下第十章 雲舟泛海第一百章 連環增資-下第143章 閱後即焚第二十七章 2003年的第一次約第三十四章 連橫合縱皆未果第七十五章 3G曙光第六十五章 開胃菜不開胃第39章 二分天下的密謀第五章 錢燒包的富二代第四十四章 於無聲處聽驚雷第32章 肌肉時刻喪鐘響第126章 含着淚也要跟完第四十五章 多線出擊第八十四章 硅谷氛圍第75章 血流乾了纔想到爺第三十六章 曲線陰影第三十二章 多國聯軍圍剿第三章 這特麼不是感情戲第161章 放開纔不和你做朋友第十六章 一步到位第二章 喬布斯怎麼配有主角光環?第二十一章 一人做事一人當第四十章 統一口徑第九十二章 含沙射人影至死人不疑第一百十二章 微信:絕地反擊第165章 電商入口第十章 雲舟泛海第八十二章 步子邁大點第七十五章 3G曙光第63章 不買OV也敢叫洗剪吹第33章 花大錢給咱當陪練第八十五章 逼上梁山第七十八章 教授堆裡的暴發戶第十四章 激活初音娘第四十六章 高考前夜第三十七章 可汗學院計劃第190章 SIRI大戰初音娘-上第七十二章 猴子都甩你一條街第三十一章 幕後交易第八十八章 STEAM生態第二十七章 2003年的第一次約第108章 一言不合世界首富第四十五章 攤牌時刻第三十八章 青青子衿第三十三章 一炮打響第170章 索尼影業是個什麼東西?第34章 神仙太多認不全第126章 含着淚也要跟完第五章 非正常解決方案第41章 搶票軟件第125章 完全停不下來第61章 狗急跳牆第三十三章 機震第200章 首富遇首富第四十八章 塵埃落定