第267章 數據增廣和集成學習

經過仔細斟酌,江寒確定了“優勝者”模型。

隨後,他就開始考慮,如何進一步優化這個網絡的性能。

像是網絡的主體結構、權重初始化方案、數據正則化的方法、激活函數的選擇……

這類關鍵因素,在之前的第一輪訓練中,就已經確定了下來,無需再做調整。

但除此之外,可以優化的地方依然不少。

比如稍微改變一點學習率,少量增加或減少隱藏神經元的個數,微調一下Mini Batch的大小……

這些都有可能對網絡的性能,產生微妙的影響。

而且,每一點細微的調整,會產生什麼樣的效果,不實際訓練、測試一番,是無法預估的。

所以接下來,江寒將“優勝者”代碼複製了100份。

這樣一來,這個“優勝者”就擁有了100多個“雙胞胎兄弟”,或者說:分身。

隨後,他就採用不同的方案,對這100多份代碼,逐一進行了微調。

等到進行完第二輪訓練後,從中再次選出唯一優勝者。

有點類似“養蠱”。

策略已經定下了,但江寒並沒有馬上開啓第二輪訓練。

他還打算再做一個比較重要的實驗,那就是增廣數據。

KAGGLE 官方提供了20萬條訓練數據,理論上說,對於絕大多數機器學習模型,這個數據量已經足夠使用了。

但誰會嫌棄數據太多呢?

能提供的數據越多,神經網絡的學習效果就越好,訓練得越充足,性能自然也就越強。

反正一般來說,不會變得更糟。

所以,何樂而不爲?

所謂數據增廣,就是在不改變圖像類別的前提下,人爲地擴充數據。

這樣做,常常可以有效地提高模型的泛化能力。

常用的數據增廣方式,包括水平翻轉、旋轉、縮放、平移、裁剪、顏色抖動……

當然,也可以將多種操作組合起來,從而獲得更多的數據。

例如,同時做小角度的旋轉和隨機尺度變換,再微調一下像素在HSV顏色空間中的飽和度、亮度、色調……

江寒很快用Python編寫了一份代碼,對訓練數據集進行了擴充。

原本的18萬條訓練數據,經過各種運算,足足演變出了將近200萬條數據。

這樣,第二輪訓練終於可以開始了。

江寒將100個“優勝者”分身依次啓動。

隨後,他琢磨了一下,又將剛纔排名前15的模型,全都拉了過來。

包括上次排名第一的“書呆子”、排名第三的“黑馬中等生”,以及排位在4~15名的“其他學生”。

反正算力夠用,索性再給這些準“優秀生”一次機會,看看它們在增廣數據集上,又會有怎樣的表現。

當然,在開啓第二輪訓練之前,第一輪訓練出來的權重數據,必須先備份一下……

將這裡的事情全部處理利索,時間已經接近中午11點。

江寒當下鎖門離開。

先去接夏雨菲放學,再順便做一頓豐盛的午飯。

除了正常的兩菜一湯,他還額外加了一道“紅燒冰島紅極參”,以慰勞自己操勞過度的大腦。

……

下午和晚上,江寒沒有出門。

主要在家看書、找資料,學習各種逆向、破解、黑客知識。

想要繼續領悟《數字混淆技術》,比較依賴數學水平和逆向技術。

江寒的數學水平已經很不弱了,知識儲備不比一般的數學系本科畢業生少,解決問題的能力猶有過之。

但在逆向和黑客技術上,他距離真正的頂級高手,還有不小的差距。

所以,江寒就決定抓緊時間,儘快補上這一課。

學習之餘,當然有了閒暇,就遠程登錄一下服務器,關注一下神經網絡的訓練情況。

13日清晨,第二批114個模型,全部訓練完成。

江寒又去了一次車庫,翻閱了一下訓練記錄,並對這114個神經網絡模型,加載驗證集進行測試。

“優勝者”的那100個分身,表現都很不錯,其中成績最好的一個,在訓練集和驗證集上的準確率,都超過了98%。

說實話,如果不經過特別的訓練,一般的人類在這個項目上的表現,差不多也就這樣了。

畢竟KAGGLE提供的這些數據裡,有一些筆跡實在太潦草了。

比如,有好幾個圖片,江寒怎麼看怎麼像7,標籤上卻硬說是1,這怎麼破?

此外,江寒還有一個令人欣喜的發現。

使用了擴充數據集,並進行了更高強度的訓練之後,“書呆子”在訓練集上,成績再次提高了少許,識別準確率達到了驚人的99.9%;

而且在驗證集上的表現,也有了較大幅度的提高,達到了95%的及格線。

“黑馬中等生”和原本排名4~15的“普通學生”,這次也有了長足的進步,成績不比原本的“優勝者”差到哪裡去。

所以說,要想提高神經網絡的性能,擴充數據規模纔是第一秘訣。

不管是人工收集更多數據,還是用數據增廣的辦法來僞造數據……

接下來就簡單了,只要從“優勝者”的100個分身裡,挑選出最強的一個,強化訓練一番,再稍微打磨一下,就可以提交上去了。

接近99%的識別正確率,說高不高,說低不低。

去年在imagenet舉辦的世界機器學習大師賽中,冠軍是KNN算法的一個變種。

別看那種算法極其簡單,一點也不智能,但作者通過巧妙的構思,赫然將識別失誤率壓縮到了驚人的0.63%!

但那是頂級大能們的競技場,這次KAGGLE舉辦的,只是一場業餘級別的比賽,參與的大多是民間愛好者。

所以自己手裡的這個“最終優勝者”,多了不敢說,前三還是比較穩的。

至於想要奪得冠軍,那就需要拼一點運氣了,除非能進一步提高在陌生數據上的準確率。

畢竟真正的測試集,誰也沒見過,會變態到什麼程度,誰也沒法預估。

江寒反覆分析、測試着已經訓練好的幾個模型。

第二輪的“唯一優勝者”,以及進化後的“書呆子”、“中等生”……

忽然,他又有了一個巧妙的發現。

對於那些容易誤測的圖片,優勝者、書呆子、中等生……它們的判斷往往不盡相同。

同樣一個圖片,比如數字“5”,由於書寫不規範,導致極難識別。

有點像6,又有點像s,甚至就算將其當成0,也不會多麼違和。

這種無法妥善處理的數據,一般的做法是當做“噪聲”,在訓練時加以排除。

免得對網絡的訓練產生干擾,讓網絡學到錯誤的“知識”,導致“越學越懵”。

江寒在分析這類疑難圖片時,卻忽然有了一個奇妙的發現。

對於這樣的圖片,優勝者偶爾也會識別錯誤,但神奇的是,書呆子偶爾卻可以識別正確。

有些圖片書呆子和優勝者都不認識,中等生或者普通學生,反而往往有獨到的見解……

然後,這些結構不同的神經網絡,它們識別錯誤的那部分圖片,很少出現交集。

也就是說,這些疑難圖片之中,絕大多數都會被部分“學生”正確識別。

這就很有趣了。

如果能把這十幾個神經網絡的識別能力結合到一起,豈不是可以進一步提高準確率?

江寒經過仔細思考、認真分析,最後做出了一個大膽的決定。

那就是:集成學習。

第360章 造了什麼孽?第234章 恐高症第56章 花錢容易賺錢難第152章 你的承諾呢?第397章 作曲大師,自帶乾糧第32章 借MacBook一用第23章 震驚商城,開啓!第265章 羨慕使人質壁分離第92章 《激光雕刻機》第413章 得講究點格調第382章 電動車和機械臂第199章 大功告成第297章 Py大法威力無窮第389章 誠信友善,和諧友愛第363章 終於對《我的世界》下手了……第119章 高中課程裡有這些?第89章 進入狀態這麼快?第89章 進入狀態這麼快?第184章 眼神這麼好使的嗎?第58章 作報告?第92章 《激光雕刻機》第143章 別人笑我太瘋癲第303章 你以爲就這樣而已?第25章 我想參加NOIP第154章 腦力提升的副作用第289章 對等原則第336章 女孩的心思你別猜第162章 奇怪的U盤第174章 良心工作室第6章 三個系統倒有四種資源?第203章 誰支持、誰反對?第91章 這麼忙嗎?第282章 又一顆壞蘋果?第28章 老宋的算盤請假,存稿丟失一章,正在想辦法重寫第60章 費曼學習法第209章 校服就是最正式的裝扮第237章 大魚和小魚第203章 誰支持、誰反對?第37章 烤肉第382章 電動車和機械臂第333章 不怕教壞了乖女兒?第263章 一切都在算計中第200章 真的只是惡作劇嗎?第93章 《泡沫》第18章 就是普通同學第293章 精誠所致,金石爲開?第23章 震驚商城,開啓!第145章 陳萱的邀請第69章 論如何追女孩紙第44章 瞎子分牌問題第323章 麻雀還是蚊子?第102章 怎麼就這麼不好對付?第114章 收音機,以及1:10?第287章 夢裡不知身是客第42章 P站阿婆主第293章 精誠所致,金石爲開?第109章 不擅長的事情第259章 江寒的秘奧義第117章 沒聽說過?第32章 借MacBook一用第274章 申請PCT國際專利第232章 江寒的野望第203章 誰支持、誰反對?第210章 爲了節目效果第141章 金裝四大才子第308章 敬可愛又無常的命運第78章 土豆和男朋友第302章 聳人聽聞,觸目驚心第429章 阿法狗的三板斧第273章 假如氪金就能變強第406章 不可思議的學習效率第109章 不擅長的事情第103章 風口第288章 合理避稅第129章 兩道試題第71章 憑什麼是江寒?第369章 點八個,贈十個……第18章 就是普通同學第330章 小孔成像和PNP問題第50章 可能整大發了第41章 要是不帥不酷呢?第153章 眼氣誰呢這是?第390章 兩份DNA檢測報告單第91章 這麼忙嗎?第313章 “僱傭兵”與“香餌”第41章 要是不帥不酷呢?第289章 對等原則第18章 就是普通同學第161章 論腦補,只服你第243章 比賽心得和騙分教程第263章 一切都在算計中第240章 怎麼住?第323章 麻雀還是蚊子?第245章 什麼事兒比NOIP還重要?第179章 馬爾可夫隨機場第325章 說好的理想男神呢?第2章 基本操作第331章 揹着媽媽偷吃第365章 一套接着一套
第360章 造了什麼孽?第234章 恐高症第56章 花錢容易賺錢難第152章 你的承諾呢?第397章 作曲大師,自帶乾糧第32章 借MacBook一用第23章 震驚商城,開啓!第265章 羨慕使人質壁分離第92章 《激光雕刻機》第413章 得講究點格調第382章 電動車和機械臂第199章 大功告成第297章 Py大法威力無窮第389章 誠信友善,和諧友愛第363章 終於對《我的世界》下手了……第119章 高中課程裡有這些?第89章 進入狀態這麼快?第89章 進入狀態這麼快?第184章 眼神這麼好使的嗎?第58章 作報告?第92章 《激光雕刻機》第143章 別人笑我太瘋癲第303章 你以爲就這樣而已?第25章 我想參加NOIP第154章 腦力提升的副作用第289章 對等原則第336章 女孩的心思你別猜第162章 奇怪的U盤第174章 良心工作室第6章 三個系統倒有四種資源?第203章 誰支持、誰反對?第91章 這麼忙嗎?第282章 又一顆壞蘋果?第28章 老宋的算盤請假,存稿丟失一章,正在想辦法重寫第60章 費曼學習法第209章 校服就是最正式的裝扮第237章 大魚和小魚第203章 誰支持、誰反對?第37章 烤肉第382章 電動車和機械臂第333章 不怕教壞了乖女兒?第263章 一切都在算計中第200章 真的只是惡作劇嗎?第93章 《泡沫》第18章 就是普通同學第293章 精誠所致,金石爲開?第23章 震驚商城,開啓!第145章 陳萱的邀請第69章 論如何追女孩紙第44章 瞎子分牌問題第323章 麻雀還是蚊子?第102章 怎麼就這麼不好對付?第114章 收音機,以及1:10?第287章 夢裡不知身是客第42章 P站阿婆主第293章 精誠所致,金石爲開?第109章 不擅長的事情第259章 江寒的秘奧義第117章 沒聽說過?第32章 借MacBook一用第274章 申請PCT國際專利第232章 江寒的野望第203章 誰支持、誰反對?第210章 爲了節目效果第141章 金裝四大才子第308章 敬可愛又無常的命運第78章 土豆和男朋友第302章 聳人聽聞,觸目驚心第429章 阿法狗的三板斧第273章 假如氪金就能變強第406章 不可思議的學習效率第109章 不擅長的事情第103章 風口第288章 合理避稅第129章 兩道試題第71章 憑什麼是江寒?第369章 點八個,贈十個……第18章 就是普通同學第330章 小孔成像和PNP問題第50章 可能整大發了第41章 要是不帥不酷呢?第153章 眼氣誰呢這是?第390章 兩份DNA檢測報告單第91章 這麼忙嗎?第313章 “僱傭兵”與“香餌”第41章 要是不帥不酷呢?第289章 對等原則第18章 就是普通同學第161章 論腦補,只服你第243章 比賽心得和騙分教程第263章 一切都在算計中第240章 怎麼住?第323章 麻雀還是蚊子?第245章 什麼事兒比NOIP還重要?第179章 馬爾可夫隨機場第325章 說好的理想男神呢?第2章 基本操作第331章 揹着媽媽偷吃第365章 一套接着一套