第255章 調整超參數,以及防止過擬合

江寒在這個FCN網絡中,實現了一種新的訓練策略,也就是迷你批次訓練法。

簡單地說,就是每次在18萬個訓練數據中,隨機抽取若干條數據,組成一個小包,作爲訓練的樣本。

然後,若干個小包組成一個完整的批次,訓練若干個批次後,訓練過程就宣告結束。

顯而易見,相較於一次訓練全部數據,這樣做既節省了資源,又能提高訓練速度。

這裡涉及到3個超參數:每個小包的數據條數n,每批次包含的小包數量m,以及訓練的總批次s。

神經網絡裡,每個神經元的偏置和權重,都是在訓練中獲得的,稱作參數。

而學習速率、隱藏層神經元的數量,隱藏層的層數,權重初始化方案的選擇、激活函數的選擇、損失函數的選擇……

這些都是超參數,必須在神經網絡訓練之前指定。

但由於缺乏理論指導,沒有人知道這些超參數,到底如何選取才是最合理的。

所以在實踐中,往往先根據經驗,暫時預設一個差不多的,然後在訓練的過程中,根據反饋結果,慢慢進行調整。

打造神經網絡的過程中,最困難的就是超參數的選擇,這往往意味着巨大的工作量。

每次調整超參數,都要重新訓練一次神經網絡,才能知道這次調整是否成功。

更麻煩的是,超參數之間並不是相互獨立的,經常會調整了某一個,就會影響到另一個。

極端情況下,就會像多米諾骨牌一樣,一個影響一個,最後導致全盤重來。

在原來的世界,機器學習算法工程師們經常爲此撓破了頭皮。

所以他們又自嘲或者被戲稱爲“調參狗”……

這個問題的解決,往往取決於網絡設計者的經驗。

一名合格的調參狗……咳,算法工程師,往往能憑經驗和直覺,大體確定超參數的取值範圍,然後根據實際情況逐步優化,直到取得近似最優解。

江寒當然算不上經驗豐富,但前世玩神經網絡的時候,也接觸過不少討論超參數選擇的文章。

以權重初始化舉例,就有不少可行的方案:初始化爲0值、隨機初始化、Xavier初始化、HE方法等。

其中,Xavier初始化又包含許多種做法。

比如將權重w的隨機初始化區間,設爲正負sqrt(6/(n0+n1))之間。

其中,n0是上一層神經元的個數,n1是本層神經元的個數。

這是一個經驗公式,很多時候都很好用,江寒還記得這個公式。

其他超參數的選擇,激活函數的選擇、損失函數的選擇……也有諸多可用的方法、方案。

除了一些前世接觸過的方法,江寒自己也有過許多奇思妙想,琢磨出來不少亂七八糟的超參數選擇方案。

這次做FCN模板,索性將它們全都編寫成函數,塞到了模板代碼中,用以備選。

除此之外,還要解決過擬合問題。

過擬合是機器學習的一道難關,一旦發生這種現象,就會導致訓練好的模型,在訓練集上表現優秀,而在陌生數據集上表現欠佳。

這是無論如何都要避免的。

要想避免過擬合,通常的做法有:擴大學習規模、降低網絡規模、對權重參數規範化,以及非常激進的Dropout方法等。

擴大學習規模,就是儘可能收集更多數據,進行訓練。

Kaggle的這場比賽中,官方提供了足足20萬條訓練數據,這意味着不怎麼需要在這方面下功夫了。

如果提供的訓練數據較少,那麼往往就需要人爲擴展訓練數據。

比如:將圖像略微旋轉、平移、翻轉、縮放、加入噪點像素……

降低網絡規模,的確可以減輕過擬合,但同時也削弱了學習能力,所以一般不作爲優先選項。

權重正規化也叫正則化(regularization),就是在未規範化的代價函數上,附加一個權重絕對值的和,使得網絡傾向於學習少量的、重要度較高的權重。

這一辦法,江寒在這個模板中,也作爲備選項加以實現了。

至於Dropout方法,做法是按照給定的概率P,隨機刪除全連接網絡中部分隱藏神經元,以達到簡化網絡,降低過擬合的效果。

雖然挺簡單,但江寒並不準備現在就用出來。

這至少也價值一篇三區以上的論文,用在這種小比賽中,未免有些浪費。

江寒將自己知道的、能想到的方法、方案,全都羅列出來,編製成函數,放進了模板代碼中。

然後將代碼複製了130份,稍作修改,讓它們分別使用不同的超參數設定策略。

這樣,就出爐了130種候選的訓練方案。

江寒將這些方案連同訓練數據包,一起上傳到了自己放在車庫中的服務器和五臺工作站中,然後指揮它們開足馬力,同步進行訓練。

如果光靠筆記本電腦,這130份代碼一個一個訓練過去,怕不得兩、三個月之後,才能輪一遍?

現在就簡單了,大約明天晚上,這130多份方案,就能得到初步的訓練結果。

到時候根據反饋,從中選擇一個表現最好的,全力訓練就可以了。

這種做法,和有些人選男/女朋友的原則差不多。

廣泛培養,層層選拔,然後擇優錄取。

至於選剩下的怎麼辦?

先備着唄,反正又不吃草料……

搞定這些事情之後,時間已經夜裡10點半。

江寒站起來,活動了一下筋骨,然後上牀休息。

剛鑽進被窩,夏雨菲就依偎了過來。

安靜地躺了一會兒後。

“你……”夏雨菲欲言又止。

“怎麼了?”江寒溫和地問。

“那個……那個鮑魚,還、還沒過勁兒嗎?”

江寒搖了搖頭,實話實說:“已經沒事了。”

夏雨菲自責地說:“都怪我……”

江寒笑了笑,促狹地問:“要是今晚上都過不了勁兒,你還想負責是怎麼的?”

夏雨菲咬了咬嘴脣,把頭埋在他胸口裡,一聲不吭。

這樣江寒就明白了。

她沒準真有那個意思,雖然不可能動真格的,但很可能會……

嘖,早知道就不逞英雄了,偶爾裝一次可憐,又不會傷筋動骨。

嗯……

不知道現在把話收回去重說,還來不來得及?

在線等,挺急的。

……

不知過了多久,兩人先後入睡。

江寒摟着小媳婦,美美地睡了一覺。

第二天早上,仍然是五點左右,精神抖擻地起牀。

洗漱完畢後,江寒先遠程登錄了一下服務器,查看了一下訓練進度。

可惜沒什麼驚喜。

和他預計的差不多,今天白天肯定是訓練不完的了。

所以,暫時只能耐心等候。

關掉筆記本電腦,看了眼還躺在被窩裡,睡得死沉死沉的夏雨菲,江寒不禁啞然失笑。

昨天夏雨菲可能有點累到了,今早不出所料地賴牀了。

好吧,就讓她好好休息休息吧……

江寒這麼想着,輕手輕腳地出門。

先自己下樓,去餐廳吃了個早餐,然後步行去賽場。

香格里拉的學城店,距離工大附中本來就不算遠,走了10來分鐘也就到了。

今天是NOIP複賽的Day2,只要搞定今天的三道題,這場比賽對江寒來說,也就宣告落幕了。

來到賽場外時,時間剛7點半出頭,大多數選手和他們的指導教師,已經來到場地外等候。

到處人聲鼎沸,江寒找到了高老師,並再次看到了李山河和朱達昌。

熊磊和他的指導教師賀紋章也在一旁。

老高和賀老師湊在一起聊天。

江寒也和三個戰友兼競爭對手,在一邊互相鼓勵了一番。

閒聊中,熊磊忽然提議:“等下午成績公佈了,咱們一起去唱k或者打檯球,放鬆一番,怎麼樣?”

“成績最差的請客嗎?”李山河角度刁鑽。

“可以考慮啊……”朱達昌也有點意動。

大家紛紛看向江寒,只有他還沒表態了。

江寒想了想,說:“去玩玩也行,不過我最多隻能陪你們玩到晚上七、八點鐘,再晚就不行了。”

一起出來比賽的,怎麼也得照顧一下同伴的情緒。

但也不能浪費太多時間,晚上還得抓緊時間,弄KAGGLE的比賽……

第218章 爲人實在,夠給面子第26章 週一凡的震驚第357章 再給你一次機會第70章 水上公園第266章 篩選模型,以及最後的優勝者第66章 審覈過程第251章 特效藥第65章 論文過審第107章 附加條件第146章 給你個眼神自己領會第202章 輸得明明白白第378章 用詞精準第428章 Hack Me的獎品第365章 一套接着一套第380章 買豬頭不要肉第176章 現學現賣第4章 萬界爬蟲系統第111章 虛擬空間,開啓!第264章 不知人間疾苦第84章 磁陣第34章 遊戲發佈第383章 全自動刷分第359章 大佬,怪蜀黍?第185章 是不是太敏感了?第157章 找個清靜的地方第388章 組隊刷分,在線賣軟第160章 只能看到文章本身第172章 誰是誰的小糖人?第347章 中計了第377章 打造自己的科技品牌第225章 papa別鬧!第354章 迷你3D打印機第261章 曉之以理,動之以錢第347章 中計了第268章 最終版本第118章 《如何高效判斷數據是否線性可分》第374章 手工打造LED顯示器第9章 實名震驚第257章 NOIP中最難的題型第372章 卷積神經網絡第40章 好朋友來了第220章 英俊瀟灑,踏雪無痕第69章 論如何追女孩紙第110章 敲竹槓第232章 江寒的野望第240章 怎麼住?第195章 二八佳人體如酥第87章 夜話第131章 夏雨菲的小秘密第302章 聳人聽聞,觸目驚心第288章 合理避稅第267章 數據增廣和集成學習第131章 夏雨菲的小秘密第234章 恐高症第227章 智能安防報警系統第277章 學之力,9段!第34章 遊戲發佈第240章 怎麼住?第260章 這可是B5啊!第430章 超算落成,九段助陣第407章 科幻片,恐怖片?第329章 拋棄框架,從零開始造輪子第286章 破解壞蘋果第280章 這就成了“學者”了?第55章 委託第19章 一切爲了押韻第196章 背黑鍋我來第204章 是男人就餵飽她第129章 兩道試題第153章 眼氣誰呢這是?第296章 攪動風雲第325章 說好的理想男神呢?第12章 重生的使命第262章 貴有貴的道理第163章 萬能逼近定理第298章 手持利器,尤須謹慎第64章 渣男第76章 還有什麼是他不會的?第133章 過去的自己,以及自己的過去第73章 臭屁不過金少樓第99章 老江很忙第172章 誰是誰的小糖人?第57章 非常巨大第121章 還有誰會對自己這麼好?第29章 王璐有點自閉第168章 本能反應第210章 爲了節目效果第332章 大功告成,樂不思蜀第253章 不幸猜中了第144章 時序邏輯電路和寄存器第259章 江寒的秘奧義第25章 我想參加NOIP第181章 無監督學習和SOM第13章 “感知機”和“M-P模型”第110章 敲竹槓第201章 組內學習競賽第113章 刷分的可能性第4章 萬界爬蟲系統第85章 吊橋效應第122章 騙過多少女孩子?
第218章 爲人實在,夠給面子第26章 週一凡的震驚第357章 再給你一次機會第70章 水上公園第266章 篩選模型,以及最後的優勝者第66章 審覈過程第251章 特效藥第65章 論文過審第107章 附加條件第146章 給你個眼神自己領會第202章 輸得明明白白第378章 用詞精準第428章 Hack Me的獎品第365章 一套接着一套第380章 買豬頭不要肉第176章 現學現賣第4章 萬界爬蟲系統第111章 虛擬空間,開啓!第264章 不知人間疾苦第84章 磁陣第34章 遊戲發佈第383章 全自動刷分第359章 大佬,怪蜀黍?第185章 是不是太敏感了?第157章 找個清靜的地方第388章 組隊刷分,在線賣軟第160章 只能看到文章本身第172章 誰是誰的小糖人?第347章 中計了第377章 打造自己的科技品牌第225章 papa別鬧!第354章 迷你3D打印機第261章 曉之以理,動之以錢第347章 中計了第268章 最終版本第118章 《如何高效判斷數據是否線性可分》第374章 手工打造LED顯示器第9章 實名震驚第257章 NOIP中最難的題型第372章 卷積神經網絡第40章 好朋友來了第220章 英俊瀟灑,踏雪無痕第69章 論如何追女孩紙第110章 敲竹槓第232章 江寒的野望第240章 怎麼住?第195章 二八佳人體如酥第87章 夜話第131章 夏雨菲的小秘密第302章 聳人聽聞,觸目驚心第288章 合理避稅第267章 數據增廣和集成學習第131章 夏雨菲的小秘密第234章 恐高症第227章 智能安防報警系統第277章 學之力,9段!第34章 遊戲發佈第240章 怎麼住?第260章 這可是B5啊!第430章 超算落成,九段助陣第407章 科幻片,恐怖片?第329章 拋棄框架,從零開始造輪子第286章 破解壞蘋果第280章 這就成了“學者”了?第55章 委託第19章 一切爲了押韻第196章 背黑鍋我來第204章 是男人就餵飽她第129章 兩道試題第153章 眼氣誰呢這是?第296章 攪動風雲第325章 說好的理想男神呢?第12章 重生的使命第262章 貴有貴的道理第163章 萬能逼近定理第298章 手持利器,尤須謹慎第64章 渣男第76章 還有什麼是他不會的?第133章 過去的自己,以及自己的過去第73章 臭屁不過金少樓第99章 老江很忙第172章 誰是誰的小糖人?第57章 非常巨大第121章 還有誰會對自己這麼好?第29章 王璐有點自閉第168章 本能反應第210章 爲了節目效果第332章 大功告成,樂不思蜀第253章 不幸猜中了第144章 時序邏輯電路和寄存器第259章 江寒的秘奧義第25章 我想參加NOIP第181章 無監督學習和SOM第13章 “感知機”和“M-P模型”第110章 敲竹槓第201章 組內學習競賽第113章 刷分的可能性第4章 萬界爬蟲系統第85章 吊橋效應第122章 騙過多少女孩子?