第53章 大功告成

不過,在跑代碼之前,還要對數據進行預處理。

江寒先從報名信息表中,將性別信息仍然“健在”的行挑出來,只保留序號、姓名和性別,另存爲label.xls。

這些記錄一共9527條,大約佔三萬多條數據總數的30%。

它們對應着9527張真彩色照片。

24位真彩色的圖片,每個像素點在內存裡,要佔用3個字節的存儲單元。

每張照片有210×120個像素,這樣讀入一張照片,需要的內存空間就是210×120×3=75600個Byte。

9527條數據,共需要9527×75600=720241200B≈686.88M≈0.7G!

這個內存開銷,還是比較容易接受的。

但是,“感知機”的算法,需要進行大量浮點乘法運算。

對每個像素的每個RGB分量都算一遍?

沒那個必要,也太浪費時間。

所以,聰明的做法,是先把照片數據“壓縮”一下。

江寒給“感知機”的代碼,添加了一個LoadData函數,用來讀取和處理照片數據。

在這個函數裡,先定義一個二維的整形數組Feature。

然後從label.xls中讀出序號、姓名信息,按照剛纔建立的索引表,找到對應的照片文件。

下一步,將照片讀取到內存中,讀取的同時,將每個像素二值化。

具體做法是:色彩濃度在閾值以上的像素,取值爲1,低於閾值就讓它爲0。

這樣一來,原本的真彩色照片,就被轉換成了黑白輪廓圖。

然後,再將輪廓圖中的0或者1的取值,按照從左到右、從上到下的順序,重新編排成一行數據,存放到數組Feature中。

Feature中的每一行,都存儲了一張照片的二值化信息。

一共9527張照片,就需要9527行。

全部照片處理完畢後,就得到了一個巨大的二維數組Feature。

它有25200列、9527行。

接下來,定義一個擁有9527個整形元素的一維數組Label。

從label.xls中讀入性別信息,男生設爲1,女生設爲0,存放在數組Label中。

Feature加上對應的Label,就構成了訓練數據集。

訓練“感知機”時,將一行行Feature代入公式中,進行加權和運算,其結果再通過sign函數,轉換爲0或1,然後和對應的Label值對照。

如果不相符,就調整權重和偏置,然後重新計算。

當每一個Feature代入公式後,都能計算出正確的Label時,就得到了一組權重和偏置。

也就是說,構建出了一個可用的數學模型。

依據這個模型,計算機就可以讀入任何一張同尺寸、類型的照片,對其二值化的數據代入模型中運算,並根據運算結果判斷分類歸屬。

這就是典型的機器學習過程,計算機從數據中自己“學”到了某種規律。

即使這種規律,人類並不一定完全理解,也不見得能用數學語言解釋清楚……

剩下的就比較簡單了。

接下來,江寒又添加了幾個函數,用來輸出運算結果、觀察運行情況等。

最後,從頭調試了一遍,確認沒啥bug後,將代碼重新編譯,然後運行了起來。

屏幕上有一些數字,表示當前正在處理的數據,和訓練進度的百分比。

十分鐘後,後一個數字纔剛剛達到1.3%。

這表示,完整訓練一遍,大約需要13個小時……

之所以這麼慢,主要是江寒的程序,比較追求穩定性,以及調試的方便、快捷,並沒特別講究執行效率。

當然,即使他用心優化,估計也需要8個小時以上,才能完成訓練。

雖然有點慢,但其實沒什麼關係,訓練過程並不需要人工干預,掛機等着就行。

第二天早晨,江寒起牀後,先看了下訓練進度,還差了大約13%才能完成,就先去班級上課。

中午吃完飯回來,訓練終於結束了。

而存放權重和偏置參數的Weight數組,也以內存映像的方式,保存在了一個二進制文件中。

接下來就簡單了。

重建一個一模一樣的感知機模型,加載上這個權重文件,就可以用它來判斷剩餘照片的性別了。

江寒重新改寫代碼,然後運行。

這次十分迅速,只用了不到20分鐘,就將兩萬一千來張照片,全部處理完畢。

這就是“感知機”,或者說“人工神經網絡”的特點。

訓練起來特別耗時,一旦訓練完成,工作起來非常快捷。

至於正確率,江寒初步估計,大大超過99%,21000條未經訓練的數據裡,判斷出錯的,絕不超過10人。

比人類肉眼的識別率低不到哪裡去。

事實上,“感知機”或者說“人工神經網絡”的錯誤率,跟訓練數據、測試數據的質量有很大關係。

如果比較規範,達到100%的識別率都不算稀奇。

可惜實際運用中,總有個別實例,奇葩得超乎想象。

有的時候,人類都幾乎無法識別!

根據老高的說法,這區區幾個錯誤的,可以在把名單下達到各校後,根據反饋修改一下就行。

如果沒有這個託底,就沒法使用“感知機”,因爲沒辦法判斷,哪些人被誤分類了……

得到了全部照片的性別數據後,江寒將其粘貼到了《報名信息表》中。

大功告成後,江寒沒急着找高老師覆命。

這麼快就搞定,老高肯定會十分震驚,然後追問前因後果。

“感知機”解釋起來太費勁,而且也沒那麼高大上,還用不着見人就推銷。

關鍵老高一個人貢獻的那點震驚值,江寒現在已經有點看不上眼了。

休息了一會兒後,江寒就拿着《noip通關寶典》,回班級繼續刷題。

※※※※※

“槓上開”是一個營銷號主。

什麼是營銷號?

百科上說,一般是指組織機構或者個人對外宣傳散發信息所用的賬號,具有目的性,一般是用來宣傳產品或服務的。

狹義上說,就是純粹以賺錢爲目的,專門在各大視頻站上傳垃圾內容的人。

內容粗製濫造?那是基本操作;

虛假宣傳和科普?那是日常作業;

動不動危言聳聽、各種震驚?這根本就不算事兒。

沒事兒噹噹水軍,引導引導輿論,纔是他們的主要業務。

反正很多事情,很多人既不瞭解,也不具備判別能力,還不是哪邊人多信哪邊……

你說網友們義憤填膺?

上面都不管,網友算老幾,錢到手纔是真的。

爲什麼網站不整治?

一個是很難區分,容易誤傷正常的up主;

再一個,網站跟流量什麼仇、什麼怨……

“槓上開”就是這樣一個營銷號,每天出沒於各個視頻站,P站算是他最重要的基本盤。

他最常做的,就是接受客戶的委託,然後不擇手段地完成任務。

視頻網站給的那點補貼,他根本沒放在眼裡,客戶的賞金纔是大頭。

今天,他做完“作業”,上傳完幾個視頻,然後隨便在P站逛了一會兒。

忽然,一個點擊、投幣超高的視頻,躍入了眼簾。

本月熱門?

“槓上開”來了點興趣。

仔細一看標題,頓時有點無語。

《舊光驅改造寫字機器人》……真夠誇張的,你怎麼不改造成航母呢?

不過,好奇之下,他還是點開了視頻,看了一眼。

結果,一看之下,他瞬間就驚呆了。

臥槽,還真是個高手,這動手能力有點逆天了。

本着一個營銷號的職業精神,“槓上開”感到了一種久違的使命感。

必須做點什麼。

沒錯,這麼有創意的視頻,不盜上一把,他簡直渾身藍瘦!

不過,簡單的重發是不行的,網站的審覈員職位,也不是白設置的。

所以,還需要用點技巧,稍微加工、處理一下……

第283章 給靈感充點值第246章 Vigenère密碼和國王遊戲第366章 微服私訪?第215章 儀表堂堂,器宇軒昂第109章 不擅長的事情第291章 驚動了各路神仙第20章 寫論文第244章 屋裡陪他小電影?第427章 詭異的附加關卡第417章 江寒的圍棋水平第267章 數據增廣和集成學習請假,存稿丟失一章,正在想辦法重寫第261章 曉之以理,動之以錢第389章 誠信友善,和諧友愛第204章 是男人就餵飽她第350章 男生不準進去的地方第282章 又一顆壞蘋果?第269章 易中海的困境第106章 查戶口第87章 夜話第23章 震驚商城,開啓!第153章 眼氣誰呢這是?第135章 巧合?考驗?第67章 異或問題第428章 Hack Me的獎品第79章 李東的Show time第13章 “感知機”和“M-P模型”第368章 能幹的小秘書?第42章 P站阿婆主第385章 超大規模集成神經網絡第405章 身手很好,飯來張口第4章 萬界爬蟲系統第86章 蘇婉瑩的預測第265章 羨慕使人質壁分離第411章 不可不防,防不勝防第277章 學之力,9段!第238章 競爭對手?第305章 再不用就過期了第219章 點到爲止第143章 別人笑我太瘋癲第263章 一切都在算計中第209章 校服就是最正式的裝扮第338章 脫胎換骨,戰神軍團第335章 不走尋常路第283章 給靈感充點值第136章 打造算術邏輯單元第217章 超級粉絲第154章 腦力提升的副作用第111章 虛擬空間,開啓!第34章 遊戲發佈第79章 李東的Show time第32章 借MacBook一用第314章 旗鼓相當?大獲全勝!第214章 小夥子,你很有勇氣啊!第236章 意志堅強,沒有毛病第379章 似真似幻,恍如隔世第26章 週一凡的震驚第320章 法無禁止即可爲第414章 蚊子再小也是肉第366章 微服私訪?第399章 此一時,彼一時第102章 怎麼就這麼不好對付?第390章 兩份DNA檢測報告單第119章 高中課程裡有這些?第401章 有種奇遇叫頓悟第157章 找個清靜的地方第429章 阿法狗的三板斧第343章 差之毫釐,謬以千里第361章 有點像“年輕”時的自己第11章 像我這麼專一第220章 英俊瀟灑,踏雪無痕第271章 破壞永遠比建設更容易第229章 從源頭上防仿製?第134章 喜歡大一點的第58章 作報告?第357章 再給你一次機會第169章 最後0.5公分第65章 論文過審第171章 蘇婉瑩的秘密第105章 寶藏男孩第161章 論腦補,只服你第50章 可能整大發了第400章 不可逾越的高山第57章 非常巨大第70章 水上公園第403章 家產億萬,平平無奇第366章 微服私訪?第427章 詭異的附加關卡第28章 老宋的算盤第345章 意外連連第429章 阿法狗的三板斧第242章 搞出問題怎麼辦?第37章 烤肉第359章 大佬,怪蜀黍?第266章 篩選模型,以及最後的優勝者第262章 貴有貴的道理第266章 篩選模型,以及最後的優勝者第136章 打造算術邏輯單元第212章 他和夏總到底什麼關係?第417章 江寒的圍棋水平
第283章 給靈感充點值第246章 Vigenère密碼和國王遊戲第366章 微服私訪?第215章 儀表堂堂,器宇軒昂第109章 不擅長的事情第291章 驚動了各路神仙第20章 寫論文第244章 屋裡陪他小電影?第427章 詭異的附加關卡第417章 江寒的圍棋水平第267章 數據增廣和集成學習請假,存稿丟失一章,正在想辦法重寫第261章 曉之以理,動之以錢第389章 誠信友善,和諧友愛第204章 是男人就餵飽她第350章 男生不準進去的地方第282章 又一顆壞蘋果?第269章 易中海的困境第106章 查戶口第87章 夜話第23章 震驚商城,開啓!第153章 眼氣誰呢這是?第135章 巧合?考驗?第67章 異或問題第428章 Hack Me的獎品第79章 李東的Show time第13章 “感知機”和“M-P模型”第368章 能幹的小秘書?第42章 P站阿婆主第385章 超大規模集成神經網絡第405章 身手很好,飯來張口第4章 萬界爬蟲系統第86章 蘇婉瑩的預測第265章 羨慕使人質壁分離第411章 不可不防,防不勝防第277章 學之力,9段!第238章 競爭對手?第305章 再不用就過期了第219章 點到爲止第143章 別人笑我太瘋癲第263章 一切都在算計中第209章 校服就是最正式的裝扮第338章 脫胎換骨,戰神軍團第335章 不走尋常路第283章 給靈感充點值第136章 打造算術邏輯單元第217章 超級粉絲第154章 腦力提升的副作用第111章 虛擬空間,開啓!第34章 遊戲發佈第79章 李東的Show time第32章 借MacBook一用第314章 旗鼓相當?大獲全勝!第214章 小夥子,你很有勇氣啊!第236章 意志堅強,沒有毛病第379章 似真似幻,恍如隔世第26章 週一凡的震驚第320章 法無禁止即可爲第414章 蚊子再小也是肉第366章 微服私訪?第399章 此一時,彼一時第102章 怎麼就這麼不好對付?第390章 兩份DNA檢測報告單第119章 高中課程裡有這些?第401章 有種奇遇叫頓悟第157章 找個清靜的地方第429章 阿法狗的三板斧第343章 差之毫釐,謬以千里第361章 有點像“年輕”時的自己第11章 像我這麼專一第220章 英俊瀟灑,踏雪無痕第271章 破壞永遠比建設更容易第229章 從源頭上防仿製?第134章 喜歡大一點的第58章 作報告?第357章 再給你一次機會第169章 最後0.5公分第65章 論文過審第171章 蘇婉瑩的秘密第105章 寶藏男孩第161章 論腦補,只服你第50章 可能整大發了第400章 不可逾越的高山第57章 非常巨大第70章 水上公園第403章 家產億萬,平平無奇第366章 微服私訪?第427章 詭異的附加關卡第28章 老宋的算盤第345章 意外連連第429章 阿法狗的三板斧第242章 搞出問題怎麼辦?第37章 烤肉第359章 大佬,怪蜀黍?第266章 篩選模型,以及最後的優勝者第262章 貴有貴的道理第266章 篩選模型,以及最後的優勝者第136章 打造算術邏輯單元第212章 他和夏總到底什麼關係?第417章 江寒的圍棋水平