第311章 鉅額的隱形財富

关灯護眼    字體:

[上一章] [目錄] [下一章]

在人臉識別方面、超解析度重建等方面生成對抗網路更是大有用武之地。

甚至是在語義影象修復方面生成式對抗網路同樣是可以大顯身手。

除此之外,生成式對抗網路還有很多應用方向。

概括地說,生成式對抗網路的應用前景是相當廣闊的。

說起來因為在這個時空機器學習方面的研究比較滯後。

林灰想搬運生成式對抗網路這一模型的話其實也不需要擔太多風險。

儘管如此,在將生成式文字摘要方面的徹底搞定之前。

林灰也不著急將生成式對抗網路相關的研究成果搬運出來。

至於為什麼林灰不將生成式對抗網路搬出來?

林灰不想給外界其餘的學術人員一種割裂感。

就像林灰在過往遊戲開發(搬運)時不想給遊戲玩家一種割裂感一樣。

雖然林灰現在已經有了一定的將生成式對抗網路的推出邏輯基礎。

(林灰此前搞得生成式文字摘要裡面涉及到的生成式模型,而從尹芙·卡莉那收購來的專利中又涉及到類判別式模型,而生成式對抗網路其組成正是包含有生成式網路和判別式網路……)

但如果林灰貿然搞出生成式對抗網路依舊不是很好。

畢竟生成式對抗網路就應用層面來說和林灰現在一向搞得自然語言處理這一學術領域其實關係不太大。

在這種情況下,林灰莫名其妙推出一個和自然語言處理幾乎沒啥關係的模型算怎麼回事呢?

雖然學術方面無心插柳柳成蔭的例子很多,很多學術成果最開始問世的時候目的往往是跑偏的。

但林灰內心信奉的原則是註定了林灰不大可能打破此前延續的慣例。

無論是遊戲開發還是學術進展上,林灰都不想給別人一種割裂感。

而且,科技樹還是按順序點比較好。

雖然說作為掛比不按順序點科技樹也可以。

但在多元化的社會下不按規矩辦事往往就意味著風險。

亂點科技樹,自己的科技邏輯鏈沒形成。

潛在對手卻形成了相應的發展脈絡。

那麼科技成果很有可能被對手所竊取。

這是林灰所不願意看到的。

現在在林灰看來學術方面他所要做的依然是深耕自然語言處理。

深耕生成式文字摘要。

透過不斷的深耕,從自然語言處理這一領域找到破局點

或者說點亮相鄰於林灰已點亮科技成果的科技樹分支才是最好的。

(林灰倒也不著急,即便是一時之間未找到合適的破局點其實也關系不大。

起碼是一個月林灰還是不需要太擔心的。

畢竟就生成式文字摘要這方面取得的“突破性進展(成功的搬運)”林灰最起碼也能“混”一個碩士學位。

而這也是要林灰消化一段時間了。

其實林灰原本的估計更加樂觀。

林灰原本是覺得將生成式文字摘要這個方向的論文搞清楚,就差不多能博士了。

不過透過最近跟尹芙·卡莉的交流,林灰覺得是他過於樂觀了。

就像諾獎級成果不一定真的能獲得諾獎一樣。

就算林灰在生成式文字摘要方面鼓搗出的東西對於這個時空能稱得上是博士級甚至更高階別的成果。

但想藉此一步到位獲得博士畢業論文也是很有難度的。

畢竟此前林灰搞得學術內容其主要呈現形式都是圍繞著生成式文字摘要這樣一個演算法專利的。

這個時空西方對於專利形式的學術成果更傾向於將之視作偏向於實踐的東西,亦即工程上的成果。

【目前用下來,聽書聲音最全最好用的App,集成4大語音合成引擎,超100種音色,更是支持離線朗讀的換源神器,huanyuanapp.org 換源App】

而僅僅依靠工程方面的成果想要一步到位弄到博士方面的成果是很麻煩的。

雖然涉及到生成式文字摘要在學術上的收益這個稍微低於林灰的預期,不過問題不大。

林灰覺得學術上步子太大也不完全是好事情。)

既然短時間不搬運生成式對抗網路。

那剛才關於生成式對抗網路的思考豈不是等同於白白浪費腦細胞?

當然不是。

很多時候思維大概就是在一些漫不經心的思考中獲得新的啟發的。

關於生成式對抗網路這方面的思考,林灰突然意識到他還有一筆鉅額的隱形財富。

那就是前世的人工標註資料。

雖然沒太認真翻看前世一同攜帶來的資訊。

但人工標註的資料林灰不可能是沒有的。

尤其是前世那些企業級硬碟裡面絕對不可能沒有人工標註資料。

就算沒啥影象的人工標註,涉及到一些文字的人工標註,絕對是不可能少了的。

畢竟這種東西相當實用,而且文字標註其實也不是很佔地方。

要知道涉及到神經網路學習訓練或者說深度學習訓練在模型構建的時候可是需要大量的人工標註資料的。

尤其是監督學習和半監督學習更是需要大量的人工標註資料。

通常一個模型在架構的時候需要很多的人工標註的資料。

在調整的時候也需要很多的人工標註資料。

舉這樣一個例子:

在圖象識別裡面,經常我們可能需要上百萬的人工標註的資料,

在語音識別裡面,我們可能需要成千上萬小時的人工標註的資料。

涉及到機器翻譯更是需要數千萬語句標註資料。

說實話作為一個來自前世往後幾年的技術人員。

此前涉及到人工標註資料的價值林灰還真沒太當回事。

但現在看來,這玩意的價值此前明顯被林灰忽視了。

林灰記得在前世2017年看到的一組資料說得是涉及到人工翻譯的話。

一個單詞的費用差不多是5—10美分之間,一個句子平均長度差不多是30個單詞。

如果需要標註一千萬個雙語句對,也就是我們需要找專家翻譯一千萬句話,這個標註的費用差不多是2200萬美元。

可以看到資料標註的費用是非常非常高的。

而這僅僅是2017年的資料標註成本。

在現在的話標註成本豈不是意味著更高的資料標註費用?

要知道現在幾乎不怎麼注重無監督學習。

在無監督學習方面更是幾乎沒啥可堪一用的模型。

在主流的機器學習依舊是靠監督學習和半監督學習。

而舉凡是監督學習和半監督學習基本就離不開人工標註的資料。

以這個角度來衡量的話林灰所擁有的一大批現成的人工標註資料豈不是一筆鉅額的隱形財富?

[上一章] [目錄] [加入書籤] [下一章]
推薦閱讀
相鄰閱讀