第312章 鉅額的隱形財富(續)

关灯護眼    字體:

[上一章] [目錄] [下一章]

如果說在前世2017年,1000萬條雙語資料標註就要耗資兩千多萬美元。

那麼在機器學習整體比較滯後的這個時空的2014年。

同樣的1000萬條雙語資料標註需要多少錢呢?

林灰覺得1000萬條雙語標註資料怎麼著也得要個兩三億美元啊。

“兩三億美元”這個資料似乎有點嚇人。

但其實也不誇張。

之所以說不誇張有兩方面的原因:

一、即便是在前世,資料標註也是在對偶學習之類的特殊學習技巧問世後成本才大幅下降。

而在此之前,涉及到資料標註從來就跟“便宜”兩個字不沾邊。

同樣拿此前林灰所列出的例子作為援引:

在前世2017年1000萬條雙語互譯標註的成本約為2200萬美元;

注意這僅僅是雙語互譯的標註。

“雙語互譯”只是某兩種語言之間的互譯標註。

只是兩種語言之間的互譯標註就需要兩千多萬美元?

那涉及到上百種語言的互譯需要多少錢呢?

這個問題並不複雜,簡單的排列組合問題:

C(100,2)== 4950; 4950*0.22億美元==1089億美元;

不難看出若需支援上百種語言的互譯,人工標註訓練集的成本將達到上千億美元。

而這僅僅是理想情況下的估算,如果真要按部就班進行這樣的標註實際成本遠不止於此。

畢竟很多小語種之間的互譯成本顯然相比於主流語言之間的互譯價格還要更高。

雖然實際操作中不會真的有大怨種按部就班進行上百種語言互譯的資料標註。

但這個估算也充分說明了資料標註在相當長的一段時間內都很昂貴。

同樣的道理,在現在這個時空資料標註方面的成本也依然是昂貴的。

而且因為這個時空機器學習方面研究進展的滯後,現在涉及到資料標註這方面的成本甚至還要高於前世同一時期的。

二、時代是在飛速發展的,要知道現在隨便一個文體店就能很方便買到的科學計算器其實際效率、可靠程度、易用性甚至可以全方位吊打上個世紀五六十年代花費上千萬美元搞出來的佔地幾百甚至是上千平方米的計算機。

這種情況下後世很便宜的計算器拿到幾十年前縱然是要價上百萬美元同樣是有市場的,而且可能還會相當有競爭力。

舉這個例子並不是說林灰要再往前幾十年去賣計算器。

林灰只是想藉此說明時代的車輪是向前的,科技也是在飛快發展的。

尤其是在中後網際網路時代,科技的發展說是日新月異也絲毫不為過。

在這種情況下,往後幾年一些不怎麼被人過分重視的技術在幾年前能夠換取大額的財富是很正常的。

更何況還是利用資料標註這個相當長一段歷史時期內都只能是土豪公司才玩得轉的東西去換取財富?

總之,林灰沒覺得“在現在1000萬條雙語標註資料怎麼著也得要個兩三億美元”這個估算的有什麼問題。

甚至於,即便是“兩三億美元的價格”給旁人一種很誇張的感覺。

但實際上林灰這個價格估算的可能還有點保守。

在人工智慧的產業結構中,主體包含有應用層、技術層和基礎層。

應用層包含有解決方案和產品服務。

技術層包含有應用技術、演算法理論和平臺框架。

而基礎層則包含有基礎設施和資料。

從這個角度來衡量的話,某種程度上甚至可以將資料是人工智慧的基石。

事實也正是如此。

涉及到人工智慧的三駕馬車演算法、算力、算據(資料)。

演算法看起來很重要,但要知道很多時候,沒有優質資料存在,就很難訓練出優質的演算法。

資料這東西雖然通常情況下看不見摸不著,但任誰也不能忽視資料的重要性。

尤其是標註資料更是相當重要。

在時下有監督的機器學習仍然是當前神經網路學習訓練的主要方式。

而有監督的機器學習是離不開標註資料的。

有監督的機器學習需要被標註資料作為先驗經驗。

在有監督的機器學習裡未被標註的資料和被標註資料以比例劃分為訓練集和測試集。

機器透過對訓練集的學習得到一個模型,再對測試集進行識別,就可以到的該模型的準確率。

演算法人員根據測試結果找到模型的短板,並將資料問題反饋給資料標註人員,再重複流程,直到得到的模型指標符合上線需求……

在時下幾乎沒啥無監督學習的應用的情況下,大規模、高質量的人工標註資料集甚至可以說是現在機器學習產業發展的剛需。

在這種情況下,把資料以及標註資料看得再重要也不為過。

因此才有了林灰所謂的估值估低了的說法。

不過所謂的估值也不重要了,真涉及到標註資料的出售的話具體價格完全可以慢慢談。

林灰是需要很多錢,但如果是將來同一些超級巨頭進行談判的話,林灰也未必一心要錢。

用林灰感興趣的資源進行交換也不是不可以。

說實話這些頂尖巨頭的部分資源對林灰還是相當有誘惑力的。

具體到林灰現在所擁有的標註資料。

曾經涉及到網文翻譯的時候,林灰當初幾乎是第一時間想到了前世那部手機裡SimpleT這個軟體。

SimpleT這個軟體是前世林灰所在公司開發測試的一款軟體。

這個軟體不怎麼為人所知是因為該軟件還處於α內測階段。

α測試的目的是評價軟件產品的功能、局域化、可用性、可靠性、效能和支援。

尤其注重產品的介面和特色。

α測試的時間可以從軟件產品編碼結束之時開始。

也可以在模組(子系統)測試完成之後開始。

還可以在確認測試過程中產品達到一定的穩定和可靠程度之後再開始。

SimpleT這款軟體的α內測就是在確認SimpleT達到一定的穩定和可靠程度之後才開始的。

所以說雖然SimpleT尚在內測。

但這款軟體的技術水平也是相當成熟了,幾乎離正式面世只差一輪公測。

林灰原本想過待時機合適將這樣一個軟體復刻出來去進軍軟體翻譯市場的。

【新章節更新遲緩的問題,在能換源的app上終於有了解決之道,這裏下載 huanyuanapp.org 換源App, 同時查看本書在多個站點的最新章節。】

在留心到標註資料所擁有的特殊價值的情況下。

林灰同樣差不多是第一時間想到了SimpleT這一軟體。

[上一章] [目錄] [加入書籤] [下一章]
推薦閱讀
相鄰閱讀