畢竟作為一個主打AI翻譯的軟體,其訓練過程中自然是同樣用到大量的雙語互譯標註資料的。
而SimpleT這款未正式上市的軟體作為前世公司寄予厚望的產品之一。
對這款軟體在實際開發中所用到的標註資料林灰相信肯定能在前世企業資料裡翻找到的。
這種情況下似乎現在直接拿曾經公司在調教SimpleT這款軟體所用到的標註資料去換錢豈不是事半功倍?
雖然SimpleT這款軟體在架構的時候同樣沒有進行全語種的互譯資料標註。
但最起碼涉及到中、英、俄、法、西、日這些常見語種之間的互譯資料標註肯定是要有的。
縱然這些語種之間的互譯資料不是所有的語種之間都能達到千萬條的互譯標註規模。
【鑑於大環境如此,本站可能隨時關閉,請大家儘快移步至永久運營的換源App,huanyuanapp.org 】
但最起碼中-英、英-中互譯標註資料肯定還是相當有規模的。
在這種情況下,林灰估算了一下前世SimpleT這款軟體所用到的標註資料在今天起碼也要擁有七八億美元的價值。
這無疑是一筆相當鉅額的財富。
最關鍵的是即便林灰拿了這些語種之間的互譯標註資料去換錢。
也不妨礙林灰到時候將SimpleT這個軟體推向翻譯市場。
呃,雖然有點奸商的作風。
但怎麼說呢,一雞多吃是常態。
甚至於可以說一雞多吃是網際網路時代下的典型商業特色。
儘管短時間內林灰不大可能去突然涉及到翻譯領域的互譯標註。
但林灰手中的標註資料可不僅僅是翻譯領域。
以林灰此時所耕耘的自然語言處理這個方面吧。
儘管林灰在此前的生成式文字摘要模型的構建中主要是使用無監督訓練的方式進行的大量資料獲取以及相應的模型訓練。
但林灰手中確確實實是有自然語言處理方向的標註資料。
而且是超大規模的文字標註資料。
這更是一筆相當大的財富。
雖然這種文字資料標註相比於雙語互譯文字標註(標註起來門檻更高)的資料其價值肯定是要打折扣的。
但在形成規模的情況下縱然是一般的標註資料一樣是一筆不容小視的財富。
僅僅是涉及到文字摘要有關的一些普通標註資料林灰估計在這個時空換取幾千萬美元的話完全沒問題。
如果對這些標註資料加以一定包裝並且足夠幸運能夠遇到一些識(yuan)貨(da)人(tou)的話。
商業談判時如果談判的人很會的話談到近億美元也是有可能的。
如果對標註資料進行一定的包裝,林灰估計忽悠個上億美刀也是完全沒問題的。
對這些標註資料加以一定的包裝是什麼意思呢?
就是美化標註資料的質量。
嚴格來講的話,同樣是標註資料也是可以區分為專家標註和眾包的。
所謂的“專家標註”也不是真的專家去進行標註。
“資料標註”聽起來似乎蠻高大上的,但實際上呢?
進行資料標註過程往往非常復雜,涉及到數據量特別多的時候,對人工勞動力會有很高的要求。
雖然不能說低端吧,但這種機械而繁複的工作至少跟高階是沒啥關係的,磚家教授肯定是不會去幹這活的。
所謂的專家標註一般都是由苦逼的演算法工程師進行兼職。
或者由專門的演算法資料標註員進行標註。
所謂的資料標註員是一種新興職業。
前世,隨著大資料以及人工智慧時代的到來,為了應對資料標註的工作在網際網路上出現了一種新型職業——資料標註員。
資料標註員的工作是使用相應的工具從網際網路上抓取、收集資料,包括文字、圖片、語音等等。
然後對抓取的資料進行整理與標註。
這些資料標註員工具體的工作流程一般很明確:
首先,標註人員經過培訓,確定需要標註的樣本資料以及標註規則;
而後,根據事先安排好的規則對樣本資料進行打標;
其次,對標註完以後的結果進行合併。
而演算法資料標註員稍稍有別於一般的資料標註員。
相比於一般的資料標註猿,演算法資料標註猿往往在完成以上的步驟之後。
還要透過標註的資料喂模型進而除錯模型。
儘管工作流程只是多了這一步,但專業的演算法資料標註員依舊是鳳毛麟角。
從先前羅列的任務也可以看出演算法資料標註員的任務不僅僅是資料標註。
往往還需要根據標註的資料進一步評估演算法模型。
如此一來很多時候對書記標註員的要求是這些人不光要進行資料標註。
還得懂相應的演算法。
同時滿足這兩個條件的人很多時候完全是鳳毛麟角。
正因為這種專業標註的人員很少。
往往專家級標註只能夠勝任小量級的資料。
對於大規模資料標記和超大規模資料的標記任務想要依靠專家標記很多時候只能是力不從心。
對於大規模資料標記和超大規模資料標記往往只能尋求眾包了。
眾包模式是將零散的個人(包括兼職)、小標註團隊,整合到平臺上,完成一個完整專案的服務模式。
這種模式的主要優勢成本很低,且比較靈活。
儘管前世機器學習長期所致力於的工作就是能夠以眾包資料或者乾脆是無標資料取代專家標註。
但真要問專家標註和眾包資料哪個受歡迎。
那自然是前者。
這種情況下誇大標註資料中專家標註所佔的比例很容易收穫到更高的溢價。
聽起來似乎很奸商。
但也僅僅只是聽起來而已。
如果林灰所大肆讚美的標註資料和現在的專家標註水平真的區別很大的話。
那林灰吹破大天也沒用。
畢竟打鐵還需自身硬。
林灰既然敢宣稱標註資料中專家標註所佔的比例很高自然有底氣。
怎麼說呢?
往後幾年即便是一些非專家標註的資料,在行業標準化、規範化的情況下。
很多時候,就算是眾包的資料也未必比現在的行業尚未完全標準化以及規劃化的專家標註的水平差。
就算林灰拿往後幾年的非專家標註資料去忽悠人。
想來這個時空也會有人去買賬。
沒辦法,技術強勢就是可以為所欲為。