第326章“暗資料”

关灯護眼    字體:

[上一章] [目錄] [下一章]

至於黃靜說得這個訊息到底是什麼,經過進一步的詢問以及多方查驗。

以及更進一步的一番推敲,林灰還是搞明白了。

所謂的兩三億美元的資料交易指向的確實是資料,但又不是一般型別的資料交易。

蘋果方面此次謀求的資料收購實在是一樁比較特殊的資料交易。

因為透過各方面渠道獲得的資訊,林灰覺得蘋果方面的目標指向的實際是:

——“暗資料”。

圖謀於此,也可以看出來蘋果似乎在明修棧道暗渡陳倉啊。

暗資料有時候也被稱為塵埃資料。

暗資料或者說“塵埃資料”是由所有冗餘的、經常被遺忘的資料組成的。

這些資料是公司和組織在其活動過程中收集的,但隨後又不使用。

暗資料往往是無結構、無標記、無分析的資訊。

比起此前林灰忽視的標註資料。

暗資料就更沒啥存在感了。

暗資料這類資料幾乎是被無視的。

畢竟這類資料存在於網路和伺服器中,只會佔據了寶貴的空間。

一般來說,暗資料主要有三種型別:

第一種是傳統的基於文字的資料。這可能包括電子郵件,日誌和文件。

第二種型別是非傳統資料。

這包括未標記的音訊和視頻文件、靜止圖像和聲音文件。

第三種型別是深度資料。

這包括深層網路中搜索引擎無法觸及的資訊。

這些深度資料大多是私有的,由政府或私人機構控制。

它包括由學者、政府機構和當地社群策劃的資料、醫療記錄、法律記錄、財務資訊和組織特定資料庫。

以上這些資料都可以稱之為暗資料。

……

暗資料這類資料相比傳統意義上資料要更隱晦一些。

暗資料這種未標註過的資料雖然不能拿來直接用吧。

但卻不能否定這種東西的潛力。

反正絕對不能說這些資訊不重要。

至於果子為什麼對這類東西感興趣。

因為收集這類一貫不被視為資料的資料。

實際上透過深耕是能得到跟傳統資料差不多的功效的。

而且使用這類資料的話,透過一些概念性的教育消費者甚至可以形成一種企業從來不涉足一般資料的印象。

這對於樹立企業形象豈不是很有妙用??

總之,對於既當又立的企業不能說是沒有誘惑力。

反正林灰覺得從暗資料入手這倒是符合很多科技巨頭的行事風格。

類比林灰以前估量的價格。

如果說幾千萬美元就能買上千萬條雙語標註資料。

可想而知像蘋果所謀求的價值兩三個億美元的暗資料肯定是一筆相當龐大的資料。

涉及到標註資料跟暗資料一大區別在於標註資料是結構化進行過一定處理的資料。

而暗資料很大程度上是未被結構化處理甚至很是“亂糟糟”的資料。

結構化的資料一般是即有固定格式和有限長度的資料。

例如填的表格就是結構化的資料。

比如說“國籍,種花家,民族:漢,性別:男,姓名:張三,年齡:……”

這種格式的都叫結構化資料。

這類資料很容易以固定的格式儲存到資料庫裡。

而半結構化資料值得是一些 XML 或者 HTML 的格式的資料。

對這類資料當根據需要可按結構化資料來處理,也可抽取出純文字按非結構化資料來處理。

所謂的非結構化的資料:就是不定長、無固定格式的資料。

例如網頁,郵件,有時候非常長;有時候非常短,幾句話就沒了,這類就是典型的非結構化資料。

子啊比如說例如 Word 文件、語音,影片、圖片都是非結構化的資料。

而半結構化資料和非結構化資料,一般合二為一統稱為“暗資料”。

這個詞語也不是林灰定義的。

相比於標註資料這種結構化資料,暗資料同標註資料此二者的價值是不可同日而語的。

單位標註資料的價值往往幾十倍甚至於幾百倍於單位暗資料。

兩三億美元就算是換取較為昂貴的跨語種語言類標註資料都能換上幾億條。

更何況說拿幾億美元去換暗資料呢?

可想而知,兩三億美元涉及到的暗資料是一筆相當可觀的暗資料。

林灰那有很多前世的資訊。

但也絕不可能有滿足蘋果胃口的暗資料。

不要說是林灰前世那點資訊了。

就是像國內有的忝居網際網路巨頭之列外強中乾的網際網路公司所擁有的暗資料規模也未必能滿足蘋果的胃口。

這種情況下如果林灰對蘋果的這筆鉅額收購感興趣的話似乎只能去收集暗資料了。

【穩定運行多年的小說app,媲美老版追書神器,老書蟲都在用的換源App,huanyuanapp.org】

至於如何去收集呢?

暗資料的收集方式多種多樣。

因為暗資料包括使用者活動日誌、客戶對話或電子郵件記錄、伺服器監控日誌、視頻文件、物聯網產生的機器和傳感器資訊。

暗資料還可能包括由於儲存在過時裝置上而無法再訪問的資料。

這種情況下很多時候清理活動日誌或者說收集儲存碎片的時候都有可能順手牽羊搞到一些暗資料。

除此之外還有很多種收集暗資料的方式。

說起來雖然很容易。

但正所謂拋開劑量談毒性都是耍流氓。

同樣的道理拋開資料規模談咋挖掘資料同樣是耍流氓。

像蘋果所圖規模的暗資料肯定不是傳統的資料探勘方式能滿足的。

似乎時下也沒太好的挖掘暗資料的方式。

傳統的公司,在處理暗資料的時候,採用的是笨辦法,想辦法把非結構化的資料轉換成結構化資料。

這種方法費時費力。

不過也僅僅只是對於時下的科技公司來說。

對於林灰來說他還是有很多資料探勘方式的。

沒人比林灰更懂如何挖掘資料了。

對於大規模的資料探勘,似乎最方便的方式就是藉助於人工智慧來挖了。

甚至於林灰前世電腦裡有一些現成的挖掘暗資料的方式。

雖然效率受限於時下的硬體可能會大打折扣。

但相比於現在傳統的挖掘方式也是降維打擊般的存在了。

不過新的問題又來了,從哪挖掘暗資料呢?

[上一章] [目錄] [加入書籤] [下一章]
推薦閱讀
相鄰閱讀