第169章 你渴望推開那扇門麼(6)

关灯護眼    字體:

[上一章] [目錄] [下一章]

在尹芙·卡莉陳述完成後。

林灰領略到了她的意思。

不過卻並沒有正面回答尹芙·卡莉的問題。

而是反問尹芙·卡莉:“關於使用向量介入進行語義文字相似度計算你怎麼看?”

【新章節更新遲緩的問題,在能換源的app上終於有了解決之道,這裏下載 huanyuanapp.org 換源App, 同時查看本書在多個站點的最新章節。】

雖然這是林灰在這次交流中提出的第一個問題。

但這個問題讓尹芙·卡莉多少有點措手不及。

尹芙·卡莉不太清楚林灰為什麼提出這個問題。

莫非可以不依靠向量來進行語義文字相似度計算嗎?

可這怎麼能做到呢?

機器識別文字時為了要機器識別自然語言,往往將自然語言數值化。

而將這些數值進行屬性區分則必須進行向量化。

這種方法已經有很長時間歷史了,尹芙·卡莉記得在1977年(這個時空)就有研究人員首次提出向量空間模型VSM了。

一經提出這種研究方法就比較受歡迎。

雖然很快這種方法就被發現了有不小的漏洞。

利用VSM方法的話,當文字量很大時,生成的文字向量是非常稀疏的,這就導致了空間和計算資源的浪費;

另外VSM為達到簡化模型的效果忽略了詞語間的關係,而在很多情況下詞語之間是存在聯絡的,因此簡單地認為詞語間相互獨立是不合理的。

儘管有著明顯的漏洞,但在之後近四十年的歷史中,人們仍然要引入向量進行語義文字相似度分析。

以尹芙·卡莉先前的團隊,雖然他們在先前用的是基於網路知識計算文字相似度的方法。

但本質上也只是將Wiki百科中的網頁內容對映為高維向量,

再透過基於向量空間的方法進行語義文字相似度計算。

可以說依舊沒能離開向量空間的殼子。

雖然四十年後,當年遇到的所謂的“空間和計算資源浪費”某種程度上可以透過硬堆計算力可以暴力解決。

但這僅僅是能解決當年遇到的難題而已。

現在文本處理時面對的信息量復雜程度和當年完全不可同日而語。

此時的向量化面對著全新的困難——維度爆炸!

維度災難(又名維度的詛咒)是一個最早由理查德·貝爾曼在考慮最佳化問題時首次提出來的術語,用來描述當數學空間維度增加時,分析和組織高維空間(通常有成百上千維),因體積指數增加而遇到各種問題場景。

當在數學空間上額外增加一個維度時,其體積會呈指數級的增長。

這樣的難題在低維空間中不會遇到。

比如物理空間很少會遇到這樣的問題,畢竟物理上通常只用三維來建模。

說起來很神奇,儘管物理上很難遇到維度爆炸問題。

但在自然語言處理、機器學習方面維度爆炸是常有的事情。

在這一領域隨便一點信息量都會輕而易舉地突破三維。

其實在很多領域中,如取樣、組合數學、機器學習和資料探勘都有提及到維度爆炸的現象。

這些問題的共同特色是當維數提高時,空間的體積提高太快,因而可用資料變得很稀疏。

在高維空間中,當所有的資料都變得很稀疏,從很多角度看都不相似,因而平常使用的數據組織策略變得極其低效。

事實上尹芙·卡莉她們先前團隊所應用的基於網路知識進行文字相似度衡量時。

如果直接對所有網頁進行分析,往往會導致知識含量稀疏計算困難。

事實上,這種情況就是因為維度爆炸所導致的。

尹芙·卡莉很清楚現在這種利用向量引入到語義文字相似度的方法會帶來維度爆炸。

林灰為什麼突然詢問她如何看到將向量引入到計算語義文字相似度呢?

莫非林灰真的有什麼辦法能夠妥善處理維度爆炸這一問題嗎?

可是在機器學習、自然語言處理方向的維度爆炸並不是那麼容易解決的。

還是說林灰打算乾脆繞過向量去衡量語義文字相似度嗎?

尹芙·卡莉雖然不知道林灰為什麼突然這麼問。

但這種有可能得到林灰提點的機會,尹芙·卡莉怎可能輕易放棄。

尹芙·卡莉先是給林灰陳述了一下當前西方在計算語義文字相似度的時候向量通常客串的角色。

而後尹芙·卡莉才正式開始回答林灰先前問她的問題:

“引入向量後才能使得機器更方便的處理語義文字的資訊。

如果不引入向量的話在處理語義文字相似度的時候我們能選擇的方案很少。

而且不引入向量的情況下,我們在計算語義文字相似度所選擇的方案多多少少都有點LOW。

比如說,基於字串的方法,這種方法都是對原始文字進行比較。

主要包括編輯距離、最長公共子序列、N-Gram相似度等來進行衡量。

就以編輯距離來說吧,其衡量兩個文字之間相似度的根據是依據兩個文字之間由一個轉換成另一個所需的最少編輯操作次數。

這種演算法界定的編輯操作包括增加、刪除、替換三種。

最長公共子系列是根據……

這套衡量標準甚至有點像Microsoft Word格式來衡量一般。

基於字串的方法雖然原理簡單、實現方便。

但這種方法沒有考慮到單詞的含義及單詞和單詞之間的相互關係。

涉及到同義詞、多義詞等問題都無法處理。

目前很少單獨使用基於字串的方法計算文字相似度。

而是將這些方法的計算結果作為表徵文字的特徵融入更加複雜的方法中。

除了這種方法之外,還有……”

林灰對於這些也是瞭解一些的。

他只是想透過尹芙·卡莉之口判定一下這個時空的研究到底是什麼進展的。

基於字串透過編輯操作、最長公共子系列的方式衡量語義文字相似度確實有點低端。

但低端不等於沒用,不能因此就說這種演算法沒價值。

設想一下,如果文字識別領域取得突破的話。

把界定文字相似度的判斷方法和文字識別演算法結合在一起的話。

反而是基於字串判定文字相似度這種方法最為貼切。

畢竟這種基於字串的判別方法和計算機視覺的直觀邏輯形式最為接近的一種。

事實上文字識別演算法在後世同樣是很尋常的技術。

甚至於隨便一個聊天軟體的截圖工具都能很好的勝任文字識別的任務。

而現在這個時空哪怕一些專門打出文字識別為噱頭的軟體。

實際上進行的工作只是掃描文稿轉成PDF而已。

涉及到實際的文字識別效率低的一批。

林灰感覺似乎又無意間發現了一個商機。

雖然是發現了一個商機,也不適合現在去做。

畢竟涉及到文字識別這方面還是跟計算機視覺這個領域有關係的。

所謂的計算機視覺說白了就是讓機器看東西。

這個算是人工智慧的一個領域。

這個領域的研究是為了讓計算機和系統能夠從影象、影片和其他視覺輸入中獲取有意義的資訊。

根據這些資訊機器採取行動或提供建議。

如果說人工智慧賦予計算機思考的能力。

那麼計算機視覺就是賦予發現、觀察和理解的能力。

計算機視覺雖然不能說多麼複雜吧。

但起碼門檻比自然語言處理要高得多。

顯然不適合林灰現在摻和。

不過林灰有耐心,林灰默默地將這件事放在了心裡。

林灰覺得不能目光太短淺。

有些東西雖然現在看起來很雞肋。

未必就代表長遠角度沒有用途。

心念及此,林灰突然覺得很慶幸。

重生之後,前世的經驗讓其遊刃有餘。

另一方面,重生帶給他讓他受益的就是思維上的改變。

涉及到很多事物林灰都會下意識地考慮到長線價值。

甚至不經意間會考慮到十年二十年之後的事情。

有這種長線思維方式。

林灰覺得假以時日他一定能走到一個鮮有人企及的高度。

但這些想法就不足為外人道也。

雖然就基於字串評價文字相似度的方法和尹芙·卡莉有些分歧。

但林灰並沒有表露出來,學術上的交流很多時候也只是求同存異而已。

尹芙·卡莉還在繼續陳述著她的看法:

“……我覺得將向量引入到語義文字相似度的衡量確實是一個不錯的主意。

不過在介入向量之後,就像開啟了潘多拉的魔盒一樣。

向量在處理一些語義複雜的文字資訊時。

極其容易形成一些高維空間,造成維度爆炸。

出現這種情況後,應用場景經常會變得極其糟糕。

經常出現維度爆炸的問題。

事實上,現在維度爆炸問題已經很制約我們的研究了。

Dear林,不知道您關於這個問題有什麼看法呢?”

林灰道:“維度爆炸主要是高維難處理的問題。

既然如此,為什麼不考慮將高維進行降維呢?”

林灰的語氣是那樣的風輕雲澹。

彷彿在敘述一件自然而然的事情一般。

降維?將高維的什麼進行降維??

聽了翻譯同傳過來的資訊。

尹芙·卡莉有種要吐血的感覺。

她有點想學中文了。

她不知道林灰表達的原意就是將高維轉化為低維。

還是說林灰在表述的時候說的是將高維的某物轉化的低維但翻譯在轉達的時候卻省略了什麼東西。

如果是省略了一些重要的名詞那實在是太糟糕了。

到底林灰想表達是將高維資料轉化為低維資料?

還是說將高維模型轉化為低維模型?

抑或是什麼其他含義?

尹芙·卡莉很想詢問一下。

不過考慮到林灰先前為了米娜·卡莉做出的貼心之舉。

尹芙·卡莉並不好就這種事情讓林灰帶來的翻譯陷入到不安之中。

仔細思索林灰話裡的含意。

首先尹芙·卡莉覺得林灰想說的應該不是將高維資料降低成低維資料。

在進行自然語言處理時如果出現了高維資料的話。

在分析高維資料時,確實是可以進行降維的。

也必須要進行降維!

高維數據模型雖然收集到的資料點很多。

但是所收集到的資料通常會散佈在一個極其分散廣袤的高維空間中。

這種情況下很多統計方法都難以應用到高維資料上。

這也是“維度災難”存在的原因之一。

[上一章] [目錄] [加入書籤] [下一章]
推薦閱讀
相鄰閱讀