第162章 “華麗的房子”_穿越：2014

林灰記得先前尹芙·卡莉在他發的郵件中就表達了對於“LH文字摘要準確度衡量模型”究竟是如何構建的困惑。

林灰記得尹芙·卡莉當初除了好奇林灰是怎麼搞定語料庫這個問題之外。

其困惑主要集中在林灰究竟採用什麼方法架構相似度模型的。

當知道世界最頂尖學府附屬的研究機構的科研人員居然好奇這事，林灰還是意外的。

林灰躊躇滿志地蓋了一個“華麗的房子”。

原本以為這個時空人們會好奇林灰是怎麼蓋出這個房子的。

沒想到反倒先被問道蓋房子的木頭是從哪開採的？

這就是林灰當初收到尹芙·卡莉郵件時的直觀感受。

不過如果誠如尹芙·卡莉在郵件裡介紹的那般，林灰也能理解尹芙·卡莉為什麼困惑。

涉及到相似度模型的架構一般都是透過計算的方式。

透過計算語義文字相似度以衡量這兩個文字的語義相似度。

一般來說，語義相似度值越小，兩個文字之間的語義差異越大，它們在語義層面的相似度越低；

反之，該值越大，兩個文字表達的語義越相似。

或許在人們看來，區分相似文字是很簡單的一件事情啊？

這不是隨便讀一下就能搞定麼？

但是要知道區分相似文字不是要人來區分，而是要機器區分相似文字。

涉及到相似度模型的構建確實不是容易的事情，畢竟人類語言表達是極其複雜的。

更遑論大部分專業性比較強的文章裡文字中還存在許多同義詞、縮略語、特指詞和多變的句法結構。

這些都極大地增加了計算文字語義相似度的難度。

但這個問題不解決不行，林灰知道計算文字語義相似度是一個很重要的分支領域。

在信息檢索領域，語義文字相似性計算在文字分類、文字聚類和實體消歧等任務中發揮著重要作用；

在人工智慧領域，也需要語義文字相似性演算法來支援問答系統和智慧檢索等任務。

【新章節更新遲緩的問題，在能換源的app上終於有了解決之道，這裏下載 huanyuanapp.org 換源App, 同時查看本書在多個站點的最新章節。】

此外，語義文字相似性計算也被廣泛用於自然語言處理任務中，如抄襲檢測、文字總結和機器翻譯。

總之，對語義文字相似性演算法為代表的相似度模型研究具有重要的應用價值。

如果不解決計算文字語義相似度這個問題的話，跟別提如何更進一步的文本處理了。

拋開讓機器區分相似文字這個問題不談。

僅僅是想要機器識別文字這件事情就極其困難了。

自然語言一般就是說人類能理解的語言，比如看到的文字就是自然語言。

但當我們需要機器或者說計算機處理自然語言時。

機器/計算機卻沒辦法直接理解這些符號（漢字、字母、標點符號等）。

這些符號必須先被數值化，然後才能輸入計算機進行後續處理。

僅僅只是數值化之後也用途不大。

必須引入其他的一些內容來反應出詞的屬性。

就像我們不能從一個普普通通的代號知道這串數字究竟表示的是訂閱、收藏還是打賞。

總之，僅僅是一個代號是看不出來每串數字對應的屬性的。

這個問題也是計算文字語義相似度的一個研究熱門之一。