第129章步步緊逼的追趕者(中)_穿越：2014

哈雷·普來斯接著道：“總之，我覺得那個LH文字摘要準確度衡量模型對於我們來說非常不利。

或許我們可以參照LIN HUI的思路搞一個自己的衡量標準……”

埃克來爾·基爾卡加：“你說的這個問題我倒是也設想過。

可是參照LIN HUI的構建標準的過程進行模型構建並不容易。

按照LIN HUI的思路構建類似的標準的話。

首先我們需要運用語言模型來評估演算法生成語言的流暢度，然後…

如果我們按照同樣的步驟進行模型構建的話。

很可能會直接卡死在語言模型的構建上。

畢竟我們的語料庫實在是太遜了……

我們以前合作的麻省理工學院NLP那邊給出的報告

也證實了按LIN HUI的思路構建語言模型不可行。”

哈雷·普來斯：“麻省理工學院那幫人認為不可行，未必就真的不可行。

他們很有可能是他們在逃避責任而已。

反正我覺得完全可以試著借鑑LIN HUI的思路搞一個新的衡量標準。”

埃克來爾·基爾卡加：“你確定我們能夠按照LIN HUI的思路弄出一個新模型麼？

你怎麼保證我們弄出的模型不會跟他搞得那個一模一樣？”

哈雷·普來斯：“不管怎麼說，我們也需要走這條路。

如果我們連他衡量準確度的模型都不能復現出來。

我們怎麼知道他在這套模型究竟有沒有貓膩？”

哈雷·普來斯接著道：“以前我們的語料庫或許很low。

但現在我們採用的語料庫沒什麼問題。

現在是加州大學伯克利分校的自然語言中心在和我們合作。

我們測試X1驗證演算法時可是由10萬個文字–摘要序列所組成的語料庫作訓練集的……”

埃克來爾·基爾卡加反駁道：“不不不，這遠遠不夠！

想要達到LIN HUI演算法處理文字那種水平，我們起碼需要百萬級別文字-摘要序列組成的語料庫做訓練集。

而這還只是冰山一角。

我們還需要構建一個10^4級別帶人工打分標籤的文字–摘要序列作為驗證集。

以及一個10^3級別的個人工交叉打分一致的文字–摘要序列作為測試集。

否則我們的衡量模型很可能達不到LIN HUI搞得那個模型那種置信度。”

哈雷·普來斯：“你的話確實有道理！

為了縮小邊際誤差最實際的方法就是增加樣本數量。

百萬級別文字-摘要序列組成的語料庫倒是好說。

這個相比於十萬級別的語料庫。

構建難度只是線性增加而已。

但是你確定我們要構建你說的那般龐大的帶人工標記的驗證集和測試集嗎？

僅僅是帶人工打分標籤的文字–摘要序列驗證集保守估計就需要我們花費近一個月的時間去搭建。

【鑑於大環境如此，本站可能隨時關閉，請大家儘快移步至永久運營的換源App，huanyuanapp.org 】

這還得是我們還其他語言學專業通力合作不產生嫌隙的情況下。

而涉及到10^3級別人工交叉打分一致的文字–摘要序列測試集更是難上加難。

以前我們只構建過10^2級別的。

測試集的搭建每上漲一個數量級相應的構建難度可是指數級的往上增長。

先前我們為測試提取式摘要演算法構建的那個150條文本交叉打分一致的測試集就用了將近兩個月的時間。”

而且為什麼我們還要引入人工因素？

這樣的話不是相當於又回到以前開發那種帶有主觀色彩的準確度評判標準的老路上了嗎？”

埃克來爾·基爾卡加：“這也正是我想表達的意思。

本來我也覺得不可能參照LIN HUI的思路搞出新的衡量標準。

即便我們能按著LIN HUI的技術路線走。

也會面臨著過於龐大的工作量。”

聽了埃克來爾·基爾卡加的話。

哈雷·普來斯很絕望：“也就是說僅僅是建立準確度衡量標準時的起步工作就會耗費我們大量的時間？

可是負責決策的那些高層根本不可能坐視我們在這個演算法上浪費太多時間。

他們很可能會去直接謀求LIN HUI的演算法授權。

對於那些商業精英來說，技術什麼的本來就是資本遊戲的添頭。

當他們獲得LIN HUI的新技術後我們估計會很慘……

我們究竟該怎麼辦呢？”

埃克來爾·基爾卡加：“誰知道呢？興許我們該收拾收拾準備去y度了。”

哈雷·普來斯：“能去y度還不錯呢，聽說最近在籌建谷歌非洲研究中心了。

運氣不好的話，估計我們要去非洲了。”

埃克來爾·基爾卡加：。

。

當然了這些話只是調侃而已。

好歹也是頂尖研究機構的科研人員。

埃克來爾·基爾卡加還不是那麼容易就喪失鬥志。

過了一會兒，埃克來爾·基爾卡加道：“倒也不完全是無計可施。

我覺得我們不要按照LIN HUI的技術路線走。

這個LIN HUI太狡猾！

他公開在外面的資訊很可能是留下來誤導我們的。

我們現在要做的是明確憑藉我們自身歸納出的一些結論。”

埃克來爾·基爾卡加接著道：“按照以往我們的研究得到的規律。

神經網絡的前一個輸入和後一個輸入是沒有關係的。

沒辦法處理序列資料這種前後輸入是有關聯資訊的資料。

而LIN HUI在生成式摘要演算法中提到的技術路線裡面明確表示了要將文字資訊透過向量來實現序列化標記之後再進一步處理。

在這種情況下，我覺得LIN HUI所提出的演算法裡面應用的絕對不是一般的神經網絡。

LIN HUI在生成式摘要演算法中應用的大機率是迴圈神經網絡。

畢竟迴圈神經網路的結構非常適合用於處理序列資訊。”

埃克來爾·基爾卡加的話讓哈雷·普來斯眼前一亮，不過旋即新的疑惑也隨之產生。

哈雷·普來斯問道：“迴圈神經網絡不僅要輸入當前序列的資料。

還要輸入上一時刻迴圈神經網絡隱藏層引數的資訊。

這樣才能很好地處理序列之間的關聯資訊。

可是給我的感覺是LIN HUI演算法中應用的那個神經網絡雖然有迴圈神經網絡的影子。

但是似乎又和傳統的迴圈神經網絡有些不一樣啊？”

埃克來爾·基爾卡加滴咕道：“確實如此，一般的迴圈神經網絡適合處理序列結構，但是卻不擅長處理長序列結構……”

沉吟之際，埃克來爾·基爾卡加突然想到了什麼，呼喊道：

“我知道了，一定是LSTM神經網絡！”

哈雷·普來斯被埃克來爾·基爾卡加突然的呼喊嚇了一跳。

不過埃克來爾·基爾卡加提到的LSTM神經網絡卻也讓他眼前一亮。

[上一章] [目錄] [加入書籤] [下一章]