第234章 凡事預則立不預則廢

关灯護眼    字體:

[上一章] [目錄] [下一章]

當然了賀天昌知道林灰之所以大大方方毫無避諱地承認這件事是因為林灰構築的壁壘已經實現了。

賀天昌一直在關注林灰專利申報的情況。

因此林灰專利壁壘順利組網這件事賀天昌早就注意到了。

賀天昌覺得如果林灰的規劃尚未實現的話以兩人剛剛初識這種程度即便賀天昌將這個問題拋出來。

林灰也未必痛痛快快地承認這件事。

換作是二十年前的話,這種謹慎且算計較多的性格,賀天昌可能會很反感。

【鑑於大環境如此,本站可能隨時關閉,請大家儘快移步至永久運營的換源App,huanyuanapp.org 】

但現在的話,賀天昌反而欣賞這種性格。

_一段時期研究似乎是太渴望進展了。

很多技術不待完成完成技術壁壘的構建就冒冒失失地拿出來。

很多技術明明很有商業價值,可因為準備不足往往被對手鑽空子。

最終導致,明明是金鑲玉,卻只能賣出白菜價。

不免讓人痛心。

跟林灰的交流,賀天昌詢問了一些關於生成式文字摘要演算法的問題。

當然賀天昌好奇的不是具體技術本身。

他好奇的是林灰的科研過程。

像林灰這樣一個未經過學術方面系統學習的人是怎樣一個人搞定全球領先演算法的呢?

賀天昌問了林灰一些常規的問題。

比如說林灰是怎麼搞定語言模型訓練的語料庫的?

事實上這並不是林灰第一次聽到這個問題了。

先前尹芙·卡莉就在信中提問過林灰這個問題。

不過就算林灰以前沒聽人提過這個問題也不用擔心被問住。

涉及到生成式文字摘要演算法專利,最容易讓這個時空外界不解的就是語料庫的問題了。

不提前想好牽扯到訓練語言模型所用到的語料庫問題該怎麼解釋就貿然拿出文字摘要方面的新成果很容易遭受這樣那樣的質疑。

這樣的問題林灰早就注意到了。

凡事預則立,不預則廢。

對於這個問題,林灰準備了至少三個備選的答桉。

林灰將他先前準備好的說辭說給了賀天昌教授。

賀天昌有種茅塞頓開的感覺。

賀不由得感慨果然長江後浪推前浪啊。

不過,在林灰提到的幾種方法中。

賀天昌比較奇怪的還是藉助網際網路自動構建文字語料庫這種方法:

當利用這種方法構建語料庫的時候,使用者只需要提供所需的文字類別體系。

而後從網際網路中採集大量網站,提取並分析網站的內容層次結構和每個主題詞對應的網頁內容資訊。

從每個網站中篩選出使用者所需要的文字作為候選語料。

而後對形成的語料庫進行去噪。

事實上這種方法賀天昌記得以前看過國外大學一些學報似乎記錄過這方面的研究。

可國外那次失敗了,因為採集到的語料庫噪點太大,停用詞過多,根本不堪一用。

林灰為什麼會提出這種方法。

莫非林灰對去噪所用的演算法一定有獨到的理解。

涉及到NLP什麼的其實賀天昌也不是很擅長。

但問題不大,賀天昌國內可是有些老朋友很是精於此道的。

賀天昌默默將這事記下了。

同賀天昌學術上的交流,林灰收穫還是很大的。

首先就是借賀天昌林灰知道了國內在自然語言處理前沿方向的研究情況。

而國內現在在NLP方向的研究是什麼狀態呢?

簡單的概括就是“白紙一張”

當然並不是說國內沒有研究自然語言處理的,只是這些人研究的進度同國際上研究進度大致相彷。

也就是說整體上落後於前世2014的研究進度的。

在這種情況下,林灰想做學術搬運工的話似乎也是如入無人之境。

整個自然語言處理以及神經網絡學習這兩個方向幾乎就是林灰面前的一張白紙。

等著林灰在上面書寫下華麗的篇章。

不過即便如此,涉及到具體執行的時候林灰也不會大包大攬。

只需要林灰適時搞定一些關鍵的進展。

涉及到一些瑣碎方面的進展就沒必要過於貪功了。

畢竟學術方面的成果並不是一蹴而就的。

隨便一個涉及到生成式摘要演算法這樣簡單理論背後的東西也是超級麻煩。

儘管很麻煩但結果值得期許。

在通話臨近結束之時。林灰又幾次三番地感謝了賀天昌教授為了幫他申請一些扶持這事。

賀天昌卻堅稱即便將來有扶持性政策,也都是林灰應得的。

話是這麼說的,賀天昌心裡也是這麼想的。

雖然賀天昌的研究方向涉及不到自然語言處理。

但這並不等於賀天昌對涉及到自然語言處理這個研究方向一無所知。

他山之石可以攻玉,科研中往往是有觸類旁通的說法的。

很多時候適當借鑑一下別的行業的研究思路能給自己的研究方向帶來啟發。

因此縱然主攻方向不是自然語言處理這個方向。

但這絲毫不影響賀天昌對別的研究方向關注。

最起碼對一些計算機以及計算機衍生方向取得的進展賀天昌還是很關心的。

再加上自然語言處理這個方向比較友好,並不是需要很高的門檻。

因此對自然語言處理這方面賀天昌也是涉獵一些的。

至於林灰鼓搗的東西。

因為最近對生成式摘要這個演算法相關知識的惡補以及機緣巧合之下參加了一些和生成式摘要演算法有關的學術會議。

現在的賀天昌對生成式摘要演算法還是很瞭解的。

涉及到摘要的重要性自然不言而喻。

這並不是賀天昌在牽強附會。

摘要的能力相當直觀地這反應了人們對資訊的處理能力。

在信息時代,誰對資訊的處理能力越強誰就越能具有資訊方面的優勢。

而資訊差方面能夠確立了優勢無形中其餘領域也具備了優勢。

涉及到摘要這個方向,傳統的摘要演算法都是抽取式摘要演算法。

這種演算法很大程度上工作起來的樣式很像是粗暴地“截搭”。

而生成式則是計算機“通讀”原文後,在理解整篇文章意思的基礎上,按照預先給定的摘要模型生成流暢的概括。

這種方式要求機器理解後概況。

看得出來,相比於抽取式摘要演算法生成式摘要演算法更像是人的思維。

[上一章] [目錄] [加入書籤] [下一章]
推薦閱讀
相鄰閱讀