第100章 谷歌產生濃厚興趣

关灯護眼    字體:

[上一章] [目錄] [下一章]

(ps:……合章,求波訂閱)

……

因為時差的原因,中國雖然已經夜晚了,海外卻還處於白天。

也就是說林灰雖然休息了,海外仍然有很多人處於忙碌的工作狀態。

在麻省理工學院自然語言處理研究中心的某辦公室裡,尹芙·卡莉還在奮戰中。

事實上自從LIN HUI鼓搗的生成式文字摘要演算法問世之後。

尹芙·卡莉不知道已經有多久沒閤眼了。

之所以睡不著不是因為嫉妒,而是因為興奮。

用興奮形容似乎不夠準確,確切的說是一種異乎尋常的亢奮。

當然了亢奮也不是全部,亢奮之外還帶著一些畏懼。

而畏懼深處卻又是期待。

雖然心情很是扇形圖,但尹芙·卡莉確定她的每一種心情都不是無緣無故的。

作為科研工作者,能夠接觸到一種前所未有的解決問題的方式自然是興奮的。

而越是深入瞭解生成式摘要演算法,這種興奮之感就越來越強。

隨著深入瞭解,尹芙也越是感覺提出演算法的人的實力強勁。

實力上的差距讓尹芙·卡莉有點招架不住,不自覺的生出些許畏懼。

尹芙·卡莉似乎理解了一句話:

——越接近對方的水平,就越瞭解對方的強大,就會越來越畏懼。

至於期待就更容易理解了,人類對未知的事物本就是好奇的。

儘管每種感覺都很合理,不過幾種心情混雜在一起總是怪怪的。

尤其是對於尹芙·卡莉這麼一個基本上從來沒啥情緒波動的人來說。

這種感覺更是前所未有的陌生。

呃,雖然不知道該怎麼形容那種奇怪的情愫。

但內心深處尹芙·卡莉是佩服LINHUI這位來自大洋彼岸的天才的。

什麼叫天才呢?雖然尹芙·卡莉25歲就獲得了世界頂級計算機研究機構之一麻省理工學院的計算機學院的博士學位。

但尹芙·卡莉從來不敢自詡為天才,雖然她一路順風順水,但付出的艱辛只有她自己知道。

在她看來天才的重點不在於“才能”,而在於“天分”

什麼“天才是靠99%的汗水和1%的靈感”這樣的話語完全就是騙人的鬼話。

在尹芙·卡莉眼中,歷盡千辛萬苦努力取得成功的人或許可以算作人才。

但這絕對不是天才。天才哪裡用得到幾近於費力的努力?

或許天才也需要一點點努力,但絕對不需要這種緣木求魚一般的努力。

就好像所有人似乎都知道的走出房間要找到門卻各種束手無策。

而天才就是那個在眾人茫然眼光之下信步走到門前並輕輕推開門的那個人。

“歷盡千辛”“苦盡甘來”這些詞彙只能描述一般人。

“閒庭信步”、“舉重若輕”這才是屬於天才應該有的描述。

而LIN HUI就是絕對意義上的天才。

在所有人面對著抽取式摘要演算法的瓶頸而找不到走出文字摘要這個房間的方法之時。

LINHUI恰到好處地出現了,在所有人的茫然下信步般推開了一扇被稱為是“生成式文字摘要”的嶄新的門。

在尹芙·卡莉心中,LINHUI就是被崇拜的偶像。

……

崇拜歸崇拜,技術沒有國界,技術人員卻有國界。

尹芙·卡莉所在的小組接到的任務是儘快跟進LINHUI提出來的技術。

接到的任務倒不是更上級的科研管理機構發出的。

而是由谷/歌提出的。

谷/歌和尹芙所在的自然語言處理專案是深度戰略合作伙伴。

每年谷/歌贊助該團隊過千萬美元。

說白了,谷/歌是尹芙·卡莉所在研究團隊的金主爸爸。

谷/歌的任務很簡單(至少谷/歌方面布置任務的人以為是這樣):

——評估LIN HUI提出的演算法實現的可行性,並根據實際情況考慮能否短時間實現復現。

至於谷/歌為什麼會對林灰提出的演算法感興趣?

這跟谷/歌的歷史有很大的關係。

谷/歌之所以能有今天很大程度是因為PageRank演算法。

在網際網路早期,隨著網路上的網頁逐漸增多,如何從海量網頁中檢索出我們想要的頁面,變得非常的重要。

當時著名的雅/虎和其它網際網路公司都試圖解決這個問題,但都沒能有一個很好的解決方案。

直到1998年前後,兩位斯坦福大學的博士生,拉里·佩奇和謝爾蓋·布林一起發明了著名的PageRank演算法,才完美的解決了網頁排名的問題。

正是因為這個演算法,誕生了谷/歌公司。

PageRank 是一種透過網頁之間的超鏈接來計算網頁重要性的技術。

以谷/歌創辦人Larry Page之姓來命名,谷/歌用它命名也體現了該演算法的重視程度。

該演算法可以透過計算計算出數值體現網頁的相關性和重要性。

PageRank 透過網路浩瀚的超鏈接關係來確定一個頁面的等級,把從A頁面到B頁面的連結解釋為A頁面給B頁面投票,谷/歌根據 A頁面甚至連結到A的頁面的等級和投票目標的等級來決定 B 的等級。

簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。

該演算法把整個網際網路可以看作是一張有向圖,網頁是圖中的節點,網頁之間的連結就是圖中的邊。

藉助該演算法可以衡量不同網頁的根搜尋關鍵詞的關聯程度從而對網頁排序。

在很長一段時間內,當你在谷/歌鍵入關鍵詞後得到的搜尋資訊。

搜尋資訊裡那一系列網頁對應著的網頁排列順序就是依託PageRank演算法進行排序的。

這個演算法的重要性可見一斑。

Page Rank演算法不止用於搜索引擎領域。

還跨界進入了自然語言處理(NLP)領域。

在NLP方面大名鼎鼎的TextRank演算法就是在PageRank演算法之上而來的。

而TextRank演算法一向是抽取式摘要演算法的核心演算法。

雖然目前TextRank演算法主要用於自然語言處理方面。

但並不代表這個演算法不能應用於搜尋方面。

畢竟TextRank演算法和用於搜尋的PageRank演算法本是同根生。

而林灰搞得生成式文字摘要演算法(GTSA)雖然表面上看是文本處理演算法。

但事實上也有作用於未來搜尋領域的潛質。

相比於PageRank演算法對網頁超鏈接抓取排序。

有了GTSA演算法,谷歌可以更進一步直接對PageRank演算法下排名靠前的網頁內容進行抓取獲取相應的資訊。

按照資訊和搜尋關鍵詞的關鍵度再進行二次精確排序。

這無疑可以大大提高谷/歌搜尋的準確度。

儘管以現在的技術將生成式文字摘要演算法巢狀在PageRank演算法之下還很難保證搜尋高效率。

但誰能保證未來的伺服器以及計算力水平不會突飛勐進呢?

萬一之後技術能夠暴漲呢?

而且就算短時間內谷歌無法將該技術用於搜尋領域。

生成式文字摘要演算法表現出的強大的文書處理能力也是很值得谷歌重視的技術。

反正從谷歌下達的任務的措辭來看。

對於生成式文字摘要演算法,谷歌不僅重視。

而且急切渴望獲得該技術。

……

然而作為具體的執行人員,對於谷歌提出的任務:

——評估LIN HUI提出的演算法實現的可行性,並根據實際情況考慮能否短時間實現復現

尹芙·卡莉就很無語。

或許在那些屁股決定腦袋的人心中。

清楚技術路線了,技術復現能夠實現與否只是時間長短的問題了。

但事實哪有那麼簡單。

反正進行了一晚上嘗試的尹芙·卡莉發現想要進行復現很難。

拋開LINHUI提出的演算法技術本身不談。

就是LIN HUI在生成式摘要演算法專利中順手牽羊搞定的那個“LH文字摘要準確度衡量模型”

其他團隊想要從無到有的構建一個同樣的模型都有億點困難。

說起來LH文字摘要準確度衡量模型的構建過程思路倒是很清晰:

第一,運用語言模型來評估演算法生成語言的流暢度;

第二,使用相似度模型評估文字和摘要之間的語義相關性;

第三,為了有效評估實體、專有詞的復現程度,引入原文信息量模型來評估。

然鵝也僅僅是說起來很簡單而已。

說到把大象放進冰箱也很簡單同樣是三步:

——開啟冰箱門,放進大象,關上冰箱門。

知道怎麼做沒用,關鍵還是要執行。

沒辦法執行的話,步驟再清晰也沒用。

LH文字摘要準確度衡量模型的構建過程有三步。

第一步就很複雜。

該怎麼進行語言模型的構建呢?

按照LIN HUI提出的技術路線。

語言模型建模過程中,包括詞典、語料、模型選擇等。

問題出在語料庫上,語料庫一詞在語言學上意指大量的文字。

這類文字通常經過整理,具有既定格式與標記。

涉及到英文語料庫的資訊還比較容易,畢竟尹芙所在的團隊和牛津、哈佛、耶魯三所大學的語言學方面都是深度合作的關係。

但涉及到中文以及其他文字預料資訊該怎麼處理這就完全不好說了。

巧婦難為無米之炊。

沒有語料庫清楚技術路線什麼的也沒用。

倒是可以姑且先拋棄對中文以及其他新聞生成式摘要的研究。

但是這樣幾乎等同於放棄了一個龐大的市場。

而且最關鍵的是LIN HUI提出的演算法本身就能兼顧中文新聞摘要以及英文新聞摘要。

那麼之後LIN HUI會不會直接開發個中文新聞處理成英文摘要的功能呢?

能搞定文字摘要處理演算法的人沒道理一個翻譯演算法都搞不定吧??

尹芙·卡莉越想越覺得這種可能性很大。

不然為什麼一個摘要軟體要做成類似於翻譯軟體那樣的互動風格呢?

在她們還在躊躇不前的時候。

對手卻早已經大步向前挺進了。

一時之間尹芙不禁有種酣戰過後的無力感。

這就是所謂的一步落後步步落後吧。

這種情況還評估啥?

直接建議谷歌方面把LIN HUI的演算法買回來就好了!

雖然LIN HUI是華國人.

但這種技術又不是什麼涉及到國家命脈的重要技術。

總不至於不賣吧!

不賣的話謀求專利授權也可以啊!

總不至於非跟在別人身後造輪子吧。

尹芙又沒受/虐/欲。

……

事實上,不止海外在關注林灰折騰出的演算法。

國內也注意到林灰搞出的動靜。

只不過國內目前的目光主要集中在南風APP的軟體層面而不是演算法層面。

國央大學副校長兼計算機學院的副/院/長賀天昌自南風APP上架之初就對該軟件保持著高度的關注。

雖然夜已經深了,他仍然在透過第三方數據網關注著南風APP軟體的下載情況。

賀天昌在外界並不怎麼出名,但此人在軟體行業卻是大名鼎鼎。

其在業界頗有名聲。倒不是因為其在軟件開發上鼓搗出什麼名堂來。

而是因為其資歷老啊!各行各業都看資歷,軟體行業也不能免俗。

不過賀天昌的資歷也經得起看,他和王J民基本是同一時期鼓搗軟體(96年)的人了。

就這份資歷全國網際網路/軟體行業能和其比肩的大老也沒幾位。

有這種資歷就算在軟體行業沒啥作為也無所謂。

真想拉投資的話以其資歷在網際網路圈子隨隨便便拉個幾千萬的投資也不過是打幾個電話的事情。

就這麼一個原本搞軟體的人怎麼跑到大學來了?

故事要從九幾年開始說起,在感受到網際網路浪潮之後。

剛從米國加州理工計算機博士畢業的賀天昌放棄了美國優握的工作。

回國參與創業,在王江民鼓搗出殺毒軟件的時候,賀天昌也搞了幾個軟體。

不過和前者鼓搗的J民殺毒軟件不同。

賀天昌鼓搗的軟體,一般都是小眾但專業性很強的付費軟體。

雖然這個軟體以現在的眼光來看做的還算可圈可點。

但這樣的軟體在96年的中國註定是生不逢時。

不光96年這樣的軟體生不逢時,在這之後十多年時間也都是免費軟件大行其道,付費應用一直是沒啥市場。

(ps:……付費盜版除外,js早期起家史)

事實也驗證了這點,混跡軟體行業六七年,賀天昌除了收穫了一些早期網際網路紅利之外別無所成。

更多的時候反而是在親歷別人的成功之外。

雖然他賺的錢和同一時期的人相比相形見絀,但其收入依舊足以羨煞普通人了。

但人的追求不同,賀天昌更想要的是自我實現。

然而一個人的命運光奮鬥是不行的,不符合時代訴求再折騰也沒用。

折騰了幾款專業性極強的小眾軟體沒收到回報之後,心灰意冷的賀天昌乾脆也不瞎折騰了,剛好有朋友引薦他進入國央大學。

賀天昌綜合思量之後,覺得國央大學還行。

直接經朋友引薦進入了國央大學任教職。

樹挪死人挪活,這之後賀天昌反而是混得順風順水,一路輾轉爬到很多人難以企及的高度。

雖然身居常人難以企及的高度。

但賀天昌因為早年的經歷,其目光也時刻關注著國內專業軟體的市場。

然而一直一來,賀天昌很失望,打著專業名頭的軟體不少。

真正專業的軟體卻一款都沒有。

一個國家的軟件業最先進的工業軟體鼓搗不出來就算了,專業軟體也弄不出來?

【目前用下來,聽書聲音最全最好用的App,集成4大語音合成引擎,超100種音色,更是支持離線朗讀的換源神器,huanyuanapp.org 換源App】

賀天昌對此一直耿耿於懷。

而南風APP的問世卻打破了他的心結。

綜合了很多方面的因素衡量,這個軟體確實具有專業軟體該有的素質。

而這個軟體的專業模式更是符合專業軟體該有的全部特徵。

看到國產軟件市場有這樣的軟體問世,賀天昌可以說是大為欣慰。

不過他旋即又擔心了起來,即便有優秀的專業軟體沒有市場不是一樣難免夭折的命運嗎?

看著南風APP的第三方資料,雖然下載量不錯。

但是專業模式的付費人數才兩位數。

這怎麼能行,做垃圾遊戲的賺的盆滿缽滿,認認真真做專業軟體的人卻得不到回報?

這算什麼道理???

不行!

!不能讓這樣優秀的軟體開發者重蹈他昔年的悲劇。

賀天昌決定做點什麼,默默拿起手機撥通了一個老友的電話。

[上一章] [目錄] [加入書籤] [下一章]
推薦閱讀
相鄰閱讀