微軟發(fā)布史上最大AI模型：170億參數(shù)橫掃各種語言建?；鶞?，將用于Office套件

ainet.cn 2020年02月11日

　　今天(2月11日)，微軟發(fā)布史上最大語言模型，名為Turing-NLG。

　　170億參數(shù)量，是此前最大的語言模型英偉達“威震天”(Megatron)的兩倍，是OpenAI模型GPT-2的10多倍。

　　“隨著更大的自然語言模型導致更好結(jié)果的趨勢，微軟引入了Turing-NLG，”微軟在研究博客中寫道?！八诟鞣N語言建?；鶞史矫娴谋憩F(xiàn)超過了最先進的水平，并且在許多實際任務的應用上，比如回答問題和摘要生成方面表現(xiàn)都十分優(yōu)異。”

　　與此同時，微軟研究也發(fā)布了另一篇博客文章，介紹了用于分布式訓練大型模型的DeepSpeed深度學習庫和ZeRO優(yōu)化技術，并表示如果沒有這些突破，Turing-NLG不可能完成。

史上最大語言模型

　　Turing-NLG，簡稱T-NLG，是一個基于Transformer的生成語言模型，可以生成單詞來完成開放式的文本任務，比如回答問題，提取文檔摘要等等。

　　微軟認為，想要在任何情況下，都能使機器像人類一樣直接、準確、流暢地做出反應，開發(fā)像T-NLG這樣的生成模型對解決NLP任務非常重要。

　　以前，回答問題和提取摘要的系統(tǒng)，主要依賴于從文檔中提取現(xiàn)有的內(nèi)容。雖然可以作為替代答案或摘要，但常常顯得不自然或不連貫。

　　“有了T-NLG，我們可以自然地總結(jié)或回答有關個人文件或電子郵件線程的問題，”微軟表示。

　　這背后的邏輯在于：即使訓練樣本較少，但模型越大，預訓練的數(shù)據(jù)越多樣化和全面，它就越能更好地推廣到多個下游任務。

　　所以，微軟也認為訓練一個大型的集中式多任務模型，并在眾多任務之間共享它的能力，比為每個任務單獨訓練一個新模型更有效。

T-NLG是怎么訓練出來的?

　　訓練大型模型的一個常識是：任何超過13億參數(shù)的模型，單靠一個GPU(即使是一個有32GB內(nèi)存的 GPU)也是不可能訓練出來的，因此必須在多個GPU之間并行訓練模型，或者將模型分解成多個部分。

　　微軟介紹稱，能夠訓練T-NLG，得益于硬件和軟件的突破，一共體現(xiàn)在三個方面：

　　第一，他們利用NVIDIA DGX-2硬件設置，使用InfiniBand連接，以便GPU之間實現(xiàn)比以前更快的通信。

　　第二，使用四個英偉達V100 GPU，在英偉達 Megatron-LM框架中應用張量切片分割模型。

　　第三，使用Deepspeed和ZeRO降低了模型的并行度(從16降低到4) ，將每個節(jié)點的批處理大小增加4倍，并且減少了三倍的訓練時間。

　　Deepspeed使得使用更少的GPU訓練非常大的模型更有效率，并且它訓練的批量大小為512，使用256個 NVIDIA GPU。如果用Megatron-LM 需要1024個 NVIDIA GPU。此外，Deepspeed還與PyTorch兼容。

　　最終的T-NLG模型中，有78個Transformer層，隱藏大小為4256，有28個注意頭。

　　為了使模型的結(jié)果能與Megatron-LM媲美，他們使用了與其相同的超參數(shù)和學習時間表進行預訓練。與此同時，他們也使用與Megatron-LM相同類型的數(shù)據(jù)對模型進行訓練。

效果達到最先進水平，將用于Office套件

　　模型預訓練完成后，他們也在WikiText-103(越低越好)和LAMBADA(越高越好)數(shù)據(jù)集上，與英偉達Megatron-LM和OpenAI的GPT-2完整版進行了比較，都達到了最新的水平。

　　不僅僅是數(shù)據(jù)集上，微軟也公布了T-NLG在具體任務中的表現(xiàn)。

　　首先是回答問題。其不僅能夠使用一個完成的句子回答，還能夠在不需要上下文的情況下回答問題，比如下面的這個問題并沒有給出更多的信息。在這些情況下，T-NLG能基于預訓練中獲得的知識來生成一個答案。

　　其次是生成摘要。微軟表示，為了使 T-NLG 盡可能多用于總結(jié)不同類型的文本，他們幾乎在所有公開可用的摘要數(shù)據(jù)集上以多任務的方式完善了T-NLG模型，總計約400萬個訓練實例。

　　他們與另一個最新的基于Transformer的語言模型PEGASUS，以及先前最先進的模型進行了比較，ROUGE評分結(jié)果如下，基本上實現(xiàn)了超越。

實際效果怎樣?

　　為了秀這個模型的能力，微軟用T-NLG模型，給介紹T-NLG的博客文章寫了一份摘要：

　　Turing Natural Language Generation (T-NLG) is a 17 billion parameter language model by Microsoft that outperforms the state of the art on many downstream NLP tasks. We present a demo of the model, including its freeform generation, question answering, and summarization capabilities, to academics for feedback and research purposes. <|endoftext|>

　　正如摘要中所說的，微軟的T-NLG目前并不對外公開。

　　對于T-NLG的應用潛力，微軟說它為其和客戶提供了新的機會。

　　除了通過總結(jié)文檔和電子郵件來節(jié)省用戶時間，還可以通過向作者提供寫作幫助和回答讀者可能提出的關于文檔的問題，來增強使用 Microsoft Office 套件的體驗，打造更強的聊天機器人等等。

　　微軟表示，他們對新的可能性感到興奮，將繼續(xù)提高語言模型的質(zhì)量。

（轉(zhuǎn)載）

標簽：微軟 AI模型

我要反饋

相關鏈接

2019，霍尼韋爾創(chuàng)造未來的十大發(fā)明

春節(jié)離我們越來越近，是時候盤點一下豬年的成績單了。有人喜歡曬賬單，我們就不一樣了。我們曬發(fā)明!2019，來看看霍尼韋爾創(chuàng)造未來的十大發(fā)明吧!1、空中的士簡介：對于城市空中交通(Ur... [詳情]

2020年02月11日霍尼韋爾

印度重金部署量子計算投資高達11.2億美元

北京時間2月3日下午消息，據(jù)外媒報道，印度政府近日表示，計劃在未來五年內(nèi)投資800億盧比(約11.2億美元)用于量子計算研究。印度財政部長尼爾瑪拉·西塔拉曼(NirmalaSitharaman)表示，... [詳情]

2020年02月11日量子計算

發(fā)力云計算!甲骨文宣布在5個國家增設云計算區(qū)域

2月4日消息，據(jù)國外媒體報道，在全球云計算市場，亞馬遜與微軟走在行業(yè)前列，他們也占據(jù)了較大的市場份額，但在云計算需求日益增加的背景下，其他云計算服務提供商也在大力發(fā)展，甲骨... [詳情]

2020年02月11日云計算甲骨文

資訊熱點

施耐德電氣推出全新數(shù)據(jù)中心解決方案，破局高密智算挑戰(zhàn) 算網(wǎng)協(xié)同創(chuàng)新升級：新華三出席中國智算中心全棧技術大會決戰(zhàn)“AI醫(yī)療”，億萬克+三甲醫(yī)院干出大動作智象未來兩篇論文入選 CVPR 2025！視頻生成與虛擬換裝齊破局，開源賦能產(chǎn)業(yè)革新摩爾斯微電子與成都惠利特攜手合作，利用 Wi-Fi HaLow革新物聯(lián)網(wǎng)的連接寧德時代攜手成都公交集團，打造車輛后市場新生態(tài) 英特爾攜手合作伙伴打造高效智算底座，加速企業(yè)AI應用落地新華三工業(yè)互聯(lián)網(wǎng)平臺通過中國信通院兩化所權威評測海康機器人再獲VSDC創(chuàng)新獎金獎，五年蟬聯(lián)殊榮

專題報道

聚力同行 · 新智“碳”索

“新華社-智能·零碳”項目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題，主要圍繞光伏、儲能、鋰電、氫能、風能五大新... [更多]

2025中國國際機床展覽會

4月21至26日，以“融合創(chuàng)新，數(shù)智未來”為主題的第十九屆中國國際機床展覽會在首都國際會展中心盛大舉辦。憑借場館的卓越服... [更多]

2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內(nèi)外企業(yè)推進“雙碳”實踐的最新成果，鼓勵更多企業(yè)、科研機構、投資機構等廣泛... [更多]

視頻

/resupload/guangzhi/AS00012420/1735897073649_1.jpg

臺達亮相SNEC 2025：以數(shù)智化助力光伏行業(yè)提效·融智·減碳長江之畔 | 海柔解碼聯(lián)想武漢工廠“0.6秒”超級速度探秘大工科技——空中的鐵風箏清航裝備公司宣傳片乘“新質(zhì)時代”之風，做勇立潮頭的飛行者遠度科技ZT-120V-西藏地震救援遠度科技ZT-120V-四川雅江山火救援

微軟發(fā)布史上最大AI模型：170億參數(shù)橫掃各種語言建?；鶞?，將用于Office套件

微軟發(fā)布史上最大AI模型：170億參數(shù)橫掃各種語言建?；鶞?，將用于Office套件