今天(2月11日),微軟發(fā)布史上最大語言模型,名為Turing-NLG。
170億參數(shù)量,是此前最大的語言模型英偉達“威震天”(Megatron)的兩倍,是OpenAI模型GPT-2的10多倍。
“隨著更大的自然語言模型導致更好結(jié)果的趨勢,微軟引入了Turing-NLG,”微軟在研究博客中寫道?!八诟鞣N語言建?;鶞史矫娴谋憩F(xiàn)超過了最先進的水平,并且在許多實際任務的應用上,比如回答問題和摘要生成方面表現(xiàn)都十分優(yōu)異。”
與此同時,微軟研究也發(fā)布了另一篇博客文章,介紹了用于分布式訓練大型模型的DeepSpeed深度學習庫和ZeRO優(yōu)化技術,并表示如果沒有這些突破,Turing-NLG不可能完成。
史上最大語言模型
Turing-NLG,簡稱T-NLG,是一個基于Transformer的生成語言模型,可以生成單詞來完成開放式的文本任務,比如回答問題,提取文檔摘要等等。
微軟認為,想要在任何情況下,都能使機器像人類一樣直接、準確、流暢地做出反應,開發(fā)像T-NLG這樣的生成模型對解決NLP任務非常重要。
以前,回答問題和提取摘要的系統(tǒng),主要依賴于從文檔中提取現(xiàn)有的內(nèi)容。雖然可以作為替代答案或摘要,但常常顯得不自然或不連貫。
“有了T-NLG,我們可以自然地總結(jié)或回答有關個人文件或電子郵件線程的問題,”微軟表示。
這背后的邏輯在于:即使訓練樣本較少,但模型越大,預訓練的數(shù)據(jù)越多樣化和全面,它就越能更好地推廣到多個下游任務。
所以,微軟也認為訓練一個大型的集中式多任務模型,并在眾多任務之間共享它的能力,比為每個任務單獨訓練一個新模型更有效。
T-NLG是怎么訓練出來的?
訓練大型模型的一個常識是:任何超過13億參數(shù)的模型,單靠一個GPU(即使是一個有32GB內(nèi)存的 GPU)也是不可能訓練出來的,因此必須在多個GPU之間并行訓練模型,或者將模型分解成多個部分。
微軟介紹稱,能夠訓練T-NLG,得益于硬件和軟件的突破,一共體現(xiàn)在三個方面:
第一,他們利用NVIDIA DGX-2硬件設置,使用InfiniBand連接,以便GPU之間實現(xiàn)比以前更快的通信。
第二,使用四個英偉達V100 GPU,在英偉達 Megatron-LM框架中應用張量切片分割模型。
第三,使用Deepspeed和ZeRO降低了模型的并行度(從16降低到4) ,將每個節(jié)點的批處理大小增加4倍,并且減少了三倍的訓練時間。
Deepspeed使得使用更少的GPU訓練非常大的模型更有效率,并且它訓練的批量大小為512,使用256個 NVIDIA GPU。如果用Megatron-LM 需要1024個 NVIDIA GPU。此外,Deepspeed還與PyTorch兼容。
最終的T-NLG模型中,有78個Transformer層,隱藏大小為4256,有28個注意頭。
為了使模型的結(jié)果能與Megatron-LM媲美,他們使用了與其相同的超參數(shù)和學習時間表進行預訓練。與此同時,他們也使用與Megatron-LM相同類型的數(shù)據(jù)對模型進行訓練。
效果達到最先進水平,將用于Office套件
模型預訓練完成后,他們也在WikiText-103(越低越好)和LAMBADA(越高越好)數(shù)據(jù)集上,與英偉達Megatron-LM和OpenAI的GPT-2完整版進行了比較,都達到了最新的水平。
不僅僅是數(shù)據(jù)集上,微軟也公布了T-NLG在具體任務中的表現(xiàn)。
首先是回答問題。其不僅能夠使用一個完成的句子回答,還能夠在不需要上下文的情況下回答問題,比如下面的這個問題并沒有給出更多的信息。在這些情況下,T-NLG能基于預訓練中獲得的知識來生成一個答案。
其次是生成摘要。微軟表示,為了使 T-NLG 盡可能多用于總結(jié)不同類型的文本,他們幾乎在所有公開可用的摘要數(shù)據(jù)集上以多任務的方式完善了T-NLG模型,總計約400萬個訓練實例。
他們與另一個最新的基于Transformer的語言模型PEGASUS,以及先前最先進的模型進行了比較,ROUGE評分結(jié)果如下,基本上實現(xiàn)了超越。
實際效果怎樣?
為了秀這個模型的能力,微軟用T-NLG模型,給介紹T-NLG的博客文章寫了一份摘要:
Turing Natural Language Generation (T-NLG) is a 17 billion parameter language model by Microsoft that outperforms the state of the art on many downstream NLP tasks. We present a demo of the model, including its freeform generation, question answering, and summarization capabilities, to academics for feedback and research purposes. <|endoftext|>
正如摘要中所說的,微軟的T-NLG目前并不對外公開。
對于T-NLG的應用潛力,微軟說它為其和客戶提供了新的機會。
除了通過總結(jié)文檔和電子郵件來節(jié)省用戶時間,還可以通過向作者提供寫作幫助和回答讀者可能提出的關于文檔的問題,來增強使用 Microsoft Office 套件的體驗,打造更強的聊天機器人等等。
微軟表示,他們對新的可能性感到興奮,將繼續(xù)提高語言模型的質(zhì)量。
(轉(zhuǎn)載)