四兩撥千斤! 創新工場首席科學家AI大牛周明博士率瀾舟團隊刷新CLUE新紀錄,輕量化模型孟子一鳴驚人!
本週,中文語言理解權威評測基準CLUE榜單,被「低調」刷新。
不同的是,不是大公司、不是超大模型……
一個新面孔,一個輕量化模型,首戰即登頂,四兩撥千斤。
CLUE榜單近年來由巨頭——騰訊、搜狗、華為、阿里達摩院輪番霸榜的格局,被首次打破。
瀾舟科技-創新工場推出的孟子模型,以十億參數完成了此前百億、千億參數模型刷新的紀錄。
這也是瀾舟科技首次對外曝光,背後團隊負責人,正是創新工場首席科學家、全球AI大牛周明博士。以下文章解釋了這個模型的原理,文章來自《量子位》微信公眾號,經授權轉載。
▎輕量化模型孟子?
孟子,基於瀾舟團隊自研技術研發的大規模預訓練語言模型。
包括創新工場、上海交通大學、北京理工大學等單位參與聯合研發。
可處理多語言、多模態數據,同時支持多種文本理解和文本生成任務,能快速滿足不同領域、不同應用場景的需求。
孟子模型基於Transformer架構,僅包含十億參數量,基於數百G級別涵蓋互聯網網頁、社區、新聞、電子商務、金融等領域的高質量語料訓練。
但誰也沒想到,小模型卻有大智慧,一經登場,打破格局。
CLUE,中文語言理解領域最具權威性的測評基準,涵蓋文本相似度、分類、自然語言推理、閱讀理解等共10項語義分析和理解類子任務。
該榜單競爭激烈,幾乎是業內所有自然語言理解玩家必爭之地。
騰訊、搜狗、華為、阿里達摩院等更是輪番霸榜刷新紀錄。
而且隨著大參數模型愈演愈烈,CLUE還漸有巨頭壟斷之勢。
因為百億、千億甚至萬億參數的大模型,已然不再是創業或其他玩家可與之爭鋒。
萬萬沒想到,瀾舟科技-創新工場團隊出手,四兩撥千斤。
因為孟子,走的是基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。
孟子預訓練模型性能比肩甚至超越千億大模型,在包含文本分類、閱讀理解等各類任務上表現出色。
相對已有的中文語言模型,孟子模型實現了多項突破性進展:
1) 堅持「小而精」的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的性能。作為精巧的小模型,對標「巨無霸」,小模型性能超越千億規模模型。
2)使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威CLUE中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,刷新三項榜單世界紀錄。總排行榜分數突破84分,逼近人類基準分數(85.61)。
3)靈活的領域和場景適應能力,方便快速定制和應用。基於T5-style的端到端生成的訓練範式,同步適配BERT-style的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。
當然,隨著孟子一鳴驚人,也必然能讓輕量化模型研究來到聚光燈下。
▎原理方法和應用?
在輕量化模型算法研究方面,基於自研的基於語言學知識、知識圖譜和領域數據增強等技術,從模型架構(包括基礎層Embedding表示和交互層Attention機制)到預訓練策略進行了全方位改進。
具體有四方面:
1) 模型結構方面,將語義角色、詞性標註等語言學特徵融合到Embedding表示中,基於句法約束引入註意力機制中,從而提升模型對語言學知識的建模能力。
2) 訓練策略上,引入基於實體知識和Discourse的Mask機制,強化模型對語言成分和語篇關係的表徵。
3) 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。
4) 為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域數據繼續訓練並構造相應的提示模版(Prompt),取得了明顯的性能提升。
基於以上算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義信息能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。
另外,在Finetune的進展方面,如何將預訓練模型用於各項任務?
瀾舟團隊也有總結,從數據增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的性能:
1) 數據增強:使用領域相關數據;
2) 知識蒸餾:基於Teacher-Student自蒸餾提升訓練效率;
3) 遷移訓練:結合課程學習的思想,由易到難訓練下游模型;
4) 訓練優化:使用多種訓練目標,多角度提升模型能力;
而且孟子還已經展開了垂直化領域應用。
基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:
1) 通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。
2) 通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。
瀾舟方面還透露,孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文本生成、行業搜索、機器翻譯等諸多領域。
並且毫無疑問的是,因為輕量級模型具有的模型參數較少、快速推斷的特點,更易於線上部署和推廣到移動設備中,自然不會局限於現有應用和場景,接下來還會有更廣泛的研究和應用場景中。
▎瀾舟團隊?
最後,也簡單介紹本次一鳴驚人的新面孔瀾舟科技。
瀾舟科技是創新工場孵化的一家認知智能公司。公司創始人——周明博士。
AI領域內,周明已不用過多介紹,他是公認的世界級AI科學家,自然語言處理領域的代表性人物。
周明博士在2020年加盟創新工場,擔任創新工場首席科學家。
而瀾舟科技則針對商業場景的數字化轉型,基於大數據、知識圖譜和行業模型,提供新一代的信息檢索、知識推理和商業洞見技術和相關產品。
據稱目前已與國內外幾十所著名高校和十餘個相關領域的頭部企業建立了穩定的合作關係。
值得注意的是,瀾舟科技除了大牛坐鎮,其實也是行業趨勢的體現。
引用創新工場董事長兼CEO李開復最新分享來說:
AI的發展可以按照兩個時間點劃分。
第一個時間點是2015年,以CNN為核心的計算機視覺技術讓機器超越了人類,帶來了人臉識別、智能質檢、無人零售、智慧城市、無人駕駛等商機。
而第二個時間點出現在2019年,以大模型為代表的自然語言方向取得突破性進展,讓NLP從數據、信息走向知識和洞見成為可能,將會在翻譯、語音識別、法律、金融、新聞、廣告、醫療、娛樂等大賽道帶來機遇。
「如果說CNN造就了今天計算機視覺領域的突破和眾多應用,預訓練大模型+微調也將帶來自然語言的百花齊放的發展,用數據智能驅動各類業務的升級。瀾舟科技在周明老師的帶領下取得了今天的成果,在新機遇面前躬身入局,一起發掘NLP領域的黃金發展期」,李開復說到。
架構性創新例子 在 台灣物聯網實驗室 IOT Labs Facebook 的最讚貼文
全球首例數位分身5G VR協作 Hyperbat加速汽車製造流程
莊清瑋 2021-04-20
英國車用電池製造商Hyperbat將與英國電信(BT)、愛立信(Ericsson)和NVIDIA合作,利用5G和虛擬實境(VR)技術,加快電動車製造團隊的遠距協作。
據PES Media和5Gradar等外媒報導,Hyperbat將數位分身(Digital Twins)用於混合動力車和電動車生產製造,並以5G技術加速流程,過程可以透過VR頭戴式裝置來操作和檢視。藉此,遠距團隊便可使用虛擬3D工程模型來進行連線、協作和互動。
數位分身帶來的無線(Untethered)5G體驗,能夠讓設計和工程團隊在不受實體設備限制的情況下,親身和1:1大小的3D模型即時互動,甚至在模型周遭隨意走動,方便身處不同廠的員工檢視設計,有效管理工作流程。
報導指出,這會是工業4.0的5G應用當中,首度使用數位分身虛擬3D工程模型,進而將遠距協作團隊融入VR工作環境的例子,可望縮短科芬特里和牛津兩地之間設計、工程和製造等跨部門的生產週期,完善整體製造流程。
Hyperbat創新主管Hosein Torabmostaedi表示,這項解決方案為智慧工廠架構,以及協作製造奠定基礎。
Hyperbat還希望擴展到機器的5G連網功能,實現因時制宜的高彈性生產線。該公司將在其位於英國汽車之都科芬特里的工廠,演示和試用這次合作的解決方案。
BT Enterprise Unit部門5G創新資深主管Jeremy Spencer表示,此舉有力地提醒了5G連網和邊緣運算已經進展到這一步,並為客戶帶來了真正的業務收益。
Spencer指出,5G連網結合最新技術所能提升的效率可說是超乎想像,對於推動英國製造業發展而言至關重要,尤其是方從疫情中復甦。
NVIDIA的VR/AR總監David Weinstein表示,該解決方案配備NVIDIA RTX技術、CloudXR,以及NVIDIA RTX Virtual Workstation等軟體,不論是工廠現場還是遠距團隊,都能擁有即時沉浸式體驗。
解決方案使用的VR頭戴式裝置由高通(Qualcomm)Snapdragon XR2驅動,整合分拆渲染(Split Rendering)功能,所有以感知為據所產生的資料都會儲存在裝置本機。
執行平台則是Masters of Pie Radical,有助Hyperbat在電腦輔助設計(CAD)軟體中透過雲端獲得無縫、擬真的VR體感。
BT和愛立信透過支援5G VR裝置,將解決方案部署在5G行動專用網路。5G低延遲、高頻寬等特性有助Hyperbat交付大規模的工程計畫。
Hyperbat解決方案預計將在2020年夏季取得合作成果。
附圖:Hyperbat和眾多業者合力打造全球首創數位分身5G遠距協作。法新社
資料來源:https://www.digitimes.com.tw/iot/article.asp?cat=158&cat1=20&cat2=14&id=0000608465_CV33BPBB7AAEUI4703SQO
架構性創新例子 在 大人學 Facebook 的精選貼文
身為教育產業的經營者,時時關注市場的動態是不可少的日常。
先不談疫情對這個市場的影響,不知大家有沒有發現,「簡報課程」(主要是公開班)的熱度似乎降溫了,不像2016或2017到處都是簡報課的招生資訊。
不少簡報講師的收入來源,也逐漸從「公開課程」轉回「企業內訓」。當然,也有部分講師改走其他議題或是回去上班了!
事實上,簡報培訓一直都有需求,只不過這個需求產生了一些變化(講的高大上一點叫做「典範轉移」),而這種變化其實在很多領域都發生過!
就拿「公開演說」這個議題為例。大家是否記得小學時候的演講比賽?參賽的小朋友都被訓練一定要用高八度的嗓音,極誇張的手勢,用「老師~~各位同學~~今天~我要講的題目是~~」作為開場!
在那個階級嚴明的時代,其實很少人真的需要「公開演說」,除非是官員或是主管,否則都是聽命令做事即可。
所以「公開演講」不算是「通用技能」而是一種「才藝表演」,既然是表演,當然要有戲劇效果才行!
再舉一個例子:「專案管理」,在台灣大約也是2003-2004開始暴紅。當時台灣的主力產業還是傳統製造業,把生產流程標準化比較重要,強調創新創意的「專案管理」是酷炫的新玩意兒。
有些擁有「PMP專案管理師證照」的外商主管逐步帶起了風潮。但說真的,當時的專案管理「表演性質」(秀證照給別人看)要遠大於實用價值,當時多數企業連「專案經理」的位子都沒有!
但到了2021年的今天,一切不可同日而語啊!
像是「公開表達」,早不專屬於主管或業務,幾乎成了每一位知識工作者必備的技能,否則要如何順利協作與溝通呢?而「專案管理」也在證照光環黯淡後,逐步反映出「真實價值」。
大約從六年多前,我們的企業客戶就開始強調:「請老師不要講PMP證照的東西,我們想要學習如何把專案『做好』,而不是『考好』!」
當一門專業在大家眼中,從「才藝表演」終於變成「實用技能」,就是我們覺得「時間差不多了,可以進場」的時候了!
因為我們的教學強項是把「實用技能」變成系統化的做法,必須等到市場有這樣的認知我們才有優勢。
這也正是為什麼「簡報課」很夯的時候,我們沒有簡報課,但現在不夯了,我們反倒進場。因為簡報技巧在台灣上班族的眼中,已經逐步從「才藝表演」回歸本質成為「實用技能」了!
前幾年大家瘋狂學習簡報,市面上講師、流派、書籍、聚會一大堆,這都因為這個人:「賈伯斯」!
他真的很屌,不但開啟了音樂串流、智慧手機、APP這三大產業,還引爆了「簡報教學」產業:簡潔富有禪意的版面、圖多字少、大標題、優雅字型、扁平設計、實物展示、懸疑埋梗...都成了「簡報表演」的必備元素。
大家覺得好炫,好想學,市場上的課程自然也就往「簡報表演」的方向走...直到大家發現:
- 簡潔版面根本不能用,因為企業有自己的標準版型,Logo必加還要有版權宣言...
- 圖多字少也帶來麻煩,投影片都是圖印出來沒參考價值,還得另外做文字檔,或是害的聽眾拼命抄筆記,都沒專心聽...
- 大標題會被老闆客戶罵,因為他們需要的數據、圖表、細節資訊投影片都沒有,只有個大標題有何意義?
- 懸疑埋梗更是不切實際,老闆劈頭就想問重點,簡報者把亮點放最後,結束前才來個One more thing...根本討罵!
更別提,想做出賈伯斯流的簡報,光是找圖、修圖、排版就花掉大半時間,但聽眾在乎的根本不是那些,而是要看真正有助於決策的商業資訊啊!
以上班族的經驗來說,「簡報」只是個日常溝通的工具,目標是:「在最短的時間達成設定的溝通目標」,這不是展現個人風格,美學素養,或是舞台魅力的時候,得趕緊達成目標,讓事情順利推進,讓老闆客戶得到他們想要的資訊,才可以早點下班!
所以大人學終於「慢半拍」地推出了簡報公開班,但我們相信這才是上班族真正需要的簡報課!設計核心就如同它的名稱 #上班族的商務簡報術!
簡報只是完成工作的手段,不是花俏的表演,課程主幹會圍繞在如何「快速準備、有效傳達、引領聽眾、促成改變」。
擔綱的 Joy Huang 老師除了給學員各類工具快速定義「受眾需求」、「簡報架構」、「萬用版面」、「時間配置」外,還會分享如何建立「個人簡報資料庫」,做好簡報的知識/素材管理,讓忙碌的上班族能以最順暢的流程與效率,完成一份精準達標的簡報!
【上班族的商務簡報術】
>>https://bit.ly/3x5T4pO