四兩撥千斤! 創新工場首席科學家AI大牛周明博士率瀾舟團隊刷新CLUE新紀錄,輕量化模型孟子一鳴驚人!
本週,中文語言理解權威評測基準CLUE榜單,被「低調」刷新。
不同的是,不是大公司、不是超大模型……
一個新面孔,一個輕量化模型,首戰即登頂,四兩撥千斤。
CLUE榜單近年來由巨頭——騰訊、搜狗、華為、阿里達摩院輪番霸榜的格局,被首次打破。
瀾舟科技-創新工場推出的孟子模型,以十億參數完成了此前百億、千億參數模型刷新的紀錄。
這也是瀾舟科技首次對外曝光,背後團隊負責人,正是創新工場首席科學家、全球AI大牛周明博士。以下文章解釋了這個模型的原理,文章來自《量子位》微信公眾號,經授權轉載。
▎輕量化模型孟子?
孟子,基於瀾舟團隊自研技術研發的大規模預訓練語言模型。
包括創新工場、上海交通大學、北京理工大學等單位參與聯合研發。
可處理多語言、多模態數據,同時支持多種文本理解和文本生成任務,能快速滿足不同領域、不同應用場景的需求。
孟子模型基於Transformer架構,僅包含十億參數量,基於數百G級別涵蓋互聯網網頁、社區、新聞、電子商務、金融等領域的高質量語料訓練。
但誰也沒想到,小模型卻有大智慧,一經登場,打破格局。
CLUE,中文語言理解領域最具權威性的測評基準,涵蓋文本相似度、分類、自然語言推理、閱讀理解等共10項語義分析和理解類子任務。
該榜單競爭激烈,幾乎是業內所有自然語言理解玩家必爭之地。
騰訊、搜狗、華為、阿里達摩院等更是輪番霸榜刷新紀錄。
而且隨著大參數模型愈演愈烈,CLUE還漸有巨頭壟斷之勢。
因為百億、千億甚至萬億參數的大模型,已然不再是創業或其他玩家可與之爭鋒。
萬萬沒想到,瀾舟科技-創新工場團隊出手,四兩撥千斤。
因為孟子,走的是基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。
孟子預訓練模型性能比肩甚至超越千億大模型,在包含文本分類、閱讀理解等各類任務上表現出色。
相對已有的中文語言模型,孟子模型實現了多項突破性進展:
1) 堅持「小而精」的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的性能。作為精巧的小模型,對標「巨無霸」,小模型性能超越千億規模模型。
2)使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威CLUE中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,刷新三項榜單世界紀錄。總排行榜分數突破84分,逼近人類基準分數(85.61)。
3)靈活的領域和場景適應能力,方便快速定制和應用。基於T5-style的端到端生成的訓練範式,同步適配BERT-style的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。
當然,隨著孟子一鳴驚人,也必然能讓輕量化模型研究來到聚光燈下。
▎原理方法和應用?
在輕量化模型算法研究方面,基於自研的基於語言學知識、知識圖譜和領域數據增強等技術,從模型架構(包括基礎層Embedding表示和交互層Attention機制)到預訓練策略進行了全方位改進。
具體有四方面:
1) 模型結構方面,將語義角色、詞性標註等語言學特徵融合到Embedding表示中,基於句法約束引入註意力機制中,從而提升模型對語言學知識的建模能力。
2) 訓練策略上,引入基於實體知識和Discourse的Mask機制,強化模型對語言成分和語篇關係的表徵。
3) 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。
4) 為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域數據繼續訓練並構造相應的提示模版(Prompt),取得了明顯的性能提升。
基於以上算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義信息能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。
另外,在Finetune的進展方面,如何將預訓練模型用於各項任務?
瀾舟團隊也有總結,從數據增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的性能:
1) 數據增強:使用領域相關數據;
2) 知識蒸餾:基於Teacher-Student自蒸餾提升訓練效率;
3) 遷移訓練:結合課程學習的思想,由易到難訓練下游模型;
4) 訓練優化:使用多種訓練目標,多角度提升模型能力;
而且孟子還已經展開了垂直化領域應用。
基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:
1) 通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。
2) 通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。
瀾舟方面還透露,孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文本生成、行業搜索、機器翻譯等諸多領域。
並且毫無疑問的是,因為輕量級模型具有的模型參數較少、快速推斷的特點,更易於線上部署和推廣到移動設備中,自然不會局限於現有應用和場景,接下來還會有更廣泛的研究和應用場景中。
▎瀾舟團隊?
最後,也簡單介紹本次一鳴驚人的新面孔瀾舟科技。
瀾舟科技是創新工場孵化的一家認知智能公司。公司創始人——周明博士。
AI領域內,周明已不用過多介紹,他是公認的世界級AI科學家,自然語言處理領域的代表性人物。
周明博士在2020年加盟創新工場,擔任創新工場首席科學家。
而瀾舟科技則針對商業場景的數字化轉型,基於大數據、知識圖譜和行業模型,提供新一代的信息檢索、知識推理和商業洞見技術和相關產品。
據稱目前已與國內外幾十所著名高校和十餘個相關領域的頭部企業建立了穩定的合作關係。
值得注意的是,瀾舟科技除了大牛坐鎮,其實也是行業趨勢的體現。
引用創新工場董事長兼CEO李開復最新分享來說:
AI的發展可以按照兩個時間點劃分。
第一個時間點是2015年,以CNN為核心的計算機視覺技術讓機器超越了人類,帶來了人臉識別、智能質檢、無人零售、智慧城市、無人駕駛等商機。
而第二個時間點出現在2019年,以大模型為代表的自然語言方向取得突破性進展,讓NLP從數據、信息走向知識和洞見成為可能,將會在翻譯、語音識別、法律、金融、新聞、廣告、醫療、娛樂等大賽道帶來機遇。
「如果說CNN造就了今天計算機視覺領域的突破和眾多應用,預訓練大模型+微調也將帶來自然語言的百花齊放的發展,用數據智能驅動各類業務的升級。瀾舟科技在周明老師的帶領下取得了今天的成果,在新機遇面前躬身入局,一起發掘NLP領域的黃金發展期」,李開復說到。
embedding方法 在 當張仲景遇上史丹佛 Facebook 的最讚貼文
加拿大溫哥華 第三屆國際傳統醫學大會暨中醫大會 – 日程更新
即將在八月下旬舉辦的加拿大第三屆國際傳統醫學大會暨中醫大會,在舉辦單位不斷地和各方溝通協調下,正式的日程表及各個講員的講題總算是固定下來了,畢竟安排近二十位來自世界各地的專家齊聚一堂,並非一件容易的事。這次大會,有幾位專家被安排演講三個小時,其他專家的演講從半個小時到兩個小時不等。感謝大會的重視,幫我安排在大的會場上演講三個小時,也幫我把原訂晚上的演講時段改成下午,雖然舉辦單位表示晚上的聽眾會比較多,我還是喜歡晚餐後放輕鬆、看看書、做運動、並早點就寢,謝謝大會的體諒,這樣我也就不用幫忙收拾會場了,莞爾!
第三届国际传统医学大会暨中医大会
语言: 中英双语同声翻译
时间: 2019年8月24日(周六)-25日(周日)上午9点到晚上9点
地点: Hilton Vancouver Metrotown, 6083 McKay Ave, Burnaby, BC V5H 2W7, Canada
举办单位: Canadian Institute of Complementary and Alternative Medicine Research
电话: 1-604-6201908
邮箱: [email protected]
网站: https://www.ictmhw.com
微信: qingcheng545445
2019年8月24日(星期六)活动详细议程 Agenda on Day 1 August 24th 2019
第一会场 (A&B Ball Rooms)
09:00-11:00 1. 頭針治療腦出血,腦血栓,眩暈,耳鳴,老年癡呆等症 Systematic application of scalp acupuncture in clinical treatment 焦顺发教授 Prof. Shunfa JIAO
11:00- 11:02 开幕式 Opening Ceremony 严庆蘋医生 Dr.Peggy Yu
11:03- 11:08 致开幕词
Opening & Welcome Remarks 王福麟教授 Prof. Fuling Wang
11:09- 11:30 嘉賓致辭 VIP Speech 宣读贺信 Greeting Letters 严庆蘋医生 Dr. Peggy Yu
11:30- 12:30 1. 頭針治療腦出血,腦血栓,眩暈,耳鳴,老年癡呆等症 Systematic application of scalp acupuncture in clinical treatment 焦顺发教授 Prof. Shunfa JIAO
12:30- 13:00 午餐及请教专家和看论文摘要展示 Lunch/Expert consultation/Post Presentation
13:00- 16:00 2. 針灸在美容減肥等方面的特殊方法與技法,針灸除雙下巴,皺紋,眼袋,面部緊 緻,減肥,瘦臀等 Special acupuncture methods and techniques for beauty and weight loss, etc. 崔兰英医生 Dr. Lanying CUI
16:00- 17:30 3. 中醫舌診在臨床診斷治療不孕不育等疑難 雜症 New principles and methods in application of TCM tongue diagnosis in clinical practice 熊旻利医生 Dr. Minli XIONG
17:30- 18:00 晚餐及请教专家和看论文摘要展示 Dinner/Expert consultation/Poster Presentation
18:00- 21:00 4. 飛經走氣針法及針氣療法治療子宮肌瘤, 內膜增生,乳腺增生等 Miracle effect of Feijingzouqi and Zhenqi acupuncture techniques for intractable diseases 吴泓德医生 Dr. Hung- Te Wu
2019 年 8 月 25 日(星期日)活动详细议程 Agenda on Day 2 August 25th 2019
第一会场 (A&B Ball Rooms)
09:00-12:00 1. 骨盆與健康(全身關節錯位引起的急慢性內外病痛治療) Pelvis and Health (treatment of acute and chronic external and internal diseases caused by joint disorder) 徐星凱醫生 Dr. Xingkai Xu
12:00-13:30 2. 中醫舌診在臨床診斷治療不孕不育等疑難 雜症 New principles and methods in application of TCM tongue diagnosis in clinical practice 熊旻利医生 Dr. Minli XIONG
13:30-14:00 午餐及请教专家和看论文摘要展示 Lunch/Expert consultation/Post Presentation
14:00-17:00 3.中醫經方治疗重症、急症及特殊复杂疾病的临床病例討論 Clinical case discussions of classic Chinese medicine applications on severe and urgent health conditions 李宗恩医生 Dr. Andy Lee
17:00-17:30 闭幕式 Closing Ceremony 严庆蘋医生 Dr. Peggy Yu
16:45 – 17 :30 闭幕感谢词 Closing & Thank you Remarks 程霞院长 Dr Xia Cheng
17:30-18:00 晚餐及请教午餐及请教专家和看论文摘要展 示 Dinner/Expert consultation/Post Presentation
18:00-21:00 4.針靈技法及針灸治療各種有形包塊,糖尿 病,高血壓,皮膚病等 Dao of TCM — Zhenling of Needle conscious technique and Pingmai of Pulse normalization demonstration 潘晓川教授 Dr. Xiaochung Pan
第二会场( Ball Room C)
09:00-11:00 1. 針灸美容,瘦臉,減肥,祛黃褐斑等 Treatment of facial defect with acupuncture 刘宁教授 Prof. Ning Liu
11:00-12:00 2. 中醫治療抑鬱,狂躁,躁鬱症,焦慮症 Clinical effects of TCM in treating emotional and mental disorder 杨常青医生 Dr. Changqing Yang
12:00-13:00 3. 迷你刃針治療偏頭痛,血管性頭痛,足底足跟痛 The potential and value of Microblade acupuncture in clinical treatment 黄国健博士 Dr. Guojian Huang
13:00-13:30 4. 脊柱相關問題的有效診斷和條理方法 黃偉醫生 Dr. Wei Huang
13:30-14:00 午餐及请教专家和看论文摘要展示 Lunch/Expert consultation/Post Presentation
14:00-15:00 5. 針灸與芳療精油治療頭,眼,耳,鼻,口痛 Application of aromatherapy essential oil to acupuncture treatment 梅和詠医生 Dr. Heyon Mei
15:00-16:00 6.針灸與埋線治療肥胖症,胸膜痛,手臂痛 Obesity & embedding techniques Dr. Amir Hooman Kazemi
16:00-17:00 7.燒山火透天涼治療男性不育,鼻敏感,中風 Clinical application of feeling point, Burning Mountain Fire, and Cooling Sky needing techniques in reinforcing and reducing method 陆飚医生 Dr. Biao Lu
17:00-17:15 闭幕式 Closing Ceremony 严庆蘋医生 Dr. Peggy Yu
17:15 – 17 :30 闭幕感谢词 Closing & Thank you Remarks 程霞院长 Dr. Xia Cheng
17:30-18:00 晚餐及请教午餐及请教专家和看论文摘要展示 Dinner/Expert consultation/Post Presentation
18:00-19:00 8. 針藥結合靶向治療乳腺癌,腦腫瘤,膀胱 癌等 Diagnosis of three-level targets and on-target treatment of cancers using Acupuncture and Chinese herbal medicine 刘金洪教授 Prof. Jinhong Liu
19:00-20:00 9. 夏桂成老師治療不孕症,子宮肌瘤,更年 期綜合症 Typical successful cases of infertility and other gynecological diseases treated with the TCM principles: sharing from my supervisor, Dr. Guichen XIA 谈勇教授 Prof. Yon Tan
20:00-20:30 10. 頭針成功治療兒童自閉症和腦癱疾病的臨床經驗分享 Scalp acupuncture for autism and other developmental disorders in children 史灵芝医生 Dr. Lingzhi Shu
20:30-21:00 11. 近視眼,乾眼症,眼底出血,黃斑水腫,葡萄膜炎等眼疾的中醫治療 Treatment of eye diseases such as myopia with TCM 王育良教授 Prof. Yuliang Wang
*:上述活动日程会根据具体情况做适当调整
Events are subject to changes, will be verified and confirmed as required.
(http://andylee.pro/wp/?p=6132)
embedding方法 在 北歐心科學 NordicHearts Facebook 的精選貼文
[科普潮文] [大數據,小生物學家]
#metoo
#dxxkpic
用別人發布的細胞data跑了個Principle Component Analysis (PCA,主成份分析)。我應該告他們性騷擾我,告電腦騷擾我,還是告那些細胞性騷擾我?
The Era of Big Data,很大程度上幫助了生物學研究。我們有方法把想研究的器官,拆解成單細胞,再分析每個細胞的RNA成份,從而了解每個細胞在做甚麼,以及細胞之間的差異,有時會找到傳統方法找不到的細胞。
每個細胞都可以表達成千上萬的不同基因,如何找出它們的關係?應該比較哪一個基因?為了能比較多項變數,統計學家發明了PCA,將差異最大的變數,總結成不同的Components,只要觀察頭幾個Components,就能大致觀察個體之間的差異。舉個例,如果有一堆白人黑人混在一起,你就會用他們的膚色、瞳色、語言等差異較大的變數做Component ,把數據分辨出來,令數據變得可視(Data visualisation)。
對於更大型的Data,bioinformatician 會用機器學習(machine learning) 方式,找出如何比較數據才是最佳。最典型的就是t-Distributed Stochastic Neighbour Embedding (t-SNE),只要你輸入一堆Data,它就會幫你找不同與歸類,不單是生物學數據,甚至連google image的結果,都可以用t-SNE分類。生物學上,tSNE有助找出獨特的細胞,是這個J樣的PCA不能做到的。
頭盔:我只是會一點code的biologist,統計學知識不全,有錯請指正。