1222華爾街日報
*【美國參議院通過9,000億美元抗疫紓困方案】
美國國會周一晚間通過9000億美元紓困方案,為受新冠病毒大流行打擊的家庭和企業提供救助,這一緊急措施旨在支撐美國熬過這個艱難的冬天,邁入新的一年。
https://cn.wsj.com/articles/%E7%BE%8E%E5%9C%8B%E5%8F%83%E8%AD%B0%E9%99%A2%E9%80%9A%E9%81%8E9,000%E5%84%84%E7%BE%8E%E5%85%83%E6%8A%97%E7%96%AB%E7%B4%93%E5%9B%B0%E6%96%B9%E6%A1%88-11608614280
*【詳解美國第二輪新冠救助法案】
美國國會將通過一項規模達9,000億美元的新冠救助法案,其中包括對家庭和企業提供援助,以及為疫苗分發和其他舉措提供資金支持。根據法案文本、摘要以及議員聲明歸納出了一些重要內容。
https://cn.wsj.com/articles/%E8%A9%B3%E8%A7%A3%E7%BE%8E%E5%9C%8B%E7%AC%AC%E4%BA%8C%E8%BC%AA%E6%96%B0%E5%86%A0%E6%95%91%E5%8A%A9%E6%B3%95%E6%A1%88-11608604811?tesla=y
*【英法貨運通道因新冠病毒新毒株關閉,英國可能面臨食品短缺】
為了阻止新冠病毒新毒株的傳播,法國政府宣布禁止英國貨運入境,此舉切斷了英國通往歐洲的主要貨運通道,使多佛和加萊等港口之間的貿易中斷,這些港口原本每天處理多達1萬輛卡車的貨運。
https://cn.wsj.com/articles/%E8%8B%B1%E6%B3%95%E8%B2%A8%E9%81%8B%E9%80%9A%E9%81%93%E5%9B%A0%E6%96%B0%E5%86%A0%E7%97%85%E6%AF%92%E6%96%B0%E6%AF%92%E6%A0%AA%E9%97%9C%E9%96%89%EF%BC%8C%E8%8B%B1%E5%9C%8B%E5%8F%AF%E8%83%BD%E9%9D%A2%E8%87%A8%E9%A3%9F%E5%93%81%E7%9F%AD%E7%BC%BA-11608603616
*【英國資產下跌,受脫歐談判僵局和新封鎖措施拖累】
英鎊兌美元走低,英國股市下挫,原因是脫歐後的貿易協議遲遲未能達成,加上英國採取新的抗疫封鎖措施,令英國資產承壓。
https://cn.wsj.com/articles/%E8%8B%B1%E5%9C%8B%E8%B3%87%E7%94%A2%E4%B8%8B%E8%B7%8C%EF%BC%8C%E5%8F%97%E8%84%AB%E6%AD%90%E8%AB%87%E5%88%A4%E5%83%B5%E5%B1%80%E5%92%8C%E6%96%B0%E5%B0%81%E9%8E%96%E6%8E%AA%E6%96%BD%E6%8B%96%E7%B4%AF-11608597611?tesla=y
*【英國新冠病毒變種暫時未改市場中長期看漲前景】
英國出現新冠病毒新毒株觸發風險資產下跌,這一市場反應在預期之中,但這一消息暫時並未給中長期前景帶來威脅。
https://cn.wsj.com/articles/%E8%8B%B1%E5%9C%8B%E6%96%B0%E5%86%A0%E7%97%85%E6%AF%92%E8%AE%8A%E7%A8%AE%E6%9A%AB%E6%99%82%E6%9C%AA%E6%94%B9%E5%B8%82%E5%A0%B4%E4%B8%AD%E9%95%B7%E6%9C%9F%E7%9C%8B%E6%BC%B2%E5%89%8D%E6%99%AF-11608606011?tesla=y
*【英國新冠病毒新變種:你需要了解的三個關鍵問題】
英國新冠病毒新變種是否傳染性更強?是否更有可能致命或導致嚴重疾病?以及是否更有可能擊敗人體的免疫反應,包括疫苗所激發的那些免疫反應?
https://cn.wsj.com/articles/%E8%8B%B1%E5%9C%8B%E6%96%B0%E5%86%A0%E7%97%85%E6%AF%92%E6%96%B0%E8%AE%8A%E7%A8%AE%EF%BC%9A%E4%BD%A0%E9%9C%80%E8%A6%81%E4%BA%86%E8%A7%A3%E7%9A%84%E4%B8%89%E5%80%8B%E9%97%9C%E9%8D%B5%E5%95%8F%E9%A1%8C-11608519910?tesla=y
*【特斯拉在納入標普500指數首日大跌6.5%】
特斯拉周一在作為標普500指數成分股的首個交易日股價下跌,在該公司被納入標普500指數前推動該股大漲的大規模需求消退。
https://cn.wsj.com/articles/%E7%89%B9%E6%96%AF%E6%8B%89%E5%9C%A8%E7%B4%8D%E5%85%A5%E6%A8%99%E6%99%AE500%E6%8C%87%E6%95%B8%E9%A6%96%E6%97%A5%E8%82%A1%E5%83%B9%E4%B8%8B%E8%B7%8C-11608593411
*【歐洲藥品管理局批准輝瑞-BioNTech新冠疫苗】
輝瑞與BioNTech研發的新冠疫苗獲得歐盟藥品監管機構批准使用,此舉對這個正在抗擊一波致命冬季疫情的地區來說是重大一步,目前該地區還在努力阻擋在英國發現的一種新冠變種。
https://cn.wsj.com/articles/%E6%AD%90%E6%B4%B2%E8%97%A5%E5%93%81%E7%AE%A1%E7%90%86%E5%B1%80%E6%89%B9%E5%87%86%E8%BC%9D%E7%91%9E-biontech%E6%96%B0%E5%86%A0%E7%96%AB%E8%8B%97-11608592810
*【拜登在德拉瓦州一家醫院公開接種新冠疫苗】
美國候任總統拜登周一在德拉瓦州一家醫院接種了新冠疫苗,在電視轉播的接種過程中,他鼓勵公眾接種疫苗,稱「沒什麼好擔心的」。
https://cn.wsj.com/articles/%E6%8B%9C%E7%99%BB%E5%9C%A8%E7%89%B9%E6%8B%89%E8%8F%AF%E5%B7%9E%E4%B8%80%E5%AE%B6%E9%86%AB%E9%99%A2%E5%85%AC%E9%96%8B%E6%8E%A5%E7%A8%AE%E6%96%B0%E5%86%A0%E7%96%AB%E8%8B%97-11608592516?tesla=y
*【Solarwinds駭客事件的受害者:科技公司、醫院及大學】
《華爾街日報》對互聯網記錄的分析發現,對美國政府機構進行網絡攻擊的疑似俄羅斯駭客還入侵了美國的主要科技和會計公司,至少一家醫院以及一所大學也受害。
https://cn.wsj.com/articles/solarwinds%E9%A7%AD%E5%AE%A2%E4%BA%8B%E4%BB%B6%E7%9A%84%E5%8F%97%E5%AE%B3%E8%80%85%EF%BC%9A%E7%A7%91%E6%8A%80%E5%85%AC%E5%8F%B8%E3%80%81%E9%86%AB%E9%99%A2%E5%8F%8A%E5%A4%A7%E5%AD%B8-11608611413
*【神奇女俠面臨迄今風險最大的任務:提振HBO Max】
巨額預算影片的經濟效益能否適用於流媒體?答案很複雜。
https://cn.wsj.com/articles/%E7%A5%9E%E5%A5%87%E5%A5%B3%E4%BF%A0%E9%9D%A2%E8%87%A8%E8%BF%84%E4%BB%8A%E9%A2%A8%E9%9A%AA%E6%9C%80%E5%A4%A7%E7%9A%84%E4%BB%BB%E5%8B%99%EF%BC%9A%E6%8F%90%E6%8C%AFhbo-max-11608616212
*【中國白酒巨頭受熱捧,穩居最具價值消費品公司行列】
中國頂級釀酒商今年取得了炫目漲勢,由此穩居全球最具價值消費品公司之列。由於中國人對更昂貴酒品的需求日益增長,白酒生產商貴州茅台和五糧液的股價正一路走高。\
https://cn.wsj.com/articles/%E4%B8%AD%E5%9C%8B%E7%99%BD%E9%85%92%E5%B7%A8%E9%A0%AD%E5%8F%97%E7%86%B1%E6%8D%A7%EF%BC%8C%E7%A9%A9%E5%B1%85%E6%9C%80%E5%85%B7%E5%83%B9%E5%80%BC%E6%B6%88%E8%B2%BB%E5%93%81%E5%85%AC%E5%8F%B8%E8%A1%8C%E5%88%97-11608601811
*【加拿大政府否決山東黃金收購北極金礦的提議】
TMAC表示,加拿大政府周一否決了山東黃金收購TMAC的提議。山東黃金5月份提議以近1.5億美元價格收購TMAC,但這幾乎立即引來反對者的抨擊,他們說這將使一家中國國有企業過多地進入加拿大北極地區。
https://cn.wsj.com/articles/%E5%8A%A0%E6%8B%BF%E5%A4%A7%E6%94%BF%E5%BA%9C%E5%90%A6%E6%B1%BA%E5%B1%B1%E6%9D%B1%E9%BB%83%E9%87%91%E6%94%B6%E8%B3%BC%E5%8C%97%E6%A5%B5%E9%87%91%E7%A4%A6%E7%9A%84%E6%8F%90%E8%AD%B0-11608608715
*【科興控股的新冠疫苗在巴西試驗中通過有效性門檻】
參與相關研發的人士表示,科興控股的疫苗在巴西的後期試驗中通過了50%的有效性門檻,這意味著監管機構可為該疫苗的使用放行。
https://cn.wsj.com/articles/%E4%B8%AD%E5%9C%8B%E7%A7%91%E8%88%88%E6%8E%A7%E8%82%A1%E7%9A%84%E6%96%B0%E5%86%A0%E7%96%AB%E8%8B%97%E5%9C%A8%E5%B7%B4%E8%A5%BF%E5%BE%8C%E6%9C%9F%E8%A9%A6%E9%A9%97%E9%A1%AF%E7%A4%BA%E6%9C%89%E6%95%88-11608594010
*【中國將為5,000萬人接種國產新冠疫苗】
據知情人士透露,中國計劃在春節假期前為5,000萬人接種來自中國國藥集團和中國科興控股的實驗性新冠疫苗,之後到明年春季將為更多人群接種。
https://cn.wsj.com/articles/%E4%B8%AD%E5%9C%8B%E8%A8%88%E5%8A%83%E5%9C%A8%E6%98%A5%E7%AF%80%E5%89%8D%E7%82%BA5,000%E8%90%AC%E4%BA%BA%E6%8E%A5%E7%A8%AE%E5%9C%8B%E7%94%A2%E6%96%B0%E5%86%A0%E7%96%AB%E8%8B%97-11608342310?tesla=y
*【阿斯特捷利康與俄羅斯伽馬勒簽署組合疫苗試驗的初步協議】
阿斯特捷利康與俄羅斯國有的伽馬勒國家流行病學和微生物學研究中心簽署了一份合作備忘錄,藥物開發人員們正尋求測試雙方的新冠疫苗組合能否提高抗擊該病毒的有效性。
https://cn.wsj.com/articles/%E9%98%BF%E6%96%AF%E5%88%A9%E5%BA%B7%E8%88%87%E4%BF%84%E7%BE%85%E6%96%AF%E4%BC%BD%E9%A6%AC%E5%8B%92%E7%B0%BD%E7%BD%B2%E7%B5%84%E5%90%88%E7%96%AB%E8%8B%97%E8%A9%A6%E9%A9%97%E7%9A%84%E5%88%9D%E6%AD%A5%E5%8D%94%E8%AD%B0-11608595811?tesla=y
*【為安撫中國監管部門,馬雲曾提出把螞蟻部分業務移交給政府】
據知情人士透露,面臨困境的中國億萬富豪馬雲在11月初試圖修復他與中國政府的關係時,曾提議將麾下金融科技巨頭螞蟻集團部分移交給中國政府。
https://cn.wsj.com/articles/%E7%82%BA%E5%AE%89%E6%92%AB%E4%B8%AD%E5%9C%8B%E7%9B%A3%E7%AE%A1%E9%83%A8%E9%96%80%EF%BC%8C%E9%A6%AC%E9%9B%B2%E6%9B%BE%E6%8F%90%E5%87%BA%E6%8A%8A%E8%9E%9E%E8%9F%BB%E9%83%A8%E5%88%86%E6%A5%AD%E5%8B%99%E7%A7%BB%E4%BA%A4%E7%B5%A6%E6%94%BF%E5%BA%9C-11608523433
*【今年中國在全球奢侈品市場份額增長近一倍】
2020年,80後、90後和00後消費者助推中國在全球奢侈品市場的總體份額增長了一倍。即使在世界經濟恢復到新冠疫情前的水平之後,到2025年中國也有望成為全球最大的奢侈品市場。
https://cn.wsj.com/articles/%E4%BB%8A%E5%B9%B4%E4%B8%AD%E5%9C%8B%E5%9C%A8%E5%85%A8%E7%90%83%E5%A5%A2%E4%BE%88%E5%93%81%E5%B8%82%E5%A0%B4%E4%BB%BD%E9%A1%8D%E5%A2%9E%E9%95%B7%E8%BF%91%E4%B8%80%E5%80%8D-11608616215
*【巴西致命山體滑坡推動鐵礦石價格邁向紀錄高位】
鐵礦石價格向著紀錄高位飆升,因巴西一個鐵礦場發生山體滑坡,加劇了人們對供應的擔憂,而且中國需求旺盛。
https://cn.wsj.com/articles/%E5%B7%B4%E8%A5%BF%E8%87%B4%E5%91%BD%E5%B1%B1%E9%AB%94%E6%BB%91%E5%9D%A1%E6%8E%A8%E5%8B%95%E9%90%B5%E7%A4%A6%E7%9F%B3%E5%83%B9%E6%A0%BC%E9%82%81%E5%90%91%E7%B4%80%E9%8C%84%E9%AB%98%E4%BD%8D-11608612311
*【美國國會準備提高評估新客機設計的標準】
美國對噴氣式客機的設計採取更嚴格的審批規則,此項內容已納入到年末的聯邦綜合支出法案,此舉旨在保證國會最終通過由波音公司737 MAX兩起致命墜機事故所引發的航空安全改革計劃。
https://cn.wsj.com/articles/%E7%BE%8E%E5%9C%8B%E5%9C%8B%E6%9C%83%E6%BA%96%E5%82%99%E6%8F%90%E9%AB%98%E8%A9%95%E4%BC%B0%E6%96%B0%E5%AE%A2%E6%A9%9F%E8%A8%AD%E8%A8%88%E7%9A%84%E6%A8%99%E6%BA%96-11608605411
*【報導稱蘋果公司計劃在2024年生產電動汽車】
蘋果公司股價周一收高,此前路透報導稱,這家科技巨頭計劃在2024年生產一款乘用車。
https://cn.wsj.com/articles/%E8%98%8B%E6%9E%9C%E5%85%AC%E5%8F%B8%E8%82%A1%E5%83%B9%E4%B8%8A%E6%BC%B2%EF%BC%8C%E5%9B%A0%E5%A0%B1%E5%B0%8E%E7%A8%B1%E5%85%B6%E8%A8%88%E5%8A%83%E5%9C%A82024%E5%B9%B4%E7%94%9F%E7%94%A2%E4%B9%98%E7%94%A8%E8%BB%8A-11608594010
同時也有1部Youtube影片,追蹤數超過1萬的網紅蘇浩SOHO NEWS,也在其Youtube影片中提到,#逃犯條例 #涂謹申 #容海恩 《2019年逃犯及刑事事宜相互法律協助法例(修訂)條例草案》 委員會第三次會議 日期: 2019年5月6日(星期一) 時間: 上午10時45分至下午12時45分 地點: 立法會綜合大樓會議室2 I. 選舉主席 立法會CB(2)1306/18-...
文本摘要 在 華爾街日報中文版 The Wall Street Journal Facebook 的最佳解答
美國國會將通過一項規模達 9,000 億美元的新冠救助法案,其中包括對家庭和企業提供援助,以及為疫苗分發和其他舉措提供資金支持。本文根據法案文本、摘要以及議員聲明歸納出了三大重要內容。
文本摘要 在 李開復 Kai-Fu Lee Facebook 的最佳解答
來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
本文來自創新工場公眾號
……………………………………………………………………
創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高
“土地,我的金箍棒在哪裡?”
“大聖,你的金箍,棒就棒在,特別配你的髮型。”
感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。
近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。
令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。
兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。
ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。
與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。
▌利用記憶神經網路,將中文分詞性能刷到歷史新高
中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。
中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。
該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。
例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。
把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。
為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。
實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)
創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”
在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
▌“雙通道注意力機制”,有效剔除“噪音”誤導
第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。
中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。
在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。
句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。
針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。
即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。
為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。
一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。
即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。
而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。
▌主動引入和分辨知識,實現中文分詞技術突破
中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。
這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。
從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。
到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。
近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。
宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”
“二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”
據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。
▌具備跨領域分詞能力,提升工業應用效率
中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。
宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。
這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。
工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。
“在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。
“如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”
例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。
而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。
目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:
分詞工具:https://github.com/SVAIGBA/WMSeg
分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP
文本摘要 在 蘇浩SOHO NEWS Youtube 的最讚貼文
#逃犯條例 #涂謹申 #容海恩
《2019年逃犯及刑事事宜相互法律協助法例(修訂)條例草案》
委員會第三次會議
日期: 2019年5月6日(星期一)
時間: 上午10時45分至下午12時45分
地點: 立法會綜合大樓會議室2
I. 選舉主席
立法會CB(2)1306/18-19(01)號文件
(只備中文本)
(隨文附上)
- 鄭松泰議員於2019年4月25日提交的函件
II. 與政府當局舉行會議
立法會CB(3)510/18-19號文件
(於2019年3月29日發出)
- 條例草案文本
檔號:SB CR 1/2716/19
(保安局於2019年3月發出)
- 立法會參考資料摘要
立法會LS65/18-19號文件
(於2019年4月11日隨立法會CB(2)1209/18-19號文件發出)
- 有關條例草案的法律事務部報告
立法會CB(2)1236/18-19(01)號文件
(於2019年4月16日發出)
- 法律事務部就條例草案擬予修訂的相關法例擬備的標明修訂事項文本(只限委員參閱)
立法會CB(2)1236/18-19(02)號文件
(於2019年4月16日發出)
- 立法會秘書處擬備的背景資料簡介
III. 其他事項
立法會CB(2)1306/18-19(02)號文件
(只備中文本)
(隨文附上)
![post-title](https://i.ytimg.com/vi/Y6-RUeIWvUg/hqdefault.jpg?sqp=-oaymwEZCNACELwBSFXyq4qpAwsIARUAAIhCGAFwAQ==&rs=AOn4CLDI7y3ZVzDzgU0gMjLx9-PoFPF5cQ)