新任Google臺灣董事總經理馬大康:現階段全球AI發展仍處於石器時代,未來AI技術將有7大挑戰與新機會
在今年臺灣人工智慧年會上,新任Google臺灣董事總經理馬大康,不僅分享近幾年Google在AI方面的重要進展,並歸納提出7項未來AI技術挑戰與機會,包括建立分散式學習架構、AI偵錯、容錯能力,以及零接觸AI應用新機會等。
文/余至浩 | 2020-11-15
在臺灣人工智慧年會最後一天(11/14),新任Google臺灣董事總經理馬大康擔任活動最後一場壓軸,他現場也分享近幾年Google全球AI方面的重要進展,並歸納提出7項未來AI技術挑戰與機會,包括建立雲端與邊緣的分散式學習架構、加入AI偵錯、容錯能力,以及零接觸AI應用新機會等。
這也是馬大康今年接任Google臺灣總經理一職後,首度在公開場合出席活動,就選在臺灣人工智慧年會。但有別於Google前臺灣董事總經理簡立峰3年前在大會主題演講是以AI在臺灣的新機會為題,馬大康今天則聚焦Google全球在AI方面的最新進展。
馬大康表示,現今Google的AI應用,在大家日常生活已隨處可見,常見如Gmail收信用的過濾垃圾郵件機制,或是全球10億用戶每天用的Google相簿裡的智慧化檢索,都有運用大量AI技術,來提升其服務品質,而且不只加入AI功能,並持續改良,如最早導入AI技術的Google Search服務,近來就透過使用神經網路技術BERT,來大幅改善其搜尋品質,甚至不只能輸入文字查找,現在也能叫Google語音助理幫你搜。除了生活類應用,在其他環境、醫療等全球重大議題上,也都有不少AI應用的著墨。
但講到現今AI的發展,馬大康仍以AI石器時代來加以形容,現階段全球AI發展仍在起步階段,未來還有很大成長空間。他並歸納出7項未來AI技術挑戰與新機會。
首先是建立包含雲端與邊緣端的分散式學習架構。他指出,以往訓練資料量多寡,與AI學習成果會有影響,但未來在模型訓練上,須符合更嚴格相關資料使用規範,像是不只得考慮到資料使用者的隱私權,也得要確保這些訓練完的模型在推論上能不偏頗且符合公平性。為了做到這些事,分散式學習架構的建立,就十分重要,甚至他強調:「這是未來幾乎所有AI學習架構都要採用的新方式。」
以Google作法為例,早在5年前就開始建立分散式學習架構,來優化Android裝置上Gboard虛擬鍵盤的選字建議,他們以聯合學習(Federated Learning)技術設計一套分散式機器學習方法,憑藉不必上傳敏感性資料,而是先在用戶手機上進行模型訓練後,再將訓練完的模型參數與抽像化使用者資訊傳回雲端中央伺服器來優化,藉此達到與集中式機器學習相同的訓練效果,同時又能維護使用者的隱私。接著再將模型優化後的參數更新到每支用戶端手機上。
如今,透過這種分散式學習架構,Google已從全球超過5億支Android手機中持續累積並蒐集其用戶鍵盤使用資料,用於選字AI模型優化。他表示,至今不論是在建議文字、句子,或是表情符號與生動圖片的推薦都有相當出色表現,甚至未來亦可加入影片分享的推薦。
但他也提到目前Gboard的AI應用挑戰,像是在面對一些自創文字或新的符號的學習效果就不是太好,如年輕人常用的火星文或KUSO符號等,導致最後推薦結果並不是很準確。這也帶來新挑戰,他強調,未來10年AI演算法或深度學習模型的發展,不只要做到分析結果的精確,更需要具有偵錯的能力,能從複雜分析過程中找出哪段資料使用可能出錯,以避免產生不正確的推論結果或偏見。
除了以用戶Gboard資料做訓練要確保隱私權,馬大康指出,目前Google所有AI產品或服務,都須符合Google內部一套AI規範的最高指導標準,該規範尤其強調隱私權、公平性、不偏頗,以及妥善使用蒐集到的使用者資訊等,並已落實到旗下所有AI應用或服務的開發上,都要求嚴格來遵守。
馬大康提到第2項AI挑戰,則是要找出新方式,來降低手機端資料的傳遞,避免對於使用者生活造成影響。第3項則是針對重要邊緣裝置,如手機等,當蒐集資料量不夠多時,也需要考慮到一些替代方案的可行性,例如以少量資料依然可達到與用大量資料訓練相同或更好地的AI學習結果。
另外,在分散式學習架構下,雲端AI模型必須有足夠的容錯能力,才能在遇到傳輸資料分析不完整時,減少對其學習效果的影響。他指出,方法之一就是得靠大量裝置端用戶資料的蒐集來改善,而他認為,這樣的高度AI容錯能力的建立,也是未來其研究重要發展的方向。這是第4、5項挑戰。
至於第6項,則是如何讓既有模型學習新字彙或符號,或是運用AI模型幫助大眾判斷假新聞,同樣是未來AI另一大挑戰。最後,因受到Covid-19疫情的影響,也改變人類生活型態,進入到以零接觸為主的新常態,包括遠距工作等,他表示,這也將使得AI應用有所改變,從傳統字彙理解快速演變到聲音及影像的學習,不只技術難度變更高,以後也需要更加龐大的資料量加強模型訓練,這也將帶來AI新機會。
資料來源:https://www.ithome.com.tw/news/141118?fbclid=IwAR16lRIZMIdrH2bb-AkudTXxLv4GYwiY3Tzs6PFL2zUjAVQ9rKfNqFZ_0kU
「分散式機器學習」的推薦目錄:
分散式機器學習 在 iThome Facebook 的精選貼文
影像辨識AI要有良好的成效,就需要夠多樣的訓練資料。「用臺北榮總資料訓練的AI模型,放到別家醫院是否還能用?」臺北榮總放射線部主任郭萬祐問道。他就是兩年前,催生臺北榮總腦瘤辨識AI模型DeepMets的關鍵人物,更是國內第一家由醫院發起聯合學習(Federated Learning)試驗的推手
分散式機器學習 在 軟體開發學習資訊分享 Facebook 的最佳貼文
-- 好工作分享 --
WhosCall 公司 Naver集團( Line )旗下Gogolook Co., Ltd 徵才 Data engineer
臺灣,香港,韓國,泰國,巴西跨國跨文化團隊
https://whoscall.com/zh-TW/careers/joblist/57
你的使命
1 使用機器學習或深度學習建立現代的 Whoscall 產品
2 為資料建模建立自動化流程
3 與計劃人員和程式設計團隊合作,為各種資料專案建構概念驗證系統
要求
1 熟悉 Python
2 有 Keras 的 TensorFlow,Scikit-learn 經驗
3 熟悉 Word 嵌入,網路嵌入相關知識(word2vec,deepwork 等)
4 熟悉機器學習和深度學習訓練(Dropout, bagging, sampling, CNN, RNN, regression, k-means 等)
5 有 AWS 或 GCP 相關的經驗
6 熟練使用 SQL、 Hive、 Presto 等查詢語言
7 資料導向型人格和良好的溝通技巧
8 深刻理解現代機器學習技術及其數學基礎,如分類、推薦系統和自然語言處理
9 具有分散式機器學習和計算框架的經驗(Spark、 Mahout 或其他類似) ,有應用經驗者優先
相關線上學習課程 :
✍AWS https://softnshare.com/tag/affiliate-aws/
✍GCP https://softnshare.com/?s=gcp
✍TensorFlow https://softnshare.com/tag/tensorflow/
✍Python https://softnshare.com/python-learning-maps/
✍SQL https://softnshare.com/?s=SQL
✍Machine Learning http://bit.ly/2PElikL
✍NLP http://bit.ly/SNS-NLP
✍Spark https://softnshare.com/tag/spark/
✍Math. https://softnshare.com/tag/math/
https://whoscall.com/zh-TW/careers/joblist/57/
分散式機器學習 在 台科生活二 的推薦與評價
台大─ 分散式機器學習系統. 出了一篇看論文寫摘要的作業,關於如何優化深度神經網路(43頁),由於我都還沒開始實作,英文也不熟,也一堆沒看過的術語,一天只讀五頁(翻 ... ... <看更多>
分散式機器學習 在 Parameter Server 學習筆記 - Yi Yang's Blog 的推薦與評價
本篇文章主要介紹分散式概念,對於 參數伺服器(Parameter Server) 架構釐清,並與主流常見機器學習(Machine Learning) 框架使用分散式運算實際應用 ... ... <看更多>
分散式機器學習 在 [請益] 公司主機集中做機器學習分散式運算- 看板MIS 的推薦與評價
我們公司工程師都配備一台10萬元 2080顯卡
要做深度學習deep learning計算之用
因為人數越來越多 為了把運算資源更有效利用
我們想要評估
把這些主機放到機房集中 專做pytorch運算
每個工程師只配一台mac mini與機房主機連線用
請問一下
1.這樣的想法是否可行呢?
2.是否有合適的國內廠商可建議?
3.這樣的費用會花到多少呢?
4.如果採用Cloud GPU
依大家的經驗 會比較便宜嗎?
https://cloud.google.com/gpu/?hl=zh-tw
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.127.111.39 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/MIS/M.1570163246.A.101.html
... <看更多>