Google、軟銀都陣亡過!盤點 AI 專案失敗的 4 大原因
Posted on2021/02/04
若水AI Blog
【我們為什麼挑選這篇文章】為了適應未知多變的世界,許多企業搶做「數位轉型」,從公司營運的各層面如客戶體驗、商業模式、企業文化到作業流程等,透過科技的導入來提升效率與效能;而對製造業企業而言,原料採購、物流管理、庫存調配、生產、行銷等環節則是企業主進行數位轉型會優先考量的面向。
在這之中,AI 的運用扮演很關鍵的角色,如何將 AI 應用到上述各層面並實際執行,是許多企業面臨的挑戰,有哪些要點是執行 AI 專案時需特別留意的?(責任編輯:賴佩萱)
作者:若水 AI 資料資料處理部負責人 簡季婕
2020 年,突如其來的新冠肺炎疫情(Covid-19)改變了許多產業的命運,同時加速推促 AI 落地的速度,AI 人工智慧的應用將成為企業的新日常。
若水 AI 資料服務團隊本著為臺灣 AI 應用落地盡份心力的初衷,順著這波改變,推出全新系列內容:與機器學習(ML : Machine Learning)、AIOps 智慧運維(Artificial Intelligence for IT Operations)有關的實用文,分享各界專家在每一天如何持續營運、優化 AI 架構以及資料處理的基本功。
【若水導讀】AI 專案順利通關的三個絕招:
1. AI 資料來源要多元,避免學習偏誤
2. 標註前,請先建立客觀的 AI 資料標註(Data Annotation)原則
3. 讓 AI 人工智慧成為組織的共同語言,會更容易成功
企業都想做 AI,但實際上沒那麼簡單
根據《臺灣人工智慧學校 AI Academy Taiwan》2019 年針對臺灣各大產業 1,095 位業界校友的調查統計,成功導入 AI 人工智慧的臺灣企業僅占 20%。放眼國際,許多全球知名企業的 AI 專案也慘遭滑鐵盧:
Google 在泰國落地測試智慧醫療失敗,拖慢醫療流程;美國杜克大學發佈的 PULSE 演算法誤將歐巴馬的頭像還原為白人,引發種族歧視爭議。
在日本,軟銀(Softbank)社長孫正義原本打算以 AI 機器人取代銷售人員,沒想到 AI 機器人無法應付實際場域的複雜性,計畫負責人只好承認失敗:「我們把機器學習(Machine Learning)想得太簡單了」。
AI 專案難實際執行,問題出在哪?
若水經手過臺灣、日本超過 200 個的 AI 資料處理專案,從橫跨各大產業領域的專案經驗,整理出企業 AI 之所以無法順利落地的四大原因。
1. AI 模型訓練過程中沒有加入實際場域的資料
無論是剛導入 AI 而產生資料處理需求的新手企業,還是已有 AI 專案經驗、為了 retrain 模型再度找上若水的老手企業,都曾經在同一個地方卡關:AI 資料標註品質有做到位元,但 AI 模型卻無法應用落地 。
為什麼?
原因在於,客戶並未以「實際場景」的資料來進行 AI 模型訓練。
現在市面上有許多開放資料集(Open Dataset)或是免費的商用網路圖片,企業通常會優先使用這些免費資源進行 AI 資料標註(Data Annotation)讓機器學習,但是放到實際場域測試後,經常發現 AI 模型成效不佳,無法適用於實際場景,最終還是需要回過頭再進行第二次模型訓練(Model Training)。
因此 在 AI 專案開始前,建議企業首先需要在內部建立資料資料流(Data Pipeline),而在收集資料時,不只使用開放資料集(Open Dataset),也須確保有使用符合實際應用場景的資料來訓練 AI 模型,全盤考量資料類型、角度等多元性,避免機器學習偏誤 。
2. AI 資料標註原則定義不夠客觀
與企業工程師對接 AI 資料處理需求時,當我們詢問這批人臉辨識(Face Recognition)的 AI 資料標註的原則是什麼,常常會接到諸如此類的回答:「頭太小的話,就不要標註數據」。
一般人的邏輯覺得很合理的事情,對於機器學習(Machine Learning)來說卻是一大挑戰。 機器學習需要知道的是趨近「絕對客觀」的原則 ,例如,所謂的頭太大、太小,換算成具體數值會是幾乘幾大小的 pixel?如果圖片背景融色或模糊,也需要標註起來嗎?
一旦 AI 資料標註原則不夠客觀,AI 模型很容易隨著人的「主觀認定」來學習,當專案換了一位工程師,機器學習出來的效果可能也會跟著變 。在我們的經驗,原則的訂定最好透過「對話」,藉由反覆詰問,才能加快釐清目標。有了歸納、定義出客觀的 AI 資料標註原則。就會加快模型學習(Model Learning)成效。
為了清楚定義圖片融色或模糊的問題,我們採用國際照明委員會(International Commission on Illumination)訂定的 Delta E 標準,和影像(圖像)品質評估標準 BRISQUE,和客戶確認彼此認知是否一致。
根據國際標準,人的肉眼能分辨得出來的色差,至少會在 Delta E 值 2 以上。所以,當一張影像測出來 Delta E 值小於 2,就表示這張圖的融色程度太高,無法標註。
假如客戶希望「太模糊的圖片不要標註」,團隊也會根據 BRISQUE(影像品質評估標準)的標準,輸出不同模糊指數的圖片,請客戶確認所謂的模糊,具體來說是 70% 還是 80%。
3. AI 模型訓練(Model Training)沒有循序漸進
以肢體行為辨識(Posture Estimation)為例,Coco Dataset 從一開始只辨識人體 7 大主要關鍵點(Key Point),後來逐步發展成 25 點,甚至快 40 點,有些客戶會希望若水 AI 團隊可以一次就標註 40 個關鍵點,直接拿去機器學習(Machine Learning)。
說起來,機器學習和教小孩很像,一下子給太多的特徵點(Feature Points)反而會「揠苗助長」,導致 AI 模型學到最後分不清楚自己到底在學習什麼。我們也遇過有些客戶,一開始想用難度較高的 Segmentation 方式讓模型學習人的行為,但是人的行為百百種、語意切割(Segmentation)的變異度也高,就比較難學得好。
當這些客戶再回頭來找若水,通常會比較循序漸進,從小地方開始逐步改進 AI 模型。
4. 缺乏管理層的理解與支持
AI 熱潮讓許多企業趨之若鶩,然而 AI 要能夠順利落地,除了上述三項實務建議,企業管理層對於 AI 的認知和支持更是一大關鍵。
許多臺灣企業的 AI 數位轉型主導者,可能是傳統公司裡面有豐富資歷的 CTO 技術長或管理階層,對於 AI 人工智慧這個全新領域的概念,比較缺乏深度的理解,也沒有類似 AI 模型訓練和測試的相關經驗,從上述 4 個原因去追尋難以落地的根源,或許能有所助益。
資料來源:https://buzzorange.com/techorange/2021/02/04/ai-project-difficulties/?fbclid=IwAR04ZC1-1MquyCObEI5HIfTKtV-OkcfxL_R8vRin4YgQMl8cnhS_6aM59vU
第二次ai熱潮 在 Terry&Friends程天縱與朋友們 Facebook 的最佳貼文
兩年前的文章,謝謝吳俊毅找出來分享。
我的大兒子是UCLA CSE (加州大學洛杉磯分校計算機科學與工程系)畢業的博士,他專注在移動應用軟體的開發。畢業後,他並沒有走入學術領域當教授,反而選擇進入企業,走軟體開發的技術路線。
他告訴我,在學校的教授每年都忙著寫論文,發表在專業雜誌或論壇上。如果沒有辦法找到大企業合作,通常教授的論文就會偏向理論,在發表過後,就永遠歸檔留存,無法商品化。
只有跟大企業合作,才能夠得到許多真實的案例和大數據,才能夠驗證教授論文中的理論和模型。但是和大企業合作,談何容易?由於牽涉到商業機密,如果不是很知名的教授,通常都找不到願意合作的大企業。
與其留在學校當教授,得不到企業的合作,每年寫一些理論性的論文發表,我大兒子選擇進入企業,接觸真實的商業領域,開發可以應用和使用的產品。
我的三兒子今年暑假從 UCSD CSE(加州大學聖地牙哥分校的計算機科學與工程系)畢業,八月下旬他就進入 USC(南加大)攻讀碩博士,他專注在 AI 人工智慧領域的類神經網路模型與算法。
他跟我分享人工智慧過去70年的發展,曾經三起兩落。最早在上個世紀50年代,就出現人工智慧這個名詞。經過一陣子熱潮以後,由於技術出現瓶頸,無法突破,因此逐漸衰退。
80年代透過「專家系統」的程序和「知識處理」的應用,「機器學習」(Machine Learning)成了熱門話題,人工智慧迎來了第二次流行。經過一陣子熱潮以後,由於做不到業界預期的應用,又逐漸冷卻了。
第三波熱潮開始於2006年,Hinton教授找到了解方,提出限制玻爾茲曼機(RBM)模型成功訓練多層神經網路,重新命名為「深度學習」(Deep Learning),人工智慧的應用出現了一線曙光。
真正的爆發點是在2012年10月,Hinton教授的兩個學生參加了全世界最大的圖像識別資料庫 ImegeNet 的比賽,以深度學習的算法加上GPU圖形處理器的運算速度,一舉拿下第一名。
其實從 2007 年 ImageNet 比賽創辦以來,每年的比賽結果、每家都差不多,錯誤率大致落在 30%、29%、28%... 瓶頸一直無法突破。結果這兩位學生以 16.42% 的錯誤率遠勝第二名的 26.22%。
從此爆發深度學習熱潮。先是 Google 在 2013 年收購了 Hinton 和他的兩位學生的公司,接下來一堆企業爭相投入深度學習的研究領域。後來,2015 年的冠軍 Microsoft ,以 3.5% 的錯誤率贏得冠軍,超越⼈類的 5%錯誤率,發展快速,一日千里。
2016年3月,AlphaGo擊敗李世乭,成為第一個不讓子而擊敗職業圍棋棋士的電腦圍棋程式。2017年5月,AlphaGo在中國烏鎮圍棋峰會的三局比賽中擊敗當時世界排名第一的中國棋手柯潔。
我的三兒子說,人工智慧能夠發展到今天的這個結果,主要的就是靠大量的「伺服器運算」和大量的「數據學習」。
我以上所說的大兒子和三兒子的例子,主要的目的就是指出大數據的重要性。而擁有各種大數據的機構,不外乎政府和大企業。
在未來互聯網和人工智慧爆發的時代𥚃,大企業擁有大量的伺服器和大數據,跟新創企業比起來,大企業擁有絕對的競爭優勢。
可是回顧歷史,在高科技領域的競爭中,反而是許多新創企業打敗了跨國大企業。為什麼呢?除了創業家和專業經理人的不同心態以外,我認為最主要的原因就是大企業不會創新。
大企業空擁有大量的數據和各種競爭優勢,但是大部分的專業經理人卻不懂得怎麼樣利用這些數據,產生策略和行動。
在上一篇文章當中,我提到過,80年代中期,我在惠普台灣分公司,負責電子測試儀器和電腦系統的銷售部門,主要市場就是台灣的電子產業。
在成立我的這個部門之前,測試儀器和電腦產品是隸屬於兩個不同的產品線業務團隊。雖然台灣的電子企業是共同的目標客戶,但是這兩個不同產品線的業務團隊,彼此很少交流合作。
我的這個部門在當時也是一個創舉,是第一次把兩個產品線放在一個部門裡。部門剛成立時,我首先到這兩個不同產品線的客戶資料庫裡面去做了一些統計分析。
當我將所有的測試儀器客戶和電腦產品的客戶列表出來以後,發現只有30%的客戶是兩種產品都有採購的。也就是說,有70%的現有客戶,我們可以推銷另外一種產品。
在軍事上來講,現有客戶就是我們已經佔據的山頭,如果競爭對手要取代我們,就是要攻山頭。攻山頭和守山頭的兵力,至少10比1才能打成平手。
例如我們的測試儀器現有客戶,或許使用競爭對手的電腦系統,但是我們和競爭對手都在一個山頭上了,比起重新攻打一個新山頭,要容易得多。
因此,我就把大部分資源集中在這70%的客戶上面,訂出目標,列出行動計劃,努力把這些現有客戶攻克。
一年以後,我們把同時向惠普購買測試儀器和電腦的客戶比率,從30%提高到80%。再加上我們還有新開發的客戶,當年的業績達成率遠遠超過我們年初所訂的目標。
另外,我在客戶資料庫裡又做了一些統計分析。我把過去三年買過惠普產品(包含配件、耗材、軟硬體維修合同)的客戶,定義為「現有客戶」(Installed Base Customers)。然後把過去一年曾經買過惠普產品的客戶,定義為「活躍客戶」(Active Customers)。
結果我發現,「活躍客戶」只佔了「現有客戶」的40%左右。所以我把這60%,在過去一年沒有跟惠普有過任何交易的客戶,叫做「冬眠客戶」(Dormant Customers)。
很簡單的數學公式:活躍客戶數+冬眠客戶數=現有客戶數。
這些冬眠客戶到底發生了什麼事?過去三年曾經是我們的現有客戶,可是卻在過去12個月當中,沒有跟公司發生任何採購交易紀錄?這些就是所謂 Low Hanging Fruits,應該是垂手可得的產品銷售對象。
80年代中期,還沒有互聯網和手機等等的通訊工具。我唯一可以使用的就是電子郵件和電話。
於是我組識了一個小小的電話行銷(Telemarketing)團隊,主動打電話給這些冬眠客戶,一方面更新我們的客戶資料庫,一方面介紹、推銷我們的新產品。這個計劃就叫做「叫醒」(Wake Up Call)。
除了極少數已經停止營業的小客戶之外,我們發現,有一些現有客戶已經轉投競爭者的陣營,也就是說,我們攻下的山頭並沒有好好守住,反而讓競爭對手攻佔了。
其餘大部分的現有客戶,都是由於我們沒有主動去好好照顧,也不了解到底我們有些什麼新產品,也不知道應該採購一些零配件或消耗品,因此在過去一兩年都沒有提出採購的需求。
經過我們一個一個的「叫醒」以後,我們得到了很大的收穫,重新連結客戶關係、更新了客戶資料庫、提高了客戶滿意度、取得了許多新的訂單。小投入得到大成果,關鍵就在於我們懂得利用數據做分析,然後採取行動。
回顧過去的經驗和歷史,我也重新學習,並且和各位朋友分享我的總結。
1)在中大型企業上班的朋友們,公司裡一定有許許多多的資料庫和大數據,各位可以發揮各種創新和創意,加以統計分析,或是找到新的「市場區隔」,或是找到新的「行銷策略」,都會得到意想不到的收穫。
2)對於新創企業,或許可以嘗試和政府、大企業合作,取得他們的大數據,加上創業者的創新生意模式和產品技術,增加創業成功的機會。
3)前一陣子,在網路上有許多爭論,對於台灣是否適合在人工智慧領域創業和投資,有不同的看法。我認為,人工智慧的領域非常廣泛,台灣一定有機會的。
最重要的關鍵是,擁有大數據的機構未必能夠創新,而想要創新創業的年輕人,又未必能夠接觸到這些大數據。
因此,擁有大數據的政府機構和大企業,應該把資源開放出來,鼓勵年輕人利用這些大數據來創新創業。
政府除了開放所擁有的大數據資源給新創者之外,還可以訂定一些優惠政策,鼓勵大企業將其擁有的大數據資源,開放出來給新創團隊。而大企業也可以透過合作、投資,達到輔導新創,建立雙贏的結果。