人工智慧時代,一個自我實現的預言 (中)
上回我們講到現在的人工智慧,最重要的價值就是越來越能提供廉價且準確的「預測」。在《AI經濟的策略思維》一書中,作者強調:預測就是情報,是以已經掌握的資訊,來創造還未掌握的資訊,填補缺失的環節,而這就是人類智慧的關鍵。
想像一下,你現在回到幾十萬年前,成為智人的老祖宗,你一個人直立行走在草叢中,突然看見不遠處有一叢草枝擺的幅度比較大,在這一瞬間,你馬上判斷這搖擺的方式不是風吹,而是動物在動,甚至還判斷出動物的大小跟可能是什麼動物,於是要嘛你拔腿就跑,要嘛找尋周遭有無石頭好防身,代表你已經藉由察覺環境中出現的模式,推斷出草叢後可能的危險。
但要是你這位老祖宗看到這樣的情形,卻待在原地思考要用什麼科學方法來調查草叢搖擺的原因,甚至滿懷好奇心地撥開草叢,想直接目睹,你極有可能成了猛獸的餐點,沒機會把你那充滿好奇的基因跟思維方式傳下來。
雖然這樣的預測其實就是腦補,而且我們都知道到了現在,我們這種腦補的 #捷思 已經成了一個大問題,讓我們很容易被有心人刻意產出、安排的資訊陷阱(例如假新聞)給矇騙,但我們還是得感謝我們的老祖宗愛腦補,不然也輪不到我們現在擔心這些問題,早就被淘汰了。
在機器學習出現之前,我們主要是用統計方法中的多變數迴歸分析 (multivariate regression) 來有效率地降低預測錯誤。這種方式可以在數據比較少,而且可以判斷 #大概是哪些條件對預測有幫助 的時候。
什麼是迴歸分析:
https://zh.wikipedia.org/wiki/%E8%BF%B4%E6%AD%B8%E5%88%86%E6%9E%90
多元線性回歸分析預測法
https://wiki.mbalib.com/zh-tw/%E5%A4%9A%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95
例如,假設我們要預測一家電信公司的 #顧客流失率,你覺得要注意哪些條件呢?一個最主要的觀察重點,就是用戶用 #手機上網的時間跟消耗的流量,畢竟如果他們都沒在用,就可能會把帳戶停了。
但機器學習就不是這樣子,不需要跟迴歸分析一樣,先確定條件,而是讓機器自己從大量資料中辨識出特徵或模式,例如同樣要預估電信公司的顧客流失率,你就可以建立模型,然後把每分鐘的通話、簡訊或上網紀錄、帳單金額、準時付款與否、甚至每天數百萬使用者的地點等各種資料都交給人工智慧去學習、並找出模式。變數可能有好幾千個。
例如你可能會發現,在每個月前幾天就花很多時間講電話的顧客,比起帳單金額高,但都在每個月最後幾天講電話的人,比較不會流失。或是在每天 9-17 點常用電話的人,比起少用電話的人,更容易流失。這些都很難一開始就預測到,但機器學習可以透過 #資料探勘 (Data mining),找到從我們眼角溜過的那些蛛絲馬跡。
有了好的預測,會大大的影響決策。就像上篇中的一張圖表示的。舉例來說,棒球教練會根據對方打者的擊球模式、過往的打擊數據(也就是 #輸入)判斷這個打者可能會打出安打,或是內野滾地球被接殺,這就是 #預測。
接著教練得做出怎麼安排野手的守備位置比較好的 #判斷。
如果往外野退,但打者打出內野犧牲打、讓隊友盜壘怎麼辦,如果往內野縮,那就可能會讓外野安打失分更多,又該怎麼辦?權衡之後,教練就得發出指令,這就是 #行動。
接著就是看打者到底會被三振、還是擊出安打、還是被接殺...最後的結果也將以 #數據化的形式,成為訓練預測跟判斷的 #資料。
同樣的,醫生會根據我們的症狀找出模式,來對症下藥。股市交易員會針對指數的升降,找出模式,然後加以預判,看是要買進或賣出。
我們也會根據走路姿態,甚至腳步聲,認出從走廊走過來的是誰,決定要不要跳出來嚇她(誤)或跟咬著吐司與她互撞來交換靈魂(無誤)。
我們人類所做的事情都跟預測有關,但也都不只是預測,因此各位可以想想,如何「拆解」一件事情,變成很多個細節小任務,然後去想:這許多小任務中,有哪些其實就是在「預測」?那麼,如果要讓人工智慧來代替這個預測的環節,我們需要哪些資料來訓練呢?
相較於人類的預測,機器的預測可以規模化,每次預測的單位成本會越來越低,而且速度將漸漸比人類更快、更好。這是很有競爭力的一點。但有兩個挑戰:
第一:就目前以及可預見的近未來來看,人類的認知模式還是比人工智慧更能了解真實世界的運作,我們的感官跟大腦讓我們能夠用很少量的數據就做出預測。所以,在非典型事件、資料量較少的情況下,人類預測的正確率還是遠超過機器預測的。
第二:雖然預測的成本低了,但判斷跟行動的代價還是很高,這時候最好的方式就是結合人類跟機器。並且讓機器去學習「#人類在這種情況下會怎麼做?」
舉例來說,現在 Google 等公司提供的翻譯就是一種預測,他們透過深度學習,對一篇英文文章提出機器所能得出的中文版本,通常會提出好幾個版本讓我們去挑選,我們可以省下一個字一個字自己去全文翻譯,或是請人翻譯。
如果機器預測的品質,也就是翻譯的結果太差,我們就會放棄。但如果品質不錯,我們挑了一個版本之後,可以自己簡單調整修飾,看是要改成口語一點還是嚴謹一點,就可以省下不少時間。透過人與機器的搭配,決策跟行動都可以更有效率。
自駕車也是一樣。除了讓電腦不斷提升辨識路況、號誌、各種物件、各類訊號的精準度以外,先當個副駕駛,學會人到底是怎麼開車的、在不同的情況下會怎麼做,其實更是關鍵。
在我想好下篇該寫什麼之前,大家不妨可以分享一下你的看法:你在日常生活中已經感受到哪些「預測平價化」帶來的改變呢?
上集請見:
Medium https://medium.com/%E9%84%AD%E9%BE%9C%E7%85%AE%E7%A2%97%E9%BA%B5/%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7%E6%99%82%E4%BB%A3-%E4%B8%80%E5%80%8B%E8%87%AA%E6%88%91%E5%AF%A6%E7%8F%BE%E7%9A%84%E9%A0%90%E8%A8%80-%E4%B8%8A-f7f344e8be0
FB:
https://www.facebook.com/noodleswithturtle/posts/570211210140916
再推薦一次好書:
《AI經濟的策略思維》
https://www.books.com.tw/products/0010803316
想上我跟洪智傑老師開的的 AI 入門課,請到這裡:
https://panschool.asia/product/人工智慧必修課
「multivariate regression中文」的推薦目錄:
- 關於multivariate regression中文 在 鄭龜煮碗麵 Facebook 的最讚貼文
- 關於multivariate regression中文 在 [問題] 多變量分析與單變量分析結果如何解釋? - 看板Statistics 的評價
- 關於multivariate regression中文 在 Kats time series forecasting by facebook. Time series analysis ... 的評價
- 關於multivariate regression中文 在 R download data from github. Gómez-Rubio UseR! Series ... 的評價
- 關於multivariate regression中文 在 Lambdamart github. See the API in a jupyter-notebook, or ... 的評價
multivariate regression中文 在 Kats time series forecasting by facebook. Time series analysis ... 的推薦與評價
... to forecasting Facebook时序工具库 Kats 中文教程1. ... 98°N, 77 Multivariate analysis of variance (MANOVA) is an extension of a common analysis of ... ... <看更多>
multivariate regression中文 在 R download data from github. Gómez-Rubio UseR! Series ... 的推薦與評價
You can get data from a single monitoring station, multiple stations, ... Applied Spatial Data Analysis with R. Post on: Twitter Facebook Google+. ... <看更多>
multivariate regression中文 在 [問題] 多變量分析與單變量分析結果如何解釋? - 看板Statistics 的推薦與評價
大家好
想請教一個單變量分析(univarite analysis或叫做simple regression)
和多變量分析(multivariate analysis或叫做multiple regression)
的結果解釋問題
---------------------------------------------------------------------
我有一筆資料是類別變相和連續變項的混合,依變項也是一個類別變項
所以我用logistic regression 來進行回歸分析
一開始先用univariate analysis 一個個丟進logistic regression
結果發現自變項A和C對結果有顯著影響
可是如果全部變項一起進行multiple variate analysis 用logistic regression
卻發現A和C變項對於結果沒有顯著差異
請問我該如何解釋這樣的結果?
可以說A和C對於結果有統計上顯著的差異,
但是其他變項拖累結果導致整體而言不顯著嗎?
或是需要進行其他的post-hoc analysis?
謝謝大家的回答
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.248.55.93
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1479400228.A.B20.html
... <看更多>