創新工場和BCG諮詢合作的「+AI改造者」系列:看看馬上贏如何在巨頭競爭下,用大數據驅動業務,實現傳統零售商和品牌商的雙贏。
改造者系列:科技巨頭下的AI企業制勝之道?-- 本文来自BCG微信公眾號,經授權轉載。
近期,創新工場聯合BCG波士頓咨詢旗下亨德森智庫,推出「AI融合產業:『改造者』如何促進AI普惠」系列研究。人工智慧在中國大陸有著明確的落地應用場景,大量的AI企業活躍於這些垂直場景中,我們定義這些企業為「改造者」。「改造者」通過傳授其AI技術和垂直行業理解,極大地打破了傳統企業應用AI的瓶頸。
作為擅於趨勢前瞻的TechVC,創新工場長期看好AI領域,深入佈局,至今已經投出了7只AI獨角獸。在系列研究中,我們采訪了數家創新系AI企業,通過這些「改造者」的視角,探究傳統企業擁抱AI的範式與路徑。
馬上贏是創新工場投資的大陸領先的快消行業大數據公司,其定位是中國快消品行業的風向標,零售監測的新標準,成為中國的「尼爾森」。通過信息化賦能小規模零售商,馬上贏打通一個個數據孤島,以大數據的方式挖掘零售數據的商業價值,為品牌商提供產品動銷數據與競品監控服務。
為了讓數據更好地服務於新品研發和上市,馬上贏引入了PDCA(Plan, Do, Check, Act)循環,通過數據說話指導快消品快速迭代,提升零售商銷售收入。
具體來說,品牌商可以在零售商的渠道內測試包括售價、外觀、營銷、陳列等要素,通過數據回饋指導新版本,實現往復循環。
在采訪中,馬上贏創始人猴哥(王傑祺)表示,垂直領域內的AI創新需要符合企業自身的需求,要在巨頭的基礎設施之上,基於更好的訓練集和更專業的垂直行業知識,不斷突破行業壁壘,優化垂直領域的AI創新。
■系列導讀
本系列由BCG亨德森智庫與創新工場董事長兼首席執行官李開復博士帶領的創新工場團隊共同推出,圍繞「AI融合產業:『改造者』1如何促進AI普惠」的課題,我們致力於探究傳統企業在應用AI過程中的關鍵要素與合作夥伴,以及傳統企業擁抱AI的範式與路徑。
在零售領域,馬上贏致力於定義中國快消品零售監測行業的新標準,成為「中國的尼爾森」,通過免費為連鎖零售商提供市場情報和「零售數字化鐵三角」2,與零售商進行數據合作,將海量的線下快消品零售數據轉換成精准的市場洞察情報。
1 「改造者」 通過傳授其AI技術和垂直行業理解,極大地打破了傳統企業應用AI的瓶頸,充當產業中傳統企業應用AI的橋樑。「改造者」包括AI企業與成功轉型AI的傳統企業。
2 「零售數位化鐵三角」指通過PDCA循環迭代的方法提升零售商銷售收入。P=Plan:52周企劃;D=Do:會員營銷;C=Check:BI看板;A=Act:改進。
■本期受訪嘉賓:猴哥(王傑祺)
馬上贏正在建設覆蓋線下門店最多的零售監測網絡,為連鎖企業免費提供BI看板、52周企劃3、會員營銷和市場情報,推進連鎖企業數字化轉型。
猴哥(王傑祺)是馬上贏的創始人兼首席執行官,清華大學學士,美國華盛頓大學碩士。他是原阿里巴巴集團資深產品專家,曾于美國UPS供應鏈部門擔任高級工業工程師。在創立馬上贏之前,他曾創業推出購物助手(如意淘),後被阿里收購。
3「52周企劃」指依托馬上贏的大數據AI技術説明零售商實現精細化管理。零售商可以瞭解一年中每周適合銷售什麼類目的產品,與陰曆節日、陽曆節日、節氣、特殊事件(如比賽活動)關聯,提升門店的銷售計劃能力。
■對談實錄
Q1 馬上贏為什麼選擇切入零售賽道?如何定義「中國的尼爾森」?
猴哥:馬上贏致力於定義快消品零售監測的新標準,做「中國的尼爾森」,為零售商和品牌商提供服務。面向零售商,馬上贏免費提供ABC服務,即AI、big data(大數據)、Cloud(雲服務),以換取訂單數據;面向品牌商,馬上贏基於零售商的脫敏數據提供大陸市場情報,賺取收入。
馬上贏發現,大陸的市場過於分散,零售的毛利又低,大量規模小的零售商缺乏足夠的IT費用以支援其獨立完成信息化應用,但他們對信息化的需求又是真實存在的。另一方面,品牌商有意願和能力為市場情報、動銷數據支付費用。馬上贏看到了零售商和品牌商的痛點以及購買力的巨大差異,嘗試通過為零售商和品牌商提供所需服務來提升整個行業的效率。
馬上贏一方面向零售商免費提供差異化的信息技術服務,按零售商的需求提供BI看板和市場情報支援,另一方面向品牌商提供產品動銷數據與競品監控服務。此外,馬上贏還在著重提升AI演算法和大數據中台數據處理能力,以便支援更多零售商和品牌商的數據服務需求。同時,這些技術優勢和服務支撐能力説明馬上贏建成大陸覆蓋範圍最大的即時零售數據監測網絡。對於馬上贏和客戶而言,這是雙贏。
在數據治理中,馬上贏需要做的是建立相對統一的內容體系,實現統一的度量衡。比如同一個條碼的商品在不同門店的名稱寫法不同,傳統方法是通過人工進行校驗和修正之後才能統一名稱入庫。馬上贏通過自己搭建的超1,600萬條碼的商品庫,使用AI演算法對零售數據做分類、清洗,並基於完善的商品知識圖譜體系標記商品屬性,再由BI看板提供數據洞察服務。馬上贏的這套全流程自動化體系,極大地提升了數據處理和情報產出的速度和效率。
Q2 相比數據咨詢商、科技巨頭等其他類別的競爭對手,馬上贏的差異化優勢是什麼?如果品牌方想自己做零售大數據,馬上贏怎麼應對?
猴哥:以往零售商想實現信息化必須高價購買專門技術公司的服務,只有少數資金充足的大零售商可以負擔得起,零售行業中數量眾多的中小型零售商往往望洋興嘆。而品牌方一般很難獲取到這些生意占比很大的中小型零售商數據,因而會尋求數據咨詢商的數據服務。但出於成本和利潤的考慮,數據咨詢商往往只服務最頭部的品牌商,在大陸可能只有幾百個品牌商能消費得起數據咨詢商的服務。相比之下,馬上贏合作的品牌商更加廣泛,從新銳品牌、區域性品牌到成熟品牌、頭部品牌,馬上贏都可以提供符合客戶需要的數據服務。
數據咨詢商從少數零售商那裏提取商品月度銷售匯總數據,再將數據整合為大盤情報,賣給少數頭部品牌商。但馬上贏從「激活生態」的角度出發,説明零售商提升數據運營能力,獲得大量一手銷售訂單數據,可以為品牌商提供更詳細的數據洞察服務。此外,馬上贏由AI賦能數據清洗和BI交付,從而可以提供即時的、更細顆粒度的看板,可以提供細到省級、地級市級、業態級、SKU級顆粒度的數據。
相比電商巨頭,馬上贏選擇線下快消品零售行業,覆蓋更多的線下零售商,涉及更豐富的業態,有大賣場、大超市、小超市、便利店、食雜店等等。在商品品類的選擇上,馬上贏暫不拓展美妝、服裝等電商渠道占比超過50%的品類,而選擇線上化率相對更低的品類,如食品、飲料、日用品。這些品類消費時效性高、頻次高、單價低,線上購物場景並不適合線下。
至於品牌方自己做零售大數據,馬上贏早前就思考過這個問題。我們和大品牌都聊過,如果建立品牌方自己的銷售追蹤網絡是否可行,得出的結論是不可行。一是單一品牌方來做大數據,做完了只能自己受用,成本攤下來很不合算,還不如投資AI企業,實現專業化分工;其次,品牌方還有一些技術壁壘解決不了,攻克下來只會對成本端造成更大的壓力,得不償失。
Q3 馬上贏在賦能零售商和品牌商的過程中遇到的最大挑戰是什麼?
猴哥:最大的挑戰來自於行業裏不透明的競爭——現在做AI的企業太多了,很多企業會虛報準確率,噪音特別大。
AI在每個垂直行業的落地需要很多行業知識,其次才是疊加AI演算法。但很多傳統企業對AI的期待特別高,導致市場上各種聲音魚龍混雜,每個企業都在講述「AI萬能」的故事。馬上贏不會激進地過度承諾,但這種冷靜和狂熱之間的衝突會帶來很多麻煩——當別的AI企業過度承諾其自動補貨的準確率高達95%的時候,馬上贏如果表示我們的準確率位於70%—85%的區間,傳統企業就會輕視我們的實力。現在,垂直行業裏缺乏行業組織或者專業機構來做客觀、公允的第三方普查。比如在圖像識別、自然語義處理領域,都有比較公認的訓練賽,大家用演算法的跑分說話,相對而言就比較客觀。落到垂直領域裡,每個企業自己報數據,很多時候就會有水分。
馬上贏曾經考慮把收集的數據脫敏之後貢獻出來,讓大家有一個公平的舞臺競技,但是很難運行起來。僅僅共享數據不足以激勵演算法團隊,需要行業組織定期舉辦競賽、活動等,或者像Netflix舉辦推薦演算法比賽,通過資本來激勵大家參與,僅僅靠社區運轉不起來。
Q4 你認為未來AI企業的發展趨勢是什麼?
猴哥:有能力的巨頭要持續加強行業的基礎設施,讓開發AI的人能有更好的工具,讓雇不起博士生的企業也能應用AI,實現技術普惠。同時,垂直領域內的AI創新需要符合企業自身的需求,AI企業要在巨頭的基礎設施之上,基於更好的訓練集和更專業的垂直行業知識,不斷突破行業壁壘,優化垂直領域的AI創新。我相信這是我們的生存之道——「科技巨頭靠算力,我們靠設計」。
同時,大陸的零售行業在洗牌,有很多更具備數據化思維的新品牌在躍躍欲試。以前是渠道經濟,在社區裏搶到點位就能有流量,未來是有技術、數據和管理能力的品牌才能從老品牌手中搶到點位。此外,隨著許多快消品牌逐步上市,出現資本外溢,更多的人會開始創業,疊加當前快消巨頭的二代交棒窗口,零售領域將有新一波浪潮湧動。我相信,未來的零售行業會更加擁抱數據,擁抱AI。
■要點回顧
1. 不只是技術層AI要有標準,應用層AI也需要標準。垂直領域應用AI需要由行業組織或龍頭企業牽頭制定公認的行業標準,從而促進AI企業公平有序發展,這也將反哺傳統企業,促使傳統企業的AI應用提質增效。
2. 「科技巨頭靠算力,AI企業靠設計」,結合巨頭提供的行業通用基礎設施和「改造者」特有的垂直領域數據集和算法,各取其長,方能最大化傳統企業應用AI的效率。
創始版水冷電競機 在 文茜的世界周報 Sisy's World News Facebook 的最佳貼文
《文茜的世界周報》
#含主持人陳文茜解說
#Youtube「訂閱」文茜的世界周報
https://www.youtube.com/channel/UCiwt1aanVMoPYUt_CQYCPQg
右邊👉 「訂閱」
<單則精選>
由英國宣布搶先開打的美國輝瑞疫苗,幕後的推手,是一對來自土耳其的德國醫生夫婦。55歲的伍爾薩辛和53歲的奧茲萊圖蕾琪,他們的父母來自土耳其,是兩名專門研究癌症和遺傳性疾病的醫學專家。他們的公司BioNTech是美國輝瑞集團(Pfizer)的研究合作夥伴,致力於開發mRNA作為技術核心的新冠疫苗。
薩辛出生於土耳其,他4歲時與他的母親一起來到德國,他的父親在德國科隆的福特車廠工作。他在科隆學習醫學,專門研究分子醫學和免疫學。他的妻子圖蕾琪,是一個移民到德國的土耳其物理學家的女兒,她是目前歐洲癌症免疫療法聯盟的主席。兩人都在德國美因茨大學任教。
兩人在漢堡大學附屬醫院相遇相戀。他們都對醫學研究充滿熱情,夢想著找到治愈癌症的方法。
他們在2008年成立了自己的BioNTech生技公司,以開發抗癌療法。這家初創企業最初是虧損的,現在擁有來自60個不同國家的1500名員工。BioNTech在2021年的收入估計為35億美元,將與研究夥伴美國巨頭輝瑞公司分享。
今年進入德國百名首富榜的薩辛夫婦,依然生活極為簡樸,甚至連代步的車輛都沒有。他們被推崇為德國移民的典範,是一個夢想家團隊。
{內文}
(英國首相/強森)
這是個天大的好消息,MHRA(藥品和醫療產品監管局)已正式授權,准予使用輝瑞出產的新冠疫苗
英國搶得頭香,成為第一個通過新冠疫苗接種的國家,採用的是美國輝瑞與德國BioNTech生技公司聯合開發的疫苗,輝瑞與德國BioNTech生技公司的結合,隨著疫苗開發成功的捷報而讓股市一飛沖天,但是如果在股市大把大把的鈔票之後,是一個真正的愛情故事呢?
OzlemTureci與Ugur Sahin,畢生致力於癌症治療和傳染病的研究,他們辛苦的工作終於有了回報,他們所研發的疫苗,在證明高達90%的有效率之後,在全球對抗新冠病毒的競賽中取得了領先,你可能不知道德國BioNTech生技公司的創辦人,是一對夫妻,55歲的薩辛和53歲的圖蕾琪,這兩位德國醫學博士都是土耳其移民,薩辛出生在地中海南岸的土耳其,四歲時來到了德國。
(BioNTech CEO/伍爾薩辛)
我在四歲的時候和我的母親到了德國,我的父親當時已經在德國工作了,他是在科隆的福特汽車廠工作,所以我是來自一個移民工人家庭的孩子,我在那裡上了小學,我很幸運地成為第一批得以在德國繼續唸高中的土耳其移民,後來在科隆上了大學
薩辛的妻子圖蕾琪則是在德國出生,她父親是一名來自土耳其伊斯坦堡的移民,兩人的父母都屬於1955到1973年之間,德國為了二戰後百廢待舉的重建工作而開放的移民外勞。如同許多土耳其的移民家庭一樣,希望找到新的生活和機會,許多人也遭受了種族主義和歧視,是一位熱心鄰居的幫助,才為薩辛爭取到上高中的機會,兩人各自不約而同地選擇了醫學,命運讓他們在醫院實習工作時相遇,一見鍾情。
即使在他們2002年結婚當天早上,兩人都各自在自己的實驗室裡工作,然後在前往婚姻登記處的短暫插曲之後,兩人又披上實驗衣回實驗室去工作了。
從1990年以來,薩辛夫婦一直都和美因茲大學醫學院合作,進行免疫學應用於癌症治療的研究,二十多年來已成為德國癌症研究領域的佼佼者。兩人在德國美因茲大學醫學院進行研究,薩辛正在研發最重要的抗癌新藥,透過動員人體的免疫系統來對抗癌細胞,多年來他一直與妻子圖蕾琪共同進行研究。他們一起在2008年創立了BioNTech生技公司,當時的金融海嘯讓資金籌措格外困難,但是他們仍然獲得風險投資公司(MIG AG)6500歐元的投資,由他出任執行長,她則是首席醫師。
伍爾薩辛和奧茲萊圖蕾琪,在2008年和薩辛之前的教授Christoph Hubert創立BioNTech生技公司正好碰上了金融危機,但是12年之後,最初專注在開發治療癌症病患藥物的BioNTech,如今已經成長為世界頂尖的生技公司,聘用超過1300名專家,企業價值超過200億美元。
薩辛研究對於癌症細胞至為重要的蛋白質結構,確定其基因密碼之後,在實驗室中制定疫苗藍圖,即是以被稱為mRNA指令的技術來抵抗癌細胞。今年一月份開始研發疫苗,因為他偶然在英國的柳葉刀醫學雜誌上讀到一篇科學報告,詳細說明了在武漢出現的新冠病毒症狀之後,早在還沒有被歸類為大流行之前,薩辛和圖蕾琪就已經開始這個案子,意識到他們正在研發以mRNA指令抗癌的方法,可以調整為產生抵抗新冠病毒所需的免疫反應,幾天之內,薩辛帶領將近500名人員啟動了新的「 光速」專案,專門致力於開發一個mRNA的新冠疫苗。BioNtech疫苗開發進展迅速,很快就吸引了輝瑞集團的重金投資,早在第一波疫情還沒有真正衝擊歐洲之前,他的團隊就已經開發了二十幾個候選疫苗,如今隨著疫苗臨床實驗成功的水漲船高,但是在醫學研究與金融炒作之間,薩辛極力保持一個微妙的平衡。
(德國BioNTech CEO/伍爾薩辛)
我們知道有些問題唯有靠創新才能獲得解決,因此當一個先進的創新技術出現的時候,企業贏得了更多的價值,使得投資者有機會獲得他們應得的紅利
薩辛夫婦在今年進入了德國百大富豪榜單,但並沒有改變兩人簡樸的研究生活,甚至連代步的車子和司機都沒有。
(德國BioNTech CEO/伍爾薩辛)
這是臨床試驗之外的人們,首次可以使用我們的疫苗,我們相信這真的是疫情終止的開始
對於英國即將要開始使用他們所研發的輝瑞疫苗,表示相當有信心。
(德國BioNTech CEO/伍爾薩辛)
我們應該能夠提供足夠的劑量,一直到2021年夏天結束以前,以達到60%到70%的涵蓋數量
在難民潮與移民外勞一直是敏感議題的德國,薩辛與圖蕾琪夫妻的成功更令人感動,兩人不但被認為是新冠疫苗的「夢想家團隊」,也被推崇為移民成功的典範,讓德國人因為他們的成就而與有榮焉。
(法國第5電視台新聞主播/Axel de Tarle)
輝瑞的疫苗事實上是德國製造的,我們也可以覺得很驕傲,因為另一個重要的Moderna疫苗,是一個法國人Stephane Bancel,但是他卻得離開法國到美國去
替一家美國公司工作
另一個疫情背景下的成功故事,是現年47歲來自法國馬賽的班塞爾(Stephane Bancel ),負責領導美國Moderna生技公司的疫苗開發,目前達到臨床實驗的有效程度為94.5%,法國人為此感到既驕傲又洩氣。
(法國第2電視台新聞主播/Caroline Roux)
Stephane Bancel,您的求學生涯非常優異,從法國最好的學校畢業,你也曾在法國生技公司Bio Merieux工作過,當時要怎麼樣才能讓您留在法國
(美國Moderna生技公司執行長/班塞爾)
這個問題需要一個很長的答案,其實去美國就是為了接觸到來自哈佛的尖端科技
班塞爾簡短的回答是他沒有其他選擇,因為面對全球化競爭,德法兩國選擇了不同的發展路線,德國不僅是在疫苗的開發研究上,由BioNTech拿下全球第一,就是在未來疫苗的配送運輸上,德國看來也是穩坐第一。德國各地已經籌備了大約60個這樣的疫苗注射中心,全部裝備都來自德國中部的一家工廠:賓德(Binder),它是全球最大的冰櫃製造商。
(賓德冰櫃廠Binder工程師/彼得威默Peter Wimmer)
可以降到零下90度,這是超冷的溫度,在這樣的溫度下,我們可以確保疫苗不會受損
這些冰櫃每台售價約兩萬歐元,目前幾乎供不應求,負責疫苗存放的德國地方政府
早在幾個月之前就下了訂單,生產線的工人一直都在加班,來自全世界150個國家的訂單,讓賓德冰櫃應接不暇。
(賓德冰櫃CEO/彼得賓德)
交貨期限會被延長,我們的國外客戶將會面臨一種情況,就是疫苗已經到了,但是沒有冰櫃而無法配送
德國的疫苗第一,冰櫃第一,就連在兩者之間看似簡單的裝載疫苗的玻璃瓶,德國也繼續當仁不讓的拿下世界第一
(德國Schott集團媒體總監/Christina Rettig)
全世界目前所有新冠病毒,一共有超過一百多個的疫苗計畫,其中有75%依賴的是Schott的玻璃瓶
肖特Schott 是一家成立於130年前的德國企業,至今仍沿用創始人化學家Schott的名字,肖特家族在1890年開發出一種特質玻璃,能夠承受從攝氏零下80度至500度高溫的溫差變化而著稱,這個特殊的玻璃屬性對於疫苗保存極為重要。
(德國Schott集團媒體總監/Christina Rettig)
截至明年年底之前,我們將會提供20億個保存新冠疫苗的玻璃瓶
這些紮實而安靜的世界第一,都不是股票市場炒作的寵兒,也不是以高知名度搶盡頭條版面的科技新寵,但卻讓德國可以在生產外移的全球化趨勢中,仍然擁有完整製造業的優勢,一如這對默默研究了二十多年都沒有離開德國的學者夫妻,歷史也許會記得,是這對土耳其的移民夫妻在2020年的耶誕節前夕,拯救了全人類。
https://www.youtube.com/watch?v=MQTFUJESolw
創始版水冷電競機 在 Facebook 的精選貼文
「它將改變一切!」
DeepMind AI解決生物學50年來重大挑戰,破解蛋白質分子折疊問題。
本週振奮全球AI界的消息:Google旗下人工智能企業DeepMind發布了最新 AlphaFold成果,這是全球AI界無比振奮的重大科研突破。蛋白質存在於我們世界中的所有有機物體及奧妙人體中,全新的AlphaFold 算法揭秘了生物學界50年來試圖破解蛋白質分子折疊的難題,這項AI帶來的重大突破,將幫助科學家弄清某些困擾人們的疾病機制、加速找出新型流行病的具體原因(比如今年的全球新冠大流行),促進新藥設計、幫助農業增產、解析可有效降解廢棄物的嶄新成分、甚至探索為大氣減碳的全新解決方案。
我特別期待 AlphaFold 能為人類健康、環境生活推向更寬廣的可能性。在魔幻2020 最後一個月,這真是一個讓人懷抱希望的全新技術可能性,期待 AlphaFold之後締造更多 AI for Good 落地應用。
以下文章詳盡解釋了這項突破,內容經《機器之心》微信公眾號授權轉載。
▎生物學界最大的謎團之一,蛋白質折疊問題被 AI 破解了。
11 月 30 日,一條重磅消息引發了科技界所有人的關注:谷歌旗下人工智能技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子折疊問題。
最新一代算法 Alphafold 2,現在已經擁有了預測蛋白質 3D 折疊形狀的能力,這一複雜的過程對於人們理解生命形成的機制至關重要。
DeepMind 重大科研突破的消息一出即被《Nature》、《Science》等科學雜誌爭相報導,新成果也立刻獲得了桑達爾 · 皮查伊、伊隆 · 馬斯克等人的祝賀。
科學家們表示,Alphafold 的突破性研究成果將幫助科研人員弄清引發某些疾病的機制,並為設計藥物、農作物增產,以及可降解塑料的「超級酶」研發鋪平道路。
「這是該研究領域激動人心的一刻,」DeepMind 創始人、首席執行官德米斯 · 哈薩比斯說道。 「這些算法今天已經足夠成熟強大,足以被應用於真正具有挑戰性的科學問題上了。」
蛋白質對於生命至關重要,它們是由氨基酸鏈組成的大型複雜分子,其作用取決於自身獨特的 3D 結構。弄清蛋白質折疊成何種形狀被稱為「蛋白質折疊問題」。在過去 50 年裡,蛋白質折疊一直是生物學領域的重大挑戰。
DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。在今年的國際蛋白質結構預測競賽 CASP 中,DeepMind 開發的 AlphaFold 最新版本擊敗了其他選手,在準確性方面比肩人類實驗結果,被認為是蛋白質折疊問題的解決方案。這一突破證明了 AI 對於科學發現,尤其是基礎科學研究的影響。
在兩年一次的 CASP 競賽中,各組爭先預測蛋白質的 3D 結構。今年,AlphaFold 擊敗了所有其他小組,並在準確性方面與實驗結果相匹配。
對於不熟悉生物領域的人來說,CASP 的大名可能有些陌生——CASP 全稱 The Critical Assessment of protein Structure Prediction,旨在對蛋白質結構預測進行評估,被譽為蛋白質結構預測的奧林匹克競賽。 CASP 從 1994 年開始舉辦,每兩年一屆,目前正在進行的一屆是 11 月 30 日開始的 CASP14。
而 DeepMind 這一突破有什麼影響?
用哥倫比亞大學計算生物學家Mohammed AlQuraishi 在Nature 文章中的話來說,「可以說這將對蛋白質結構預測領域造成極大影響。我懷疑許多人會離開該領域,因為核心問題已經解決。這是一流的科學突破,是我一生中最重要的科學成果之一。」
▎蛋白質折疊問題
蛋白質的形狀與它的功能密切相關,而預測蛋白質結構對於理解其功能和工作原理至關重要。很多困擾全人類的重大問題(如尋找分解工業廢料的酶)基本上都與蛋白質及其扮演的角色有關。
多年以來,蛋白質結構一直是熱門的研究話題,研究者使用核磁共振、X 射線、冷凍電鏡等一系列實驗技術來檢測和確定蛋白質結構。但這些方法往往依賴大量試錯和昂貴的設備,每種結構的研究都要花數年時間。
1972 年,美國科學家 Christian Anfinsen 因「對核糖核酸酶的研究,特別是對其氨基酸序列與生物活性構象之間聯繫的研究」獲得諾貝爾化學獎。在頒獎禮上,他提出了一個著名的假設:從理論上來說,蛋白質的氨基酸序列應該可以完全決定其結構。這一假設引發了長達五十年的探索,即僅僅基於蛋白質的一維氨基酸序列計算出其三維結構。
但這一思路的挑戰在於,在形成三維結構之前,蛋白質的理論折疊方式是一個天文數字。 1969 年,Cyrus Levinthal 指出,如果使用蠻力計算的方式來枚舉一種蛋白質可能存在的構象,要花費的時間甚至比宇宙的年齡還要長。 Levinthal 估計,一種蛋白質大約存在 10^300 種可能構象。但在自然界中,蛋白質會自發折疊,有些只需幾毫秒,這被稱為 Levinthal 悖論。
CASP 14 比賽最新結果:AlphaFold 中位 GDT 高達 92.4
CASP 競賽由 John Moult 和 Krzysztof Fidelis 兩位教授於 1994 年創立,每兩年進行一次盲審,以促進蛋白質結構預測方面的新 SOTA 研究。
一直以來,CASP 選擇近期才經過實驗確定的蛋白質結構,作為參賽團隊測試其蛋白質結構預測方法的目標(有些結構即使在評估時仍然處於待確定狀態)。這些蛋白質結構不會事先公佈,參賽者也必須對其結構進行盲測,最後將預測結果與實驗數據進行對比。正是基於這種嚴苛的評估原則,CASP 一直被稱為預測技術評估方面的「黃金標準」。
CASP 衡量預測準確率的主要指標是 GDT(Global Distance Test),範圍從 0 到 100,可以理解為預測的氨基酸殘基在正確位置閾值距離內的百分比。 John Moult 教授表示,GDT 分數在 90 分左右,即可視為對人類實驗方法具備競爭力。
在剛剛公佈的第14 屆CASP 評估結果中,DeepMind 的最新AlphaFold 系統在所有預測目標中的中位GDT 達到92.4,意味其平均誤差大概為1.6 埃(Angstrom),相當於一個原子的寬度(或0.1納米)。即使在難度最高的自由建模類別中,AlphaFold 的中位 GDT 也達到了 87.0。
歷屆 CASP 競賽自由建模類別中預測準確率中位數的提升情況,度量指標為 BEST-OF-5 GDT。
CASP 競賽自由建模類別中的兩個目標蛋白質示例。 AlphaFold 能夠預測出高度準確的蛋白質結構。
這些令人振奮的結果開啟了生物學家使用計算結構預測作為科研主要工具的時代。 DeepMind 提出的方法對於某些重要的蛋白質類別尤其有用,例如膜蛋白(membrane protein)。膜蛋白很難結晶,因此很難通過實驗方法來確定其結構。
該計算工作代表了在蛋白質折疊這一具備 50 年曆史的生物學問題上的驚人進展,比該領域人士成功預測蛋白質折疊結構早了幾十年。我們將很興奮,它能從多個方面對生物學研究帶來基礎性改變。 ——Venki Ramakrishnan 教授(諾貝爾獎得主,英國皇家學會會長)
▎DeepMind 這樣解決蛋白質折疊問題
2018 年,DeepMind 團隊使用初始版 AlphaFold 參加 CASP13 比賽,取得了最高的準確率。之後,DeepMind 將 CASP13 方法和相關代碼一併發表在 Nature 上。而現在,DeepMind 團隊開發出新的深度學習架構,並使用該架構參加 CASP14 比賽,達到了空前的準確率水平。這些方法從生物學、物理學、機器學習,以及過去半個世紀眾多科學家在蛋白質折疊領域的工作中汲取靈感。
我們可以把蛋白質折疊看作一個「空間圖」,節點表示殘基(residue),邊則將殘基緊密連接起來。這個空間圖對於理解蛋白質內部的物理交互及其演化史至關重要。對於在 CASP14 比賽中使用的最新版 AlphaFold,DeepMind 團隊創建了一個基於注意力的神經網絡系統,並用端到端的方式進行訓練,以理解圖結構,同時基於其構建的隱式圖執行推理。該方法使用進化相關序列、多序列比對(MSA)和氨基酸殘基對的表示來細化該圖。
通過迭代這一過程,該系統能夠較強地預測蛋白質的底層物理結構,並在幾天內確定高度準確的結構。此外,AlphaFold 還能使用內部置信度度量指標判斷預測的每個蛋白質結構中哪一部分比較可靠。
DeepMind 團隊在公開數據上訓練這一系統,這些數據來自蛋白質結構數據庫(PDB)和包含未知結構蛋白質序列的大型數據庫,共包括約 170,000 個蛋白質結構。該系統使用約 128 個 TPUv3 內核(相當於 100-200 個 GPU)運行數週,與現今機器學習領域出現的大型 SOTA 模型相比,該系統所用算力相對較少。
此外,DeepMind 團隊透露,他們準備在適當的時候將這一 AlphaFold 新系統相關論文提交至同行評審期刊。
AlphaFold 主要神經網絡模型架構概覽。該模型基於進化相關的蛋白質序列和氨基酸殘基對運行,迭代地在二者的表示之間傳遞信息,從而生成蛋白質結構。
▎對現實世界的潛在影響
「讓 AI 突破幫助人們進一步理解基礎科學問題」,經過 4 年的研究攻關,現在 AlphaFold 正在逐步實現 DeepMind 初創時的願景,在藥物設計和環境可持續性等領域都產生了重要的影響。
馬克斯· 普朗克演化生物學研究所所長,CASP 評估員Andrei Lupas 教授表示:「AlphaFold 的精確模型讓我們解決了近十年來被困擾的蛋白質結構,重新啟動關於信號如何跨細胞膜傳輸的研究。 」
DeepMind 表示願與其他研究者合作,以進一步了解 AlphaFold 在未來幾年的潛力。除了作用於經過同行評審的論文以外,DeepMind 還在探索如何以最佳的可擴展方式為系統提供更廣泛的訪問可能。
同時,DeepMind 的研究者還研究了蛋白質結構預測如何幫助人們理解一些特殊的疾病。例如,通過幫助識別存在故障的蛋白質,並推斷其相互作用的方式,來理解一些疾病的原理。這些信息能夠讓藥物開發更加精確,從而補充現有的實驗方法,並更快找到更有希望的治療方法。
AlphaFold 是十分卓越的,它在預測結構蛋白質的速度和精度上有著驚人的表現。這一飛躍證明了計算方法對於生物學中的轉換研究,加速藥物研發過程都具有廣闊的前景。
同時許多證據也表明,蛋白質結構預測在未來的大流行應對上是有用的。今年早些時候,DeepMind 使用 AlphaFold 預測了包括 ORF3a 在內的幾種未知新冠病毒蛋白質結構。在 CASP14 中,AlphaFold 預測了另一種冠狀病毒蛋白質 ORF8 的結構。目前,實驗人員已經證實了 ORF3a 和 ORF8 的結構。儘管具有挑戰性,並且相關序列很少,但與實驗確定的結構相比,AlphaFold 在兩種預測上都獲得了較高的準確率。
除了加速對已知疾病的了解,AlphaFold 還具備很多令人興奮的技術潛力:探索數億個目前還沒有模型的數億蛋白質,以及未知生物的廣闊領域。由於 DNA 指定了構成蛋白質結構的氨基酸序列,基因組學革命使大規模閱讀自然界的蛋白質序列成為可能——在通用蛋白質數據庫(UniProt)中有 1.8 億個蛋白質序列。相比之下,考慮到從序列到結構所需的實驗工作,蛋白質數據庫(PDB)中只有大約 170000 個蛋白質結構。在未確定的蛋白質中可能有一些新的和未確定的功能——就像望遠鏡幫助人類更深入的觀察未知宇宙一樣,像 AlphaFold 這樣的技術可以幫助找到未確定的蛋白質結構。
▎開創新的可能
AlphaFold 是 DeepMind 迄今為止取得的最重要進展之一,但隨著後續科學研究的開展,依然有很多問題尚待解決。 DeepMind 預測的結構並非全部都是完美的。還有很多要學習的地方,包括多蛋白如何形成複合體,如何與 DNA、RNA 或者小分子交互,以及如何確定所有氨基酸側鏈的精確位置。此外,在與他方合作的過程中,還需要學習如何以最好的方式將這些科學發現應用在新藥開發以及環境管理方式等諸多方面。
對於所有致力於科學領域中計算和機器學習方法的人而言,像 AlphaFold 這樣的系統彰顯了 AI 作為基礎探索輔助工具的驚人潛力。正如 50 年前 Anfinsen 提出的遠超當時科研能力所及的挑戰一樣,這個世界依然有諸多未知的方面。
DeepMind 取得的這一進展令人們更加堅信,AI 將成為人類擴展科學知識邊界的最有用工具之一,同時也期待未來多年的艱苦工作能夠帶來更偉大的發現。
影片及原文,參考 DeepMind官方部落客 https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology