AI 將可快速分離人聲、各式樂器等音源,Facebook 開源 Demucs 計畫
作者 雷鋒網 | 發布日期 2020 年 03 月 11 日 10:59 |
音樂源分離,是利用技術將一首歌曲分解成它的組成成分,如人聲、低音和鼓,這和人類大腦的工作很類似,大腦可以將一個單獨的對話,從周圍的噪音和一屋子的人聊天中分離出來。
如果你擁有原始的錄音室多軌錄音,這很容易實現,你只需調整混音來分離一個音軌,但是,如果你從一個普通 MP3 檔案開始,所有的樂器和聲音都被混合到一個立體聲錄音中,即使是最複雜的軟體程式也很難精確地挑出一個部分。
Facebook AI 的研究人員已經開發了一個系統,可以做到這一點──精確度高得驚人。
創建者名叫亞歷山大‧笛福茲(Alexandre Defossez),是 Facebook 人工智慧巴黎實驗室的科學家。笛福茲的系統被稱為 Demucs,這個名字來源於「音樂資源深度提取器」,其工作原理是檢測聲波中的複雜模式,對每種樂器或聲音的波形模式建立一個高層次的理解,然後利用人工智慧將它們巧妙地分離。
笛福茲說,像 Demucs 這樣的技術,不僅能幫助音樂家學習複雜的吉他即興重複段落,總有一天,它還能讓人工智慧助理在嘈雜的房間裡更容易聽到語音指令。笛福茲說,他的目標是讓人工智慧系統擅長辨識音頻源的組成部分,就像它們現在可以在一張照片中準確地區分不同的物體一樣。「我們在音頻方面還沒有達到同樣的水平。」他說。
分解聲波的更好方法
聲源分離長期以來一直吸引著科學家。1953 年,英國認知科學家科林‧切爾瑞(Colin Cherry)創造了「雞尾酒會效應」這個詞語,用來描述人類在擁擠嘈雜的房間裡專注於一次談話的能力。
工程師們首先試圖透過調整立體聲錄音中的左右聲道,或調整均衡器設置來提高或降低某些頻率,進而隔離歌曲的人聲或吉他聲。
基於聲譜圖的人工智慧系統,在分離出以單一頻率響起或共振的樂器的音符方面相對有效,例如鋼琴或小提琴旋律。
這些旋律在聲譜圖上顯示為清晰、連續的水平線,但是隔離那些產生殘餘噪音的撞擊聲,比如鼓、低音拍擊,是一項非常艱鉅的任務。鼓點感覺像一個單一的、即時的整體事件,但它實際上包含了不同的部分。對於鼓來說,它包括覆蓋較高頻率範圍的初始撞擊,隨後是在較低頻率範圍內的無音高衰減。笛福茲說,一般的小鼓「就頻率而言,到處都是」。
聲譜圖只能將聲波表現為時間和頻率的組合,無法捕捉到這樣的細微差別。因此,他們將鼓點或拍子低音處理成幾條不連續的垂直線,而不是一個整齊、無縫的聲音。這就是為什麼透過聲譜圖分離出來的鼓和低音軌道,聽起來常常是模糊不清的。
夠聰明的系統來重建缺失
基於人工智慧的波形模型避免了這些問題,因為它們不試圖將一首歌放到時間和頻率的僵化結構中。笛福茲解釋,波形模型的工作方式與電腦視覺相似,電腦視覺是人工智慧的研究領域,旨在讓電腦學會從數位圖像中辨識模式,進而獲得對視覺世界的高級理解。
電腦視覺使用神經網路來檢測基本模式──類似於在圖像中發現角落和邊緣──然後推斷更高級或更複雜的模式。「波形模型的工作方式非常相似」,笛福茲說。他解釋了波形模型如何需要幾秒鐘來適應歌曲中的突出頻率──人聲、低音、鼓或吉他──並為每一個元素生成單獨的波形。然後,它開始推斷更高比例的結構,以增加細微差別,並精細雕刻每個波形。
笛福茲說,他的系統也可以比做探測和記錄地震的地震儀。地震時,地動儀的底座會移動,但懸掛在上面的重物不會移動,這使得附著在重物上的筆可以畫出記錄地面運動的波形。人工智慧模型可以探測到同時發生的幾個不同地震,然後推斷出每個地震的震級和強度的細節。同樣,笛福茲的系統分析並分離出一首歌曲的本來面目,而不是根據預先設定的聲譜圖結構來分割它。
笛福茲解釋,構建這個系統需要克服一系列複雜的技術挑戰。他首先使用了 Wave-U-Net 的底層架構,這是一個為音樂源分離開發的早期人工智慧波形模型。然後他還有很多工作要做,因為聲譜圖模型的表現優於 Wave-U-Net。他透過添加線性單元來微調波形網路中分析模式的演算法參數。笛福茲還增加了長短期記憶,這種結構允許網路處理整個數據序列,如一段音樂或一段視頻,而不僅是一個數據點,如圖像。笛福茲還提高了 Wave-U-Net 的速度和記憶體使用率。
這些修改幫助 Demucs 在一些重要方面勝過 Wave-U-Net,比如它如何處理一種聲音壓倒另一種聲音的問題。「你可以想像一架飛機起飛,引擎噪音會淹沒一個人的聲音」,笛福茲說。
以前的波形模型,透過簡單地移除原始音頻源文件的一部分來處理這個問題,但是它們不能重建丟失材料的重要部分。笛福茲增強了 Demucs 解碼器的能力,「Demucs 可以重新創建它認為存在但卻迷失在混音中的音頻」,這意味著他的模型可以重新合成可能被響亮的鐃鈸聲影響而遺失的柔和鋼琴音符,因為它理解應該呈現什麼樣的聲音。
這種重構和分離的能力使 Demucs 比其他波形模型有優勢。笛福茲說,Demucs 已經與最好的波形技術相匹配,並且「遠遠超出」最先進的聲譜技術。
在盲聽測試中,38 名參與者從 50 首測試曲目中隨機抽取 8 秒鐘進行聽音,這 50 首曲目由 3 個模型分開:Demucs、領先波形、頻譜圖技術。聽眾認為 Demucs 在品質和無偽影(如背景噪音或失真)方面表現最佳。
Demucs 已經引起了人工智慧愛好者的興趣,精通技術的讀者可以從 GitHub 下載 Demucs 的代碼,代碼用 MusDB 數據集來分離音樂源。
笛福茲解釋,隨著 Demucs 的發展,它將為人們在家中創作音樂的數位音頻工作站帶來聲音的真實性。這些工作站提供了能夠喚起特定時代或風格的合成儀器,通常需要對原始硬體進行大量的數位化改造。
想像一下,如果音樂源分離技術能夠完美地捕捉 20 世紀 50 年代搖滾歌曲中用電子管放大器演奏的老式空心電吉他的聲音,Demucs 讓音樂愛好者和音樂家離這個能力更近了一步。
資料來源:https://technews.tw/2020/03/11/using-ai-for-music-source-separation/?fbclid=IwAR1C-0LhFNEkIFUg9QS3xRQK8VKeqKIkPEx9kh7QdGamcsCfUViwyeXyqXg
「單聲道立體聲差別」的推薦目錄:
單聲道立體聲差別 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文
AI 將可快速分離人聲、各式樂器等音源,Facebook 開源 Demucs 計畫
作者 雷鋒網 | 發布日期 2020 年 03 月 11 日 10:59 |
音樂源分離,是利用技術將一首歌曲分解成它的組成成分,如人聲、低音和鼓,這和人類大腦的工作很類似,大腦可以將一個單獨的對話,從周圍的噪音和一屋子的人聊天中分離出來。
如果你擁有原始的錄音室多軌錄音,這很容易實現,你只需調整混音來分離一個音軌,但是,如果你從一個普通 MP3 檔案開始,所有的樂器和聲音都被混合到一個立體聲錄音中,即使是最複雜的軟體程式也很難精確地挑出一個部分。
Facebook AI 的研究人員已經開發了一個系統,可以做到這一點──精確度高得驚人。
創建者名叫亞歷山大‧笛福茲(Alexandre Defossez),是 Facebook 人工智慧巴黎實驗室的科學家。笛福茲的系統被稱為 Demucs,這個名字來源於「音樂資源深度提取器」,其工作原理是檢測聲波中的複雜模式,對每種樂器或聲音的波形模式建立一個高層次的理解,然後利用人工智慧將它們巧妙地分離。
笛福茲說,像 Demucs 這樣的技術,不僅能幫助音樂家學習複雜的吉他即興重複段落,總有一天,它還能讓人工智慧助理在嘈雜的房間裡更容易聽到語音指令。笛福茲說,他的目標是讓人工智慧系統擅長辨識音頻源的組成部分,就像它們現在可以在一張照片中準確地區分不同的物體一樣。「我們在音頻方面還沒有達到同樣的水平。」他說。
分解聲波的更好方法
聲源分離長期以來一直吸引著科學家。1953 年,英國認知科學家科林‧切爾瑞(Colin Cherry)創造了「雞尾酒會效應」這個詞語,用來描述人類在擁擠嘈雜的房間裡專注於一次談話的能力。
工程師們首先試圖透過調整立體聲錄音中的左右聲道,或調整均衡器設置來提高或降低某些頻率,進而隔離歌曲的人聲或吉他聲。
基於聲譜圖的人工智慧系統,在分離出以單一頻率響起或共振的樂器的音符方面相對有效,例如鋼琴或小提琴旋律。
這些旋律在聲譜圖上顯示為清晰、連續的水平線,但是隔離那些產生殘餘噪音的撞擊聲,比如鼓、低音拍擊,是一項非常艱鉅的任務。鼓點感覺像一個單一的、即時的整體事件,但它實際上包含了不同的部分。對於鼓來說,它包括覆蓋較高頻率範圍的初始撞擊,隨後是在較低頻率範圍內的無音高衰減。笛福茲說,一般的小鼓「就頻率而言,到處都是」。
聲譜圖只能將聲波表現為時間和頻率的組合,無法捕捉到這樣的細微差別。因此,他們將鼓點或拍子低音處理成幾條不連續的垂直線,而不是一個整齊、無縫的聲音。這就是為什麼透過聲譜圖分離出來的鼓和低音軌道,聽起來常常是模糊不清的。
夠聰明的系統來重建缺失
基於人工智慧的波形模型避免了這些問題,因為它們不試圖將一首歌放到時間和頻率的僵化結構中。笛福茲解釋,波形模型的工作方式與電腦視覺相似,電腦視覺是人工智慧的研究領域,旨在讓電腦學會從數位圖像中辨識模式,進而獲得對視覺世界的高級理解。
電腦視覺使用神經網路來檢測基本模式──類似於在圖像中發現角落和邊緣──然後推斷更高級或更複雜的模式。「波形模型的工作方式非常相似」,笛福茲說。他解釋了波形模型如何需要幾秒鐘來適應歌曲中的突出頻率──人聲、低音、鼓或吉他──並為每一個元素生成單獨的波形。然後,它開始推斷更高比例的結構,以增加細微差別,並精細雕刻每個波形。
笛福茲說,他的系統也可以比做探測和記錄地震的地震儀。地震時,地動儀的底座會移動,但懸掛在上面的重物不會移動,這使得附著在重物上的筆可以畫出記錄地面運動的波形。人工智慧模型可以探測到同時發生的幾個不同地震,然後推斷出每個地震的震級和強度的細節。同樣,笛福茲的系統分析並分離出一首歌曲的本來面目,而不是根據預先設定的聲譜圖結構來分割它。
笛福茲解釋,構建這個系統需要克服一系列複雜的技術挑戰。他首先使用了 Wave-U-Net 的底層架構,這是一個為音樂源分離開發的早期人工智慧波形模型。然後他還有很多工作要做,因為聲譜圖模型的表現優於 Wave-U-Net。他透過添加線性單元來微調波形網路中分析模式的演算法參數。笛福茲還增加了長短期記憶,這種結構允許網路處理整個數據序列,如一段音樂或一段視頻,而不僅是一個數據點,如圖像。笛福茲還提高了 Wave-U-Net 的速度和記憶體使用率。
這些修改幫助 Demucs 在一些重要方面勝過 Wave-U-Net,比如它如何處理一種聲音壓倒另一種聲音的問題。「你可以想像一架飛機起飛,引擎噪音會淹沒一個人的聲音」,笛福茲說。
以前的波形模型,透過簡單地移除原始音頻源文件的一部分來處理這個問題,但是它們不能重建丟失材料的重要部分。笛福茲增強了 Demucs 解碼器的能力,「Demucs 可以重新創建它認為存在但卻迷失在混音中的音頻」,這意味著他的模型可以重新合成可能被響亮的鐃鈸聲影響而遺失的柔和鋼琴音符,因為它理解應該呈現什麼樣的聲音。
這種重構和分離的能力使 Demucs 比其他波形模型有優勢。笛福茲說,Demucs 已經與最好的波形技術相匹配,並且「遠遠超出」最先進的聲譜技術。
在盲聽測試中,38 名參與者從 50 首測試曲目中隨機抽取 8 秒鐘進行聽音,這 50 首曲目由 3 個模型分開:Demucs、領先波形、頻譜圖技術。聽眾認為 Demucs 在品質和無偽影(如背景噪音或失真)方面表現最佳。
Demucs 已經引起了人工智慧愛好者的興趣,精通技術的讀者可以從 GitHub 下載 Demucs 的代碼,代碼用 MusDB 數據集來分離音樂源。
笛福茲解釋,隨著 Demucs 的發展,它將為人們在家中創作音樂的數位音頻工作站帶來聲音的真實性。這些工作站提供了能夠喚起特定時代或風格的合成儀器,通常需要對原始硬體進行大量的數位化改造。
想像一下,如果音樂源分離技術能夠完美地捕捉 20 世紀 50 年代搖滾歌曲中用電子管放大器演奏的老式空心電吉他的聲音,Demucs 讓音樂愛好者和音樂家離這個能力更近了一步。
資料來源:https://technews.tw/…/using-ai-for-music-source-separation/…
單聲道立體聲差別 在 李鼎的也不賴Leading Lee Facebook 的最佳貼文
「我始終認為聲音比影像更能引領觀眾融入故事」
這是電影導演 史蒂芬史匹柏
對於聲音在影像作品的一句一針見血的描述
我過去的每一部作品
都有幸跟很棒的音樂人合作
從「愛的發聲練習」跟范曉萱
「到不了的地方」跟V.K克
都有超乎想像的愉快與領略
而這三年的每一部作品都跟余政憲合作
收穫與突破更是滿到爆出來
因為政憲本是一個很棒的音效設計者
也有過人的音樂才華
所以當音效與音樂一起創作的時候
我們賦予影像中的表演與空間
就有了更多實驗與無限可能
但政憲跟所有從事這個行業的創作者一樣
是寂寞的
他們的努力與品味
不會第一時間被人看見
而他們的熱情與在崗位上的堅守
每每是我夜深人靜備感孤獨時的溫暖
過去三部跟余政憲誕生的作品
「#烏鴉燒」、「#大崎下」、「#憨嘉」
讓我們一起出席了不少頒獎典禮
更讓他在世界贏得了11項獎座
我們一起去新加坡的一次頒獎典禮
過程最為難忘
因為主辦單位邀約我參加一場演講
分享我創作的過程
參與的人員
全是亞洲各城市優秀且入圍的從業人員
我們從編導、選角與拍攝調度
做了深度的互動
如此無私的分享
卻在台灣很少有這樣的安排
那時我便跟心情激昂的余政憲說
或許有一天
我們應該在台灣
跟大家互動與交流這些內容
這才是促使大家進步的動力
也更能理解每個作品的層次
沒想到一回國
跟政憲又跑了許多校園場次
校園放映後
果然觀眾對於音樂與音效的設計
有非常多的好奇
觀眾其實可以知道一部作品在聲音的層次與品味
只是我們沒有機會讓他們說出來
好讓他們確認
他們所感受到的
沒想到
一向鼓勵台灣新銳電影創作的金穗獎
這次邀約了我跟政憲同台
甚至
將這個場次放在週日下午四點的熱門時段
更驚訝的是
給了我們「影廳」的設備規格
這讓我跟政憲
想好好地藉由這樣的設備
與大家分享立體聲與5.1聲道的創作差別
當然
也會像在新加坡時跟同業分享的無私
把導演跟音樂創作者溝通時的方法
告訴大家
這一次
我們將藉由
「烏鴉燒」、「大崎下」、「憨嘉」
以及最新公路電影作品「#我在台61」
為大家示範其中創作的過程
以及那些音樂跟音效同時能在電影中產生的魔法
與使用的技巧
歡迎所有喜歡這個行業的人參加
這場講座
跟金穗獎所有影片的索票方式一樣
將在3/10中午12:00
於全省7-11的ibon索票
期待跟大家的互動
以及在影廳重溫這些作品
充滿層次與想像的片段
#金穗獎
=========================
無私分享電影音樂與音效的魔法「影廳版」講座
當演員流下感人的眼淚與電影讓我們看見壯闊的場景,你覺得你耳邊想聽到的是音樂,還是聲歷其境的音效?甚至只希望一切無聲呢?
一部成功的影視作品「配樂」與「音效」往往扮演著「畫龍點睛」的角色。
榮獲國際與國內多項音樂音效設計的工作者—余政憲,近年他和李鼎導演陸續合作《憨嘉》、《大崎下》、《烏鴉燒》等多部各類型影像作品,作品中音樂與音效跟影像的搭配不僅入圍多項國外影展深受好評,在聲音的領域也獲得洛杉磯電影國際影展最佳長片配樂獎。
這對影音合作的好拍檔,將在講座中,透過「影廳」規格的示範與互動,還原其中設計的過程,讓你可以透過大銀幕與環場音效,理解其差異與操作方式,不只是一次實用的教學,更能品味出聲音跟創作甚至生活中的層次。
時間:3/22(日)16:00
地點:光點華山電影館2廳
來賓:余政憲(配樂)、李鼎(導演)
=========================
烏鴉燒:黃健瑋、姚以緹、安唯綾、白潤音、唐川 、廖苡喬、陳冠瑋 主演
https://youtu.be/M1Ruyrxatq0
大崎下:方文琳、徐韜、唐川、蘇炳憲 主演
https://youtu.be/_rXlavAgYYY
憨嘉:鄭人碩、李亦捷、楊鎮、陳慕義、吳佳珊、吳震亞
主演
https://youtu.be/b6zwazc2_zM
我在台61:李亦捷、楊鎮、福地祐介 主演
https://youtu.be/aaw3xT5Gat4
單聲道立體聲差別 在 TRS則可傳輸Stereo(左右兩聲道,立體音)、而TRRS又多了一個 ... 的推薦與評價
TS、TRS、TRRS這三類的主要差異請見圖表格所述,簡言之就是用數個絕緣環分隔數個傳輸不同聲道的金屬接點(Ring),TS僅可傳輸MONO訊號(單聲道或左右聲道合為一聲道)、TRS則可 ... ... <看更多>
單聲道立體聲差別 在 [新手問題]一個單體能同時播放左右聲道的聲音嗎? - Mobile01 的推薦與評價
例如小米的戶外藍牙喇叭,它裡面只有一個2吋全頻單體它收到的藍牙音訊,是發射端把2個聲道融合在一起再送出? 還是小米內建的功放板把雙聲道合成一個聲道再播放出來? 那會不 ... ... <看更多>
單聲道立體聲差別 在 單聲道與立體聲的差異比較(以校園鐘聲) - YouTube 的推薦與評價
我是透過「YouTube 影片編輯器」(http://www.youtube.com/editor) 建立這部影片. ... <看更多>