Google 開發了一個人工智慧模型,可以學習音頻與動作對應的關係,還可以基於音樂,生成的高質量 3D 動作序列。由於從音樂生成 3D 動作是一個新興的研究領域,Google 希望可以透過此項研究成果能為未來跨模組「音頻-3D 動作」的生成鋪道。
藉由這項研究,Google 還發布了迄今為止最大的 3D 人類舞蹈資料庫「AIST++」——具有多視角、多種舞蹈形式、跨模態的 3D 動作數據集,不僅對 3D 動作生成研究有幫助,一般來說,也對人類理解研究有極大的幫助。Google 將在GitHub中發布代碼,並在此處發布經過訓練的模型。
雖然此項結果給了這個「基於音樂來生成 3D 動作」的議題一個有希望的方向,但是還是有更多的東西仍需要探索:像是Google 所使用的方法是基於運動學的、並沒有將舞者和地板間的身體互動考慮進去。因此,如果進行全局平移的話,會導致如腳滑動和浮動的假影。因此,接下來的方向是要探索如何為每首音樂來生成多個逼真的舞蹈。
Google 使用上述的 AIST 資料庫,訓練 FACT 模型從音樂生成 3D 舞蹈。該模型會先使用動作轉換器與音頻轉換器,分別對一段音樂與一個短的(2 秒)種子動作(seed motion)進行編碼。之後再將嵌入碼連接、發送到跨模型轉換器,該轉換器學習兩種模型之間的對應關係,並且生成 N 個未來的動作序列。
Google 目前正在進行一項人工智慧研究,開發稱為「FACT (Full-Attention Cross-modal Transformer)」的模型,可以模仿、理解舞蹈動作,甚至可以提高個人的編舞能力。Google 研究團隊為了能夠有效率訓練該模型,也隨之發布一個大規模、多模態的 3D 舞蹈動作資料庫「AIST++」,包含長達 5.2 小時的 1408 個 3D 舞蹈動作序列,涵蓋 10 種舞蹈類型。都包含了已知相機位置的多視角影片,可以生成逼真流暢的 3D 舞蹈動作。
Google 提到:雖然隨著音樂節拍編排出動作,是人類的本能;然而舞蹈是「需要練習」的藝術形式。專業的舞者都需要經過大量的、包含各式各樣舞步的曲目來訓練,才有編舞能力。這樣的訓練,對人類來說已屬不容易;對 ML(Maching Learning,機器學習)來說更是難上加難。因為要使用人工智慧來實現編舞,需要生成動力複雜度高的連續動作,同時還要捕捉動作與配樂間的非線性關係。
人工智慧如何學舞?Google修正AIST舞蹈資料庫成教材
Google 從目前現有的AIST 舞蹈影片資料庫(一組帶有音樂伴奏的舞蹈影片,但是無任何 3D 信息)生成 3D 動作資料庫。AIST 包含 10 種舞蹈類型:Old School(地板舞 Breaking、機械舞 Popping、鎖舞 Locking 和 Waack)以及 New School(Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz 和 Ballet Jazz),雖然包含了許多舞者的多視角影片,但是鏡頭都沒有經過校準。 Google 依研究人員的需求,根據常用的SMPL 3D模型參數,修復 AIST 影片的拍攝校準正後的數值和 3D 人體動作,重建為「AIST++ 數位資料庫」,包含與音樂搭配的各種 3D 動作,並將上述十種舞蹈均勻地呈現在動作中、以每分鐘節拍 (BPM) 為單位涵蓋各種音樂節奏。每種舞蹈類型都含 85% 的基本動作和 15% 的進階動作(舞者自由設計的更長編舞)。