Google 開發了一個人工智慧模型,可以學習音頻與動作對應的關係,還可以基於音樂,生成的高質量 3D 動作序列。由於從音樂生成 3D 動作是一個新興的研究領域,Google 希望可以透過此項研究成果能為未來跨模組「音頻-3D 動作」的生成鋪道。
藉由這項研究,Google 還發布了迄今為止最大的 3D 人類舞蹈資料庫「AIST++」——具有多視角、多種舞蹈形式、跨模態的 3D 動作數據集,不僅對 3D 動作生成研究有幫助,一般來說,也對人類理解研究有極大的幫助。Google 將在GitHub中發布代碼,並在此處發布經過訓練的模型。
雖然此項結果給了這個「基於音樂來生成 3D 動作」的議題一個有希望的方向,但是還是有更多的東西仍需要探索:像是Google 所使用的方法是基於運動學的、並沒有將舞者和地板間的身體互動考慮進去。因此,如果進行全局平移的話,會導致如腳滑動和浮動的假影。因此,接下來的方向是要探索如何為每首音樂來生成多個逼真的舞蹈。
Google 使用上述的 AIST 資料庫,訓練 FACT 模型從音樂生成 3D 舞蹈。該模型會先使用動作轉換器與音頻轉換器,分別對一段音樂與一個短的(2 秒)種子動作(seed motion)進行編碼。之後再將嵌入碼連接、發送到跨模型轉換器,該轉換器學習兩種模型之間的對應關係,並且生成 N 個未來的動作序列。
Google 目前正在進行一項人工智慧研究,開發稱為「FACT (Full-Attention Cross-modal Transformer)」的模型,可以模仿、理解舞蹈動作,甚至可以提高個人的編舞能力。Google 研究團隊為了能夠有效率訓練該模型,也隨之發布一個大規模、多模態的 3D 舞蹈動作資料庫「AIST++」,包含長達 5.2 小時的 1408 個 3D 舞蹈動作序列,涵蓋 10 種舞蹈類型。都包含了已知相機位置的多視角影片,可以生成逼真流暢的 3D 舞蹈動作。
Google 提到:雖然隨著音樂節拍編排出動作,是人類的本能;然而舞蹈是「需要練習」的藝術形式。專業的舞者都需要經過大量的、包含各式各樣舞步的曲目來訓練,才有編舞能力。這樣的訓練,對人類來說已屬不容易;對 ML(Maching Learning,機器學習)來說更是難上加難。因為要使用人工智慧來實現編舞,需要生成動力複雜度高的連續動作,同時還要捕捉動作與配樂間的非線性關係。
人工智慧如何學舞?Google修正AIST舞蹈資料庫成教材
Google 從目前現有的AIST 舞蹈影片資料庫(一組帶有音樂伴奏的舞蹈影片,但是無任何 3D 信息)生成 3D 動作資料庫。AIST 包含 10 種舞蹈類型:Old School(地板舞 Breaking、機械舞 Popping、鎖舞 Locking 和 Waack)以及 New School(Middle Hip-Hop、LA-style Hip-Hop、House、Krump、Street Jazz 和 Ballet Jazz),雖然包含了許多舞者的多視角影片,但是鏡頭都沒有經過校準。 Google 依研究人員的需求,根據常用的SMPL 3D模型參數,修復 AIST 影片的拍攝校準正後的數值和 3D 人體動作,重建為「AIST++ 數位資料庫」,包含與音樂搭配的各種 3D 動作,並將上述十種舞蹈均勻地呈現在動作中、以每分鐘節拍 (BPM) 為單位涵蓋各種音樂節奏。每種舞蹈類型都含 85% 的基本動作和 15% 的進階動作(舞者自由設計的更長編舞)。
在南非專利局受理之前,DABUS 這項專利曾經慘遭美國專利商標局、歐洲專利局、英國知識產權局和澳大利亞專利局駁回。美國法官表示「對於 AI 機器在專利法下是否有資格成為創作者,明確的答案就是『不行』」。他認為,由於科技發展日新月異,未來 AI 細緻複雜的程度可能媲美公認的發明人資格,但是「這樣的時刻尚未到來。一旦時機來臨,將由國會決定如何擴大專利法的適用範圍。」
「DABUS」為「device for the autonomous bootstrapping of unified sentience」的縮寫,直譯即「統一感知自動引導裝置」,此系統研發者為美國 AI 專家塞勒 (Stephen Thaler),並提出「當人工智慧滿足發明人的標準時,人工智慧發明的專利申請應將人工智慧列為發明人」。DABUS 使用廣泛的人工神經系統創建專利,透過自己累積的學習經驗來構思發明。
數字王國長期鑽研如何做出逼真的虛擬角色,並將之稱為「虛擬人」。利用 AI 機器學習技術與特效技術融合在一起,數字王國曾讓許多已過世的名人「復活」── 如在2013 年,數字王國就透過人工智慧生成容貌逼真的影像,讓傳奇歌手鄧麗君於周杰倫的演唱會中閃亮登場,甚至能讓其開口歌唱,並表演全新的內容,讓粉絲大為驚嘆。
例如:手機訊號品質會受到空氣中的溫度、濕度的變化而受到影響,如下雨的時候訊號會特別差,Tomorrow.io 便與電信公司合作,偵測手機基地台與用戶手機之間連接的訊號品質,除了能藉此推算出該區域的天氣,藉由 AI 分析這些訊號及天氣變化的資料後,即可用於預測天候,甚至可以預測哪些地方會出現降雨、歷時多久和雨量大小等資訊。