音樂創作,也需要新的 AI 生產力。
作者|甘德
編輯|鄭玄
網易雲音樂上,一支叫 The Velvet Sundown 的樂隊,沒有頭像,沒有介紹,關注人數不到 100 人,但這支樂隊的一首《dust on the wind》卻有著很高的討論度:有聽眾在說這首歌的旋律走向有點過時,更挑剔的耳朵覺得這首歌的人聲和混音一眼難盡,但也有人覺得聽感相當不錯。最熱的一條評論像是這番熱鬧場景的一個注腳——
「前排圍觀 Spotify 最火的 AI 樂隊。」
單曲《dust on the Wind》播放量迅速突破百萬,成績亮眼。但 The Velvet Sundown 樂隊的歌曲產量、甚至專輯封麵、社交媒體都給人一種不真實的感覺,專業音頻檢測工具 Ircam Amplify 對其歌曲進行分析,結果顯示 13 首音軌中有 10 首被判定為「100% AI 生成」,並鎖定其背後製作工具為 Suno V4。著名的音樂網站 Deezer 直接在專輯頁標注「AI 生成」警示。
樂隊最終扛不住壓力,悄然更新 Spotify 簡介,承認其為「人類創意引導、AI 技術支持作曲與視覺的合成項目」,並自稱為「介於人類與機器之間的存在」。
實錘一出,輿論嘩然。爭議之中,也有人看到了事情的另一麵。
「當聽眾分不清AI和人類作品卻仍然為之著迷時,AI 音樂的拐點就到了。」電音製作人 David Guetta 曾經的觀點在這場風波中頻頻得到回響。
The Velvet Sundown 在 Spotify 上的爆火和被質疑,是今年生成式 AI 與音樂領域產生交集的一個標誌性事件。
大模型在這兩年裏的迅速發展,似乎也把音樂行業推向了一個生產力變革的關鍵階段,中文 AI 音樂當然也在等待著一個關鍵玩家。
在 The Velvet Sundown 的網易雲評論裏,也有聽眾留言「相當不錯,中文歌也需要這樣的 AI」。
——並非沒有。比如聽聽這首。
如果這首音樂作品放在你的每日歌單裏,它並不會顯得很特別。因為這聽起來就是一首配器、編曲和人聲都還算不錯,融合了爵士和放克元素的普通流行歌。但就是因為它太像一首由音樂人創作出的流行樂,當得知這首歌是 100% 由 AI 製作的(The Velvet Sundown 一直強調的也隻是 AI「參與」),作為一個自我感覺算是挑剔的普通聽眾,我肅然起敬。
或許国产AV蜜桃网站正處在這個拐點附近了。這首《回眸》背後的原創歌手、演奏團隊、混音師,是 MiniMax 自研的音樂模型 MiniMax Music 1.5。
01
強大的 MiniMax Music 1.5
MiniMax Music 1.5 最突出的特點是,它能支持一首 4 分鍾時長的完整歌曲生成。
與此前多數 AI 音樂生成產品,生成的音樂時長往往局限在 90 秒以內,MiniMax Music 1.5 將生成歌曲的長度拉長到了 4 分鍾。這意味著 MiniMax Music 1.5 能夠獨立完成具備「引入-主歌-副歌-橋-結尾」完整結構的音樂作品,而這一點,MiniMax Music 1.5 在輸入框中寫成了 guideline。
基於模型強大的語義理解能力,MiniMax Music 1.5 展現出了出色的曲風宏觀控製、人聲建模以及樂器拓展能力,來幫助創作者刻畫自己的音樂表現方式。
歌曲風格的宏觀控製在音樂特征麵板中分成「風格」、「情緒」和「場景」三個維度來進行刻畫。
風格(style)中提供了 16 種曲風選擇,分別是:流行, 民謠, R&B, 嘻哈, 都市, 搖滾, 爵士, 電子, 古典, 迪斯科, 雷鬼, 布魯斯, 鄉村, 實驗, 世界, 民族
情緒(Mood)中包含 11 個選項,可精準定義歌曲情感,如放鬆、浪漫或是充滿激情,甚至更細膩的渴望、受啟發等微妙的情緒。
場景(Scenario)是一個頗具創意的功能,用戶可選擇音樂適用的具體場景,如「雨夜」、「海邊落日」、「深夜酒吧」或「孤獨漫步」。係統會據此調整混響、節奏和樂器編排,營造沉浸式氛圍感。一共提供了 10 種場景。
這意味著在音樂特征中一共有 1760(16*11*10)種組合方式,比如我嚐試了一下「布魯斯」、「放鬆」和「獨自漫步」的搭配。可以感覺的出 MiniMax Music 1.5 將三個維度的音樂特征融合的非常自然,整首歌不同部分的過渡也顯得一氣嗬成。
在人聲方麵,MiniMax Music 1.5 產品的官方介紹中表示,MiniMax Music 1.5 對人聲唱腔發音技巧進行了建模,幾乎每一次生成的音樂都帶著不同的音色和唱腔。在我多次的音樂生成體驗中,隨著歌詞和音樂風格的變化,人聲也會適時的變化來與音樂風格適配,比如下麵這首《Gravity》中流行爵士的男聲:
或者這首偏向民謠男嗓的《長街》:
除此之外,此次 MiniMax Music 1.5 極大地豐富了可生成的樂器音色,甚至可以加入很多中國小眾樂器的聲音元素。
在音樂生成的控製力提升之外,MiniMax Music 1.5 在音樂性上也有了大幅度提升。這主要體現在三個方麵:
人聲自然度
編曲層次感
結構動態化
它十分了解一首入耳的好音樂是在追求什麽,比如在人聲自然度上的打磨。
生成不同聲線、唱腔的基礎上,MiniMax Music 1.5 的人聲生成已經接近真實的自然度。下麵這首《星光 all night》中和聲和主人聲都清晰動人。模型顯然對人聲唱腔、發音技巧進行了深度建模,生成的 vocal 不僅有清晰準確的咬字,還帶有真實的氣聲、顫音等細節,遠勝此前 AI 生成歌曲中常見的「機械電聲」。
編曲的層次感上,MiniMax Music 1.5 對樂器建模的的細粒度,形成了清晰的樂器層次,豐富的演奏技巧能夠被詮釋出來。也包括歌曲進程中動態變化的表現,歌曲在不同段落(如 Verse 和 Chorus)之間有明顯編排差異,樂器的入場與退出有序,而非簡單循環。
結構的動態則是音樂動人的靈魂。一首歌曲的框架通常由前奏(Intro)、主歌(Verse)、副歌(Chorus)、橋段(Bridge)和尾奏(Outro)等部分構成。出色的結構設計能夠使情緒張力層層推進,令人沉浸其中。以往的自動生成音樂中,不同段落之間往往缺乏清晰過渡,聽感連貫卻缺少變化。而 MiniMax Music 1.5 實現了真正意義上的段落區分:Intro 與 Verse 分明,Chorus 爆發力強,Outro 收尾流暢自然,最終營造出如敘事般豐富而有層次的聽覺體驗。
比如下麵這首,豐富的結構編排讓整首歌非常有畫麵感。
在功能設置上,MiniMax Music 1.5 設置了簡單模式(Simple)和高級模式(Advanced)兩種模式,簡單模式通過自然語言實現「一句話生全曲」,高級模式可通過插入歌詞段落編輯來豐富全曲結構,讓生成更加細膩精巧。
在高級模式的輸入框中,MiniMax Music 1.5 在淺色的 guideline 中標出了引入、主歌、副歌、橋、結尾這五個結構,你可以按照提示把自己的歌詞分成五個部分填寫進去。歌詞的上下文長度達到了 3000 個 tokens,也就是 1500 個漢字。一首《洛神賦》才不到一千字,這個上下文長度的長限遠遠超過了平均一首歌的字數,哪怕你想寫一首林子祥的《十分十二寸》。
整個音樂的創作過程,隻需要一篇結構合適的歌詞和一些很輕盈的點擊操作,這實在是非常輕鬆有趣的過程,特別是對於我這種從未接觸過音樂創作的人來說,簡直愛不釋手。
02
一個更好用的「庫樂隊」
創作出好音樂一定並不輕鬆,但音樂創作應該也可以從一個輕鬆的事情開始。
近日,AI 音樂生成公司 Suno AI 的首席執行官米奇·舒爾曼在一次播客訪談中提出,多數人並不享受創作音樂的過程,反而認為這是一項耗時且繁瑣的任務。他指出,音樂創作需要大量時間和練習,掌握樂器或軟件的門檻讓許多人感到沮喪。
米奇·舒爾曼的言論顯然因為有他自己的動機,也自然收獲罵聲一片。一位 X 平台用戶罵得挺狠:「技術公司在藝術領域似乎總是陷入自己的敘事中。」還有人說舒爾曼根本不了解音樂創作,同時缺乏足夠的反思精神。
但某種程度,米奇·舒爾曼講的確實不無道理。我——一個隻聽歌但不懂樂理知識的人——聽到的第一反應,是一些很痛苦的經曆,關於手機裏那個無用卻又不甘心刪掉的庫樂隊。
我對庫樂隊的感情如此複雜。
我幾乎點過了所有的樂器,每一個都動一榔頭西一棒槌的試過,就說吉他吧,六根琴弦倒是清晰可見,但我根本不知道手指該虛擬地「按」在何處。胡亂拖動那些看上去很專業的和弦圖表,結果隻是一連串沉悶的「噗噗」聲,像在撥弄一根根濕漉漉的橡皮筋。我甚至找到了弦樂選項,試圖製造點恢弘氣氛,手指在屏幕上胡亂揉動,結果製造出的是一種介於鋸木頭和蚊子哭訴之間的詭異聲響。
更不要說那些效果器旋鈕。「混響」、「延遲」、「失真」……每個詞我都認識,但旋轉它們時發生的變化卻神秘如煉金術。
最終它沒有降低音樂製作的門檻,隻是本就擅長器樂的音樂人有了一個隨時可以簡單錄製 demo 的工具。
所以當我聽到 Suno AI 的 CEO 這樣的狂妄言論,甚至覺得有幾分道理。而當我進一步試了試 Music 1.5,我發現它天馬行空的創作能力和音樂質量,甚至已經可以對標 Suno 4。
我摘了幾句讓子彈飛的台詞輸入 MiniMax Music 1.5,但是生成的時候忘記選擇風格選了自動。台詞是這樣的:
「我就是想站著,把錢掙了。」 「我來鵝城隻辦三件事:公平!公平!還是他媽的公平!」 「其實你和錢對於我都不重要,重要的是『沒有你』對我很重要。」 「如果你活著,早晚都會死;如果你死了,你就永遠活著。」 「一個土匪的名字叫牧之,人們更願意相信他叫麻子,人們特別願意相信,他的臉上應該長著麻子。」
這台詞野性十足,神奇的是,MiniMax Music 1.5 自動選擇了非常硬核的說唱曲風。並且由於我提供的台詞非常短,模型在後半段生成了一段略微失真風格的 loop 來持續整首歌氛圍感的塑造。這種對歌詞的理解和情緒遞進的把握已經處理得非常微妙。
於是我有了一個更得寸進尺的想法,給它一段《羅密歐與朱麗葉》裏陽台上的一段劇本。
這個片段以極致的詩意與熾熱的傾慕,描繪了羅密歐對朱麗葉的瞬間癡迷與靈魂悸動。羅密歐在夜色中窺見朱麗葉,將她比作奪目的「太陽」與「最燦爛的星」,甚至願化作她手上的手套親近她。他既渴望得到回應,又怯於唐突驚擾,展現了他內心的熱烈與克製。
沒想到,MiniMax Music 1.5 真的體會到了這個片段背後那種近乎神聖的崇拜與青春的純粹激情,和一些內心糾結和猶豫混合的底色,然後選擇了「r&b」、「浪漫」和「私人感」三個特征來表現這種情緒。
David Guetta 的那句話不斷在腦中回響,也許 AI 音樂的拐點真的到了。
03
或許 AI 音樂的拐點真的到了
再遲鈍的聽眾,也會感覺到從去年開始,AI 生成技術正在越來越頻繁的出現在主流音樂的視野裏。
今年 4 月音樂平台 Deezer 新增上傳內容中,AI 生成的音樂占比已高達 18%,爭議和抨擊當然是首先出現的。但另一種逐漸共存的姿態也出現了。
幾天前瑞典音樂版權組織 STIM 推出了一項新許可證。該許可證允許人工智能公司合法使用受版權保護的歌曲來訓練其模型。同時,該機製確保詞曲作者和作曲家能夠因此獲得報酬。此舉旨在應對生成式 AI 在創意產業中的廣泛應用,及其引發的版權訴訟。
就在 STIM 的這項新許可證推出前一個星期,來自英國的音樂創作者 imoliver 與獨立唱片公司 Hallwood Media 簽下合約,成為業界首位與唱片公司簽約的「AI 音樂人」。imoliver 本職是一名視覺設計師,完全沒有任何音樂背景,他甚至不太會唱歌。
這讓人想到此前非常出圈的「AI 孫燕姿」。
兩年前「AI 孫燕姿」背後的創作者嚐試把人聲這個音樂呈現中最獨特的環節交給 AI,但這其中仍然有非常高的技術甚至模型部署門檻。兩年後,隨著各個維度的門檻降低,整個音樂創作過程都開始走向 AI 化了。
音樂產業中的各個細分領域正在出現越來越多 AI 的生產工具甚至音樂人,而在一個把音樂作為要素的更廣泛的市場上,MiniMax Music 1.5 的出現意味著一個完全沒有版權風險的音樂素材庫。
值得一提的是,MiniMax Music 1.5 有了 Suno 所不具備的 API 能力,這意味著它的創作能力有更多的靈活性往其他音樂生產和消費的場景流通。
為影視、遊戲、短視頻快速生成主題曲或 BGM;
為企業品牌生成專屬音頻內容;
為家人、朋友慶祝時定製專屬歌曲;
而且我沒想到用 MiniMax Music 1.5 生成音樂可以這麽便宜。
Suno v3.5 的單價大概是 0.3 元,Suno v4.5 的價格則是它上一代產品的兩倍。而效果媲美 Suno 的 MiniMax Music 1.5 單價僅為 Suno 的一半不到。這意味著 MiniMax Music 1.5 在保證高質量音樂產出的同時,進一步降低了其作為一種工具的使用門檻,也讓音樂創作過程有了更多的調整和試錯空間。
AI 能力融入音樂創作過程,並不意味著創作者交出了對於音樂的主導權。這一點,音樂創作和 coding 反而有些相似之處。
代碼也可以被看作是一個非常高門檻的創作語言,但 coding 正在經曆一個從曾經代碼全部手寫,到現在不再成為實現業務所必須跨越的一種技術門檻。任何人在理清了業務邏輯之後,都完全可以把 coding 部分讓給 AI 來完成。與理性的代碼語言相比,音樂無疑是一種更感性的表達媒介。用 prompt 語言來進行音樂創作之後,也同樣是一種門檻降低,讓更多人可以跨過樂器和樂理的障礙。兩者實際上正沿著相似的軌跡演進。
回想幾十年前合成器的誕生,隨後電子琴和庫樂隊以及各種采樣工具的出現,再到近年來算法與芯片取代琴弦、被嵌入吉他箱體——音樂創作的曆史,本來就是一部對於音樂創作本身的解構史。
AI 生成音樂與當下音樂生產工業之間的摩擦和靈感在很長一段時間內都會持續發生。但可以確定的是,音樂創作怎樣用好 AI 生成能力,是未來所有音樂創作者的命題,不是困境。
而現在目前市麵上最好的音樂 AI 工具,已經擺在眼前了。
*頭圖來源:視覺中國
本文為極客公園原創文章,轉載請聯係極客君微信 geekparkGO
極客一問
你如何看待 MiniMax Music 1.5?
馬斯克:利用 Neuralink 未來可達全身機械化。
點讚關注極客公園視頻號,p>