3월에는 짧은 텍스트 프롬프트에서 필요에 따라 사실적인 노래를 생성하는 생성형 AI를 사용하는 '음악용 ChatGPT'인 수노(Suno)가 출시되었다. 몇 주 후, 비슷한 경쟁자인 유디오(Udio)가 등장했다.
나는 지난 15년 동안 연구자이자 프로듀서로서 다양한 창작 컴퓨팅 도구를 사용해 왔으며, 최근 변화의 속도에 놀라움을 금치 못했다. 다른 글에서 주장했듯이, AI 시스템이 인간처럼 '진짜' 음악을 만들 수 없다는 견해는 기술적 능력보다는 사회적 맥락에 대한 주장으로 이해해야 한다.
"물론 인간의 감정을 자극할 수 있는 표현력 있고 복잡한 구조의 자연스럽고 기교적인 독창적인 음악을 만들 수는 있지만, 인공지능은 제대로 된 음악을 만들 수 없다"는 주장은 몬티 파이썬의 스케치처럼 들리기 쉽다.
나는 수노와 유디오를 사용하면서 이 두 서비스가 정확히 무엇을 변화시키는지, 그리고 프로와 아마추어 아티스트가 음악을 만드는 방식뿐만 아니라 우리 모두가 음악을 소비하는 방식에 어떤 의미가 있는지 생각해 보았다.
감정을 느끼지 않고 감정 표현하기
텍스트 프롬프트에서 오디오를 생성하는 것 자체는 새로운 것이 아니다. 하지만, 간단한 텍스트 프롬프트에서 노래 가사를 생성하고(ChatGPT와 유사한 텍스트 생성기를 사용하여), 이를 생성 음성 모델에 공급하고, 생성된 음악과 '보컬'을 통합하여 일관된 노래 구간을 생성하는 수노와 유디오는 분명한 발전을 이루어냈다.
이 통합은 작지만 놀라운 성과다. 이 시스템은 표현적으로 "노래"하는 것처럼 들리는 일관된 노래를 구성하는 데 매우 능숙하다.
그 효과는 기괴할 수 있다. 인공지능이라는 것을 알지만, 여전히 목소리에 감정이 실려 있다. 음악이 새로운 마디로 완벽하게 끝나는 급회전(pirouette)을 연주할 때, 내 뇌는 훌륭한 밴드를 들을 때 느낄 수 있는 패턴 처리의 작은 기쁨을 얻는다.
이는 음악적 표현에서 때때로 놓칠 수 있는 부분을 강조한다: AI는 감정과 삶의 사건을 경험하지 않아도 사람들의 공감을 불러일으키는 음악으로 성공적으로 표현할 수 있다.
일상 언어로서의 음악
다른 생성형 AI 제품과 마찬가지로, 수노와 유디오는 실제 인간에 의해 방대한 양의 기존 작업을 학습했으며, 이러한 인간의 지적 재산권에 대해 많은 논쟁이 벌어지고 있다.
그럼에도 불구하고 이러한 도구는 주류 AI 음악 문화의 시작을 알리는 신호탄이 될 수 있다. 사람들이 사용하고, 탐색하고, 가지고 놀고, 실제로 즐기면서 듣고 싶어하는 새로운 형태의 음악적 참여를 제공한다.
'엔드 투 엔드' 음악 제작이 가능한 인공지능은 음악 제작자를 위한 기술이 아니라 음악 소비자를 위한 기술임에 틀림없다. 현재로서는 유디오와 수노의 사용자가 제작자인지 소비자인지, 또는 그 구분이 유용한지 여부는 아직 불분명하다.
창조적인 기술 분야에서 오랫동안 관찰된 현상은 무언가를 더 쉽고 저렴하게 제작할 수 있게 되면서 더 일상적인 표현에 사용된다는 것이다. 그 결과, 스마트폰이 사진에 끼친 영향을 생각해보자. 사진이라는 매체는 고급 예술 형식에서 일상 언어에 가깝게 변화하고 있다.
아버지의 생일을 맞아 최소한의 비용과 노력으로 아버지가 선호하는 스타일로 전문적으로 제작한 노래를 현대판 생일 카드에 담아 보낼 수 있다고 상상해 보라. 연구원들은 오랫동안 이러한 상황을 고려해왔고 이제 우리는 그것을 할 수 있다. “생일 축하해요, 아빠!”
통제 없이 창작할 수 있는가
이러한 시스템이 달성한 것이 무엇이든, 그리고 가까운 미래에 달성할 수 있는 것이 무엇이든, 통제력 부족이라는 명백한 한계에 직면해 있다.
텍스트 프롬프트는 특히 음악에서 정확한 지침으로 그다지 좋지 않은 경우가 많다. 따라서 이러한 도구는 가능성의 공간을 헤매는 일종의 블라인드 검색에는 적합하지만 정확한 제어에는 적합하지 않다.(그렇다고 해서 그 가치를 깎아내리려는 것은 아니다. 블라인드 검색은 강력한 창의력을 발휘할 수 있다.)
현직 음악 프로듀서로서 이러한 도구를 바라보면 상황이 매우 달라 보인다. 유디오의 소개 페이지에는 "곡, 가사 또는 재미있는 아이디어만 있으면 누구나 음악으로 자신을 표현할 수 있다"고 나와 있지만, 나는 이 도구로 자신을 표현하기에 충분한 제어력을 가지고 있지 않다고 느낀다.
샘플이나 현장 기록처럼 조작을 위한 원재료의 씨앗을 뿌리는 데 유용하다는 것을 알 수 있다. 하지만 나를 표현하고자 할 때는 제어가 필요하다.
수노를 사용하면서 내가 얻을 수 있는 가장 거칠고 어두운 테크노 그루브(기술상의 홈)를 찾는 재미가 쏠쏠했다. 그 결과 트랙에 꼭 사용할 만한 곡이 탄생했다.
하지만 나는 그냥 기꺼이 들을 수도 있다는 것을 알았다. 무언가를 추가하거나 결과를 조작하여 내 표시를 추가해야 한다는 강박이 전혀 느껴지지 않았다.
그리고 많은 관할권에서는 AI를 통해 무언가를 만들어냈다는 이유만으로 저작권을 인정하지 않는다고 선언했다.
우선, 결과물은 수백만 명의 다른 아티스트의 창작 작업을 포함하여 AI에 들어간 모든 것에 달려 있다. 틀림없이 여러분은 창작 작업을 하지 않았다. 단순히 요청만 했을 뿐이다.
생산과 소비 사이 미지의 영역에서 새로운 음악적 경험
따라서 누구나 음악으로 자신을 표현할 수 있다는 유디오의 선언은 흥미로운 도발이다. 수노나 유디오와 같은 도구를 사용하는 사람들은 음악 AI 작품의 창작자라기보다는 음악 AI 경험의 소비자로 간주될 수도 있고, 많은 기술적 영향과 마찬가지로 새로운 개념이 필요할 수도 있다.
레코딩 음악의 시대가 도래하면서 한때 복잡하고 박자감이 풍부하며 시끄러운 음악을 들을 수 있는 유일한 방법이었던 오케스트라 음악이 사라진 것처럼, 생성 음악으로의 전환은 현재의 음악 문화 형태에서 관심을 끌 수 있다. 이러한 새로운 유형의 음악 문화와 교류에 대한 참여가 폭발적으로 증가하면 아티스트, 밴드, 라디오, 플레이리스트 등 전통적인 음악 소비에 대한 참여가 줄어들 수 있다.
어떤 영향을 미칠지 말하기는 너무 이르지만, 우리는 주의를 기울여야 한다. 중요한 도덕적 권리 문제인 기존 창작자의 지적 재산권 보호를 위한 노력도 이 방정식의 일부다.
그러나 인공지능이 성공하더라도 잠재적으로 폭발적인 문화의 변화를 근본적으로 해결하지는 못할 것이며, 그러한 음악이 열등하다는 주장 역시 오래 전 테크노나 재즈와 마찬가지로 역사적으로 문화 변화를 막는 데 거의 영향을 미치지 못했다고 생각한다. 정부의 인공지능 정책은 이러한 문제를 넘어 음악이 사회적으로 어떻게 작용하는지 이해하고 우리의 음악 문화가 개인과 커뮤니티 모두에게 활기차고 지속 가능하며 풍요롭고 의미 있는 것이 되도록 해야 할 것이다.
[번역] 신현원
- 덧붙이는 말
-
올리버 본(Oliver Bown)은 창의적인 기술을 다루는 연구자이자 제작자다. 사회인류학, 진화 및 적응 시스템, 음악 정보학, 인터랙션 디자인 등 매우 다양한 학문적 배경을 가지고 있으며 15년 이상 전자 음악과 디지털 아트 분야에서 경력을 쌓아왔다. 그는 예술가, 디자이너, 뮤지션이 첨단 컴퓨팅 기술을 활용해 복잡한 창작물을 제작하는 방법에 관심이 많다. 현재 활발히 연구하고 있는 분야는 미디어 다중성, 음악적 메타창작, 컴퓨팅 창의성의 이론과 방법론, 음악적 표현을 위한 새로운 인터페이스, 사회적 창의성을 위한 다중 에이전트 모델 등이다. 뉴사우스웨일스대학교 예술디자인대학의 부교수이며 인터랙티브 미디어 랩의 공동 디렉터이자 연구 및 참여 부서의 공동 디렉터이기도 하다.










