📰 엔터 시장 겨누는 엔비디아 … 오디오 AI 공개
오디오 생성모델 '푸가토'
피아노 선율을 사람 노래로
말투·억양·엑센트도 바꿔
음악·게임 콘텐츠 제작 유용
애니메이션서 캐릭터까지
다양한 엔터용 AI 선보여
엔비디아가 25일(현지시간) 명령어만으로 목소리를 변조하고 세상에 없던 새로운 소리를 만들 수 있는 인공지능(AI) 오디오 생성 모델인 '푸가토(Fugatto)'를 공개했다.
푸가토는 '기본 생성형 오디오 변환 작품 1번(Foundational Generative Audio Transformer Opus 1)'의 머리글자를 따서 명명했다. 엔비디아의 설명에 따르면 이 모델은 영화, 비디오게임 등 콘텐츠 제작에 유용하게 쓰일 수 있다. 브라이언 캐턴자로 엔비디아 응용 딥러닝 연구부사장은 "생성형 AI는 음악, 비디오게임, 무언가를 만들고자 하는 일반인들에게 새로운 기능을 제공할 것"이라고 설명했다.
엔비디아에 따르면 푸가토는 사용자가 텍스트와 오디오를 입력하면 생성형 AI 모델을 통해 여러 소리를 합성해 원하는 소리를 만들어준다. 주요 기능으로는 '텍스트로 오디오 생성' '오디오 변환 및 생성' 등이 있다. 텍스트로 오디오 생성 기능은 푸가토에 명령어를 입력하면 소리를 만들어준다.
엔비디아의 AI 음악·오디오 새 모델이 기존 기술과 다른 점은 피아노로 연주된 선율을 사람의 노랫소리로 전환하거나 녹음된 음성의 악센트나 말투, 분위기를 바꿀 수 있는 것이라고 로이터는 전했다.
푸가토는 우선 독립적으로 훈련된 명령을 조합해 실행하며, 생성되는 소리의 억양 강도나 감정 깊이를 세밀하게 조정할 수 있다. '프랑스 억양의 슬픈 감정으로 말하는 음성'처럼 복합적인 명령을 AI가 이해하고 작업을 수행할 수 있다는 것이다. 두 번째로 시간 변화에 따른 특정 조건을 적용해 '천둥이 치는 폭풍우가 멈추고 점차 새소리가 들리는 새벽 소리'와 같은 명령이 가능하다. 마지막으로 훈련 데이터에 없는 완전히 새로운 소리도 만들 수 있다.
엔비디아가 공개한 예시에선 사용자가 '거대하고 지각이 있는 기계가 깨어나는 소리처럼 간헐적이고 고음이 높은 디지털음과 결합된 깊고 시끄러운 저음'이란 명령어를 입력하자 푸가토는 공상과학 영화에서나 들을 수 있을 법한 윙윙거림으로 시작해 고음의 현악 또는 금속성 소리를 만들어냈다. 이런 추상적인 주문 외에도 좀 더 구체적인 지시를 할 수 있다. 가령 '기차가 지나가는 소리를 만들고 이 소리가 현악 오케스트라 소리로 변하게 해줘'라는 명령어를 입력하자 푸가토는 경적을 울리며 달리는 기차 소리로 시작해 이를 자연스럽게 현악 소리로 변환해 연결시켰다.
오디오에서 소리를 분할하는 기능도 제공한다. 노래에서 반주를 제거하고 가수의 목소리만을 따로 분리해낸다. 기존 오디오에 새로운 악기를 더하거나 새로운 것으로 바꿀 수도 있다. 피아노 반주를 여성 가수의 목소리로 변환할 수 있으며, 음악 스타일도 오페라에서 팝으로 변경할 수 있다.
엔비디아는 이날 공개한 논문을 통해 푸가토를 교육하는 데 BBC 음향 효과 라이브러리 등 이미 공개된 수많은 데이터를 사용했다고 밝혔다. 공개된 데이터를 사용했다는 점을 강조한 것은 최근 업계에서 논란이 되고 있는 저작권 위반을 의식한 것으로 추정된다.
그럼에도 푸가토의 공식 출시 일정은 미정이다. 엔비디아가 사람의 음성이나 음향을 새롭게 만들거나 수정할 수 있는 푸가토의 기능에 윤리적 부담감을 느끼기 때문이라는 관측이 나온다. 캐턴자로 연구부사장은 "모든 기술 발전에는 사람들이 이를 사용해 우리가 원치 않는 것을 만들 수 있는 위험이 따른다"며 "이에 대해 주의해야 하기 때문에 즉각 제품을 선보이지는 않을 것"이라고 강조했다.
엔비디아는 푸가토 외에도 엔터테인먼트 분야에서 활용할 수 있는 생성형 AI를 선보여왔다. 캐릭터 얼굴 애니메이션을 음성 입력만으로 생성해주는 '오디오투페이스', 음성 입력을 기반으로 사실적인 애니메이션을 만들어주는 '오디오투제스처', 디지털 아바타 제작용 AI 서비스인 '옴니버스 에이스', 음성 인식과 합성을 위한 실시간 대화형 음성 AI를 지원하는 '리바' 등이 대표적이다.
🔍 추가 조사한 내용
푸가토(Fugatto)
텍스트와 오디오 입력만으로 다양한 소리와 음악을 생성하고 변환할 수 있는 차세대 생성형 AI 오디오 모델
주요 기능
- 텍스트 기반 오디오 생성
- 사용자가 입력한 텍스트 명령을 통해 새로운 소리를 만들어냅니다.
- 예: "거대한 기계가 깨어나는 소리" 같은 추상적인 요청을 입력하면 디지털적인 저음과 고움이 조화를 이루는 독창적인 소리를 생성할 수 있습니다.
- 단순한 소리뿐 아니라 특정 장면이나 분위기를 표현하는 사운드스케이프(Soundscape)를 제작할 수도 있습니다.
- 오디오 변환
- 기존 음성의 억양, 감정, 악센트를 자유롭게 변경할 수 있습니다.
- 예: 영어 대사를 프랑스 억양으로 변환하거나 목소리의 감정을 "슬픔"으로 설정하는 등 세부적인 조정이 가능합니다.
- 음악 편집 및 변환
- 음악에서 특정 악기를 제거하거나 새로운 악기를 추가할 수 있습니다.
- 피아노 연주를 여성 보컬로 변환하거나 클래식 스타일의 곡을 팝 스타일로 바꾸는 작업도 손쉽게 가능합니다.
- 시간 변화에 따른 소리 생성
- 소리가 시간에 따라 자연스럽게 변화하도록 설계할 수 있습니다.
- 예: “천둥소리가 점점 잦아들고 새소리가 들리는 새벽의 소리”를 생성하여 영화나 게임의 특정 장면에 적합한 사운드를 제작할 수 있습니다.
- 독창적인 소리의 창작
- 기존 데이터에 없는 완전히 새로운 소리도 창조할 수 있습니다.
- 공상과학 영화에서 들릴 법한 복합적이고 독특한 사운드를 제작하는 것도 가능합니다.
기술적 세부 사항
- 훈련 데이터: BBC 음향 효과 라이브러리 등 다양한 공공 데이터를 활용해 훈련되었습니다.
- 세부 조정: 사용자는 생성된 소리의 억양, 강도, 감정의 깊이 등을 섬세하게 조정할 수 있어, 요구사항에 맞는 결과물을 얻을 수 있습니다.
- 대규모 모델: 2.5억 개 이상의 매개변수를 기반으로, 복잡한 소리와 음향 변화를 학습하고 이를 활용할 수 있는 고도화된 모델입니다.
🔗 연관 링크
Now Hear This: World’s Most Flexible Sound Machine Debuts
💡 현직자에게 할 질문
기술 및 구현 관련
- 제가 조사한 바에 따르면 푸가토는 사용자가 텍스트로 입력한 명령어를 바탕으로 새로운 소리를 생성할 수 있다고 합니다. 예를 들어, "기차 소리가 현악 오케스트라 소리로 전환되는 사운드"를 만드는 사례가 있던데요. 이런 복합적인 작업에서 텍스트 명령어를 이해하고 이를 소리로 변환하는 과정에서 AI 모델이 사용하는 핵심 기술적 메커니즘은 무엇인가요? 특정한 문맥(예: "슬픈 기차 소리")을 처리할 때 모델이 문장의 감정적 요소를 해석하는 방식도 궁금합니다.
- 푸가토가 억양, 감정, 악센트를 변환할 수 있다고 알고 있습니다. 하지만 이런 변환 작업이 이루어질 때 실제 인간이 들었을 때 자연스럽다고 느끼는 품질을 보장하기 위해 어떤 평가 지표를 사용하시나요? 특히 "프랑스 억양의 슬픈 감정"처럼 다차원적인 변환 요청의 경우 모델의 정확도를 어떻게 평가하고 조정하나요?
- "천둥소리가 멎고 새소리가 들리는 새벽" 같은 소리를 생성할 수 있다고 들었습니다. 이런 시간의 흐름을 반영한 소리를 생성할 때 모델은 어떤 데이터 구조나 알고리즘을 사용하나요? 생성된 사운드스케이프가 영화나 게임에 적용될 때 지속적인 조작이 가능한지, 아니면 고정된 결과물로 제공되는지도 궁금합니다.
- 푸가토가 BBC 음향 효과 라이브러리와 같은 데이터를 활용했다고 알고 있습니다. 이 데이터를 기반으로 훈련된 모델이 일반화 문제를 겪지 않도록 하기 위해 어떤 보완 작업을 하셨나요? 또한, 훈련 데이터가 없던 새로운 소리를 생성할 때 푸가토가 이를 유의미하게 만들어내는 데 사용하는 기술적 접근법은 무엇인가요?
- 푸가토의 기능이 실시간으로도 적용 가능한지 궁금합니다. 실시간 오디오 변환(예: 라이브 스트리밍 중 억양 변환)이 가능하다면, 이런 작업에서 처리 속도를 최적화하기 위해 어떤 기술을 적용하셨나요?
비즈니스 및 시장 관련
- 아직 푸가토의 공식 출시 일정은 정해지지 않았다고 알고 있습니다. 상용화 준비 과정에서 주요 타깃 시장이나 협업하고 있는 콘텐츠 제작사가 있는지, 혹은 베타 테스트를 진행 중인 사례가 있으면 알려주실 수 있을까요? 상용화 후 라이선스 방식(예: 구독형, API 제공 등)에 대해 고민 중인 방향성이 궁금합니다.
윤리 및 규제 관련
- 생성형 AI 기술이 악용될 가능성에 대해 엔비디아가 신중하게 접근하고 있는 점이 인상 깊습니다. 푸가토처럼 다양한 음향을 생성하고 변형할 수 있는 AI가 저작권 문제나 악용 사례를 방지하기 위해 어떤 구체적인 윤리적 기준을 적용하고 있나요? 예를 들어, 특정 인물의 목소리를 모방하거나 민감한 콘텐츠 제작 시 사전에 걸러낼 수 있는 시스템이 마련되어 있나요?
- 훈련 데이터가 공개된 데이터라는 점을 강조했지만, 생성된 결과물의 저작권은 사용자와 엔비디아 중 누구에게 귀속되나요? 또한, 푸가토가 생성한 결과물이 기존 음향 데이터와 유사할 경우 잠재적인 저작권 침해 문제를 방지하기 위한 기술적 대책은 무엇인가요?
'취준 > 경제신문스크랩' 카테고리의 다른 글
[한국경제] 웨어러블 로봇 입고 車 조립…"어깨 관절 힘 40%만 썼다" (1) | 2024.11.29 |
---|---|
[매일경제] “딥페이크 차단”…정부, AI 안전확보 나섰다 (0) | 2024.11.28 |
[매일경제] 에이슬립, 오픈AI 손잡고 '수면비서' 첫선 (1) | 2024.11.26 |
[매일경제] "10분 뒤 비올지 알려드립니다" 내년 장마철부터 AI예보 뜬다 (0) | 2024.11.25 |
[매일경제] AI가 알아서 딱 골라주니 웹툰 매출 '쑥' (0) | 2024.11.18 |