📰 AI가 딥페이크 목소리 분간해 피싱 막는다
LG유플 가짜 음성 판별기술
AI에이전트 '익시오' 탑재
"보이스피싱 판별 정확도 95%"
음성만으로 신원 확인하고
각종 가전 제어에 활용 전망
"엄마, 이 계좌로 빨리 1000만원 보내줘."
최근 LG유플러스 마곡 사옥에서 만난 박지웅 스피치기술팀장은 이 같은 내용의 목소리를 두 번 들려줬다. 집중해서 들었지만 첫 번째와 두 번째 목소리의 차이를 느끼지 못했다. 하지만 실상은 놀라웠다. 첫 번째는 박 팀장 목소리였고, 두 번째는 컴퓨터가 박 팀장의 음성을 똑같이 재현한 '딥페이크 음성'이었기 때문이다. 박 팀장은 "사람마다 지문처럼 고유하게 보유하고 있는 '성문(聲紋)'을 인공지능(AI)이 인식해 진짜 음성과 가짜 음성을 가려낼 수 있는 기술을 개발했다"면서 "이를 통해 음성을 복제해 금품을 갈취하는 신종 보이스피싱 범죄를 원천 방지할 수 있다"고 강조했다.
LG유플러스는 최근 딥페이크 음성을 탐지하는 '보이스 안티스푸핑(가짜 음성 판별)' 기술 개발을 완료하고 올해 상반기 내 AI 통화 에이전트 '익시오'에 탑재한다고 30일 밝혔다.
박 팀장은 "AI 기술을 활용해 실시간 통화에서도 가짜 음성을 판별할 수 있도록 했다"며 "안티스푸핑 정확도는 95% 이상으로 집계될 만큼 정확하다"고 말했다. 먼저 안티스푸핑 기술을 통해 실제 사람이 말하고 있는지 진위를 가려내고, 그 뒤로 화자 음성인식 기술을 활용해 대화의 흐름과 단어 선택에 보이스피싱 위험성이 있는지 판단하기 때문에 정확도가 높다고 덧붙였다. 특히 이 기술은 음성 정보를 서버로 별도로 전송하지 않는 이른바 '온디바이스' 환경에서 가동되기 때문에 통신비밀보호법 등 현행법에 저촉되지 않는다. 온디바이스 기술로 음성 안티스푸핑 기술을 개발해 상용화에 성공한 것은 LG유플러스가 전 세계에서 최초다.
회사 측에 따르면 아이폰 운영체제 iOS17 이상 버전부터 탑재할 수 있는데, 스마트폰 기기로는 아이폰12 이후 시리즈에 충분히 활용할 수 있는 수준이다. LG유플러스 관계자는 "익시오의 안드로이드 버전 애플리케이션은 올해 1분기 안으로 출시할 것"이라고 밝혔다.
LG유플러스가 음성 AI 기술 개발에 매진한 것은 다양한 사업에 활용할 수 있기 때문이다. 최근 AI 기술은 텍스트를 기반으로 가동하는 모델에서 멀티모달 AI로 무게중심이 빠르게 이동하고 있다. LG유플러스 멀티모달 AI 기술이 특정인의 미묘한 성문 차이까지 판별해 딥페이크 음성을 탐지하는 수준에 오르자 LG그룹은 다양한 분야에서 이를 활용할 계획인 것으로 알려졌다. 박 팀장은 "자체적인 음성 AI 기술은 2021년부터 개발에 착수했다"면서 "지난해 화자별로 목소리를 구분하고 식별할 수 있는 '화자인식' 기술을 개발했으며 상용화를 앞두고 있다"고 설명했다. 이 기술을 활용하면 단순히 성문 인식을 넘어 특정 인물이 말할 때 속도, 억양, 성조를 다르게 하더라도 이를 같은 텍스트로 결과 값을 도출할 수 있다. 이 과정에서 음성 AI 기술이 활용되는데, 이는 IPTV 셋톱박스 등에서 다양하게 활용될 수 있다. 만약 LG유플러스 셋톱박스에 특정 인물의 음성을 등록해 놓고 집으로 돌아와서 대화를 통해 명령하면 다양한 기능을 수행할 수 있다. 이는 LG전자가 제조한 다양한 가전제품을 음성을 통해 가동할 수 있는 사물인터넷(IoT)에도 접목할 수 있어 활용도가 높다.
LG유플러스 관계자는 "고객센터가 별도로 주민등록번호 입력 등 본인 인증 과정을 거치지 않고도 음성만으로 신원을 확인할 수 있도록 할 것"이라고 말했다.
✍ 정리
LG유플러스가 딥페이크 음성을 탐지하는 '보이스 안티스푸핑' 기술을 개발해 AI 통화 에이전트 '익시오'에 탑재한다. 이 기술은 성문(聲紋) 인식을 통해 가짜 음성을 95% 이상의 정확도로 판별하며, 온디바이스 환경에서 작동해 개인정보 보호법을 준수한다. LG유플러스는 이 기술을 보이스피싱 방지뿐만 아니라 음성 기반 IoT 가전 제어 및 고객센터 인증에도 활용할 계획이다.
1. 보이스피싱 방지 기술 개발
- LG유플러스가 딥페이크 음성을 탐지하는 ‘보이스 안티스푸핑’ 기술을 개발
- AI가 성문(聲紋) 분석을 통해 진짜와 가짜 음성을 95% 이상의 정확도로 판별
- 보이스피싱 등 음성 기반 금융 사기를 원천 차단 가능
2. 온디바이스 환경에서 운영
- 음성 데이터를 서버로 전송하지 않고, 스마트폰 내에서 판별
- 통신비밀보호법 등 현행법 위반 없이 안전하게 사용 가능
- iPhone iOS 17 이상 및 아이폰12 이후 기종에서 사용 가능
- 안드로이드 버전도 올해 1분기 출시 예정
3. 다양한 활용 가능성
- 음성 AI 기술을 활용한 고객센터 본인 인증 시스템 구축 계획
- 가전제품 및 IoT 기기 제어 기능으로 확장 가능
- LG전자의 가전 제품과 연계해 스마트홈 환경 조성
4. 멀티모달 AI 기술 발전
- LG유플러스는 2021년부터 음성 AI 기술 개발 진행
- 화자인식 기술 개발로 특정 인물의 음성을 구별 가능
- 억양·속도·성조 변화에도 동일 인물의 음성을 인식할 수 있음
🔍 추가 조사: 딥페이크 음성(Deepfake Voice) 탐지 기술
1. 딥러닝(Deep Learning) 기반 음성 합성 기술
- TTS(Text-to-Speech) 기술 발전
- 2017년 구글의 Tacotron 모델이 등장하며 자연스러운 음성 합성이 가능해짐
- DeepMind의 WaveNet 모델이 등장하며 고품질 음성 샘플 생성
- 최신 TTS 모델들은 GPT와 같은 트랜스포머 기반 모델을 활용하여 종단간 음성 합성이 가능
- 보이스 컨버전(Voice Conversion) 기술
- 음성 특성을 변형하여 다른 사람처럼 들리게 하는 기술
- AI 비서, 영화 더빙, 음성 스푸핑 방지 등에 활용
- 최근 딥러닝 기술 발전으로 더욱 정교한 변환 가능
2. 딥페이크 음성의 악용 사례
- 보이스피싱: 가족이나 직장 상사의 목소리를 변조해 금전을 요구
- 가짜 뉴스: 전쟁, 정치적 혼란을 조성하기 위해 유명 인사의 딥페이크 음성 사용
- 불법 선거 개입: 선거 직전에 후보자의 딥페이크 음성을 이용한 여론 조작
- 투자 사기: 유명인의 변조된 음성을 활용하여 신뢰도를 높이고 투자 유도
- 목소리 도용: 연예인의 음성을 무단으로 사용하여 광고나 AI 서비스에 활용
3. 딥페이크 음성 탐지 기술 동향
- ASVspoof 챌린지
- 자동 화자 검증(ASV, Automatic Speacker Verification) 연구자들이 딥페이크 탐지 기술 연구 시작하여 2015년부터 ASVspoof 챌린지를 시작
- 2019년 이후 딥페이크 음성 탐지가 주요 연구 주제로 부상
- 2024년 ASVspoof 5 챌린지에서는 다양한 탐지 회피 기법과 노이즈 적용
- 탐지 성능 평가 지표
- EER(Equal Error Rate, 등오류율): 탐지 오류율을 측정하는 대표적인 지표
- FAR(False Acceptance Rate): 가짜 음성을 진짜로 인식하는 비율
- FRR(Ralse Rejection Rate): 진짜 음성을 가짜로 거부하는 비율
- 프런트엔드 기술
- 전통적탐인 신호처리 기반 방법
- MFCC(Mel-Frequency Ceptral Coefficients), LFSS(Linear Frequency Ceptral Coefficients) 등 사용
- 딥페이크 음성은 고주파 성분이 다르므로 이를 이용해 탐지
- 딥러닝 기반 특징 추출 기술
- Wav2vec: 대규모 음성 데이터에서 음향적 특징을 학습하여 탐지 성능 향상
- 기존의 신호 처리 방식보다 높은 탐지 성능을 보임
- 전통적탐인 신호처리 기반 방법
- 백엔드 기술
- AASIST(Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks)
- 주파수 및 시간적 특징을 학습하여 딥페이크 여부 판단
- 그래프 어텐션 네트워크(GAT, Graph Attention Network)를 이용해 특징의 연관성 학습
- Conformer 모델
- Transformer와 Convolution 기술을 결합한 모델
- 긴 문맥과 세부 패턴을 동시에 학습하여 탐지 성능 향상
- AASIST(Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks)
4. 딥페이크 음성 탐지의 어려움
- 적대적 노이즈(Adversarial Noise) 공격
- AI 탐지 모델을 속이기 위해 딥페이크 음성에 노이즈 추가
- 적대적 샘플을 이용한 훈련으로 방어 가능하지만 데이터 생성 비용이 높음
- 부분 변조(Partial Fake) 공격
- 음성의 일부만 변조하여 탐지 시스템을 우회
- 예: "나는 안 한다" → "나는 한다"로 변조하여 의미 왜곡
- 부분 변조 탐지를 위한 ADD(Audio Deep Synthesis Detection) 챌린지 진행
🔗 연관 링크
💡현직자에게 할 질문
1️⃣ 딥페이크 음성 탐지 기술의 한계 및 성능 개선 방향
- 현재 LG유플러스의 ‘보이스 안티스푸핑’ 기술이 95% 이상의 정확도를 보인다고 하지만 딥러닝 모델은 일반적으로 데이터에 따라 성능이 변합니다. 실제 환경(소음, 통신 네트워크, 녹음 품질 차이)에서의 탐지 정확도는 어느 정도이며 0 어떤 환경에서 탐지가 어려운가요?
- 딥페이크 음성이 점점 더 정교해지고 있는데, 최신 음성 합성 기술(WaveNet, VITS, StyleTTS 등)을 활용한 새로운 공격 방식에도 대비할 수 있는가요? 만약 기존 모델이 새로운 딥페이크 음성에 적응하기 어려운 경우 어떤 방식으로 탐지 모델을 개선하고 있나요?
2️⃣ 온디바이스 AI 탐지 기술의 보안 및 성능 문제
- LG유플러스는 ‘온디바이스(On-Device) AI’ 방식을 적용하여 개인 정보 보호를 강화했다고 설명합니다. 하지만 온디바이스 모델은 클라우드 기반 모델에 비해 연산 성능이 낮아 모델 크기 제한이 있을 수밖에 없는데 이를 해결하기 위해 어떤 최적화 기법을 적용했나요?
- 음성 데이터는 보안이 중요한 정보인데, 온디바이스 방식에서 데이터 보호와 해킹 방지를 위해 어떤 보안 기술(예: 암호화, TPM, 보안 인증 등)을 적용하고 있나요?
3️⃣ 보이스피싱 방지를 위한 실전 활용 및 한계
- 보이스피싱 탐지 기술이 실제 금융·통신 서비스에서 적용될 때 탐지된 가짜 음성에 대한 법적·운영적 대응 절차는 어떻게 진행되나요? 예를 들어 보이스피싱으로 판별된 통화에 대해 고객에게 어떻게 알리고, 금융기관과 어떻게 협력하나요?
- 실시간 통화 중에도 딥페이크 음성을 탐지할 수 있다고 했는데 보이스피싱 범죄자들이 탐지 시스템을 우회하기 위해 배경 소음을 추가하거나 음성 톤을 미세하게 조정하는 방식으로 공격할 가능성이 있습니다. 이런 우회 공격을 탐지하기 위해 어떤 기술적 대비를 하고 있나요?
4️⃣ 최신 AI 모델(딥보이스, 딥페이크)과의 경쟁 및 차별점
- 오픈AI의 Voice Engine, 구글의 WaveNet, 딥브레인AI 등의 최신 음성 합성 기술이 계속 발전하면서 딥페이크 탐지 기술도 함께 발전해야 하는데 LG유플러스의 보이스 안티스푸핑 기술이 글로벌 경쟁력에서 어떤 차별점을 가지고 있나요?
- 최신 딥러닝 음성 모델은 화자의 음색뿐만 아니라 감정과 억양까지 재현할 수 있는 수준에 도달하고 있습니다. 이러한 고도화된 딥페이크 음성을 탐지하기 위해 현재 LG유플러스가 연구하고 있는 차세대 탐지 기술(예: 멀티모달 AI, 생체 음성 인증 등)은 무엇인가요?
'취준 > 경제신문스크랩' 카테고리의 다른 글
[매일경제] 다시 뛰는 李 글로벌 경영 … 삼성·오픈AI 운명 건 의기투합 (0) | 2025.02.04 |
---|---|
[매일경제] AI 독식하려던 오픈AI, 딥시크 등장에 폐쇄형 모델 '잠금 해제' (0) | 2025.02.03 |
[매일경제] 베어로보틱스 품은 LG전자 … 로봇사업 가속도 (1) | 2025.01.28 |
[서울경제] 삼성·구글, '프로젝트 무한'으로 AI 최적화 XR 선보인다 (1) | 2025.01.24 |
[전자신문] CJ올리브네트웍스, 워크플로우 통합 관리하는 '원플로우AI' 플랫폼 출시 (0) | 2025.01.22 |