📰 엔씨, 한국어 특화 AI모델 콘텐츠 제작시간 대폭 단축
비전언어모델 '바르코 비전'
이미지·텍스트 작업 한번에
자체 거대언어모델(LLM) '바르코'를 개발한 엔씨소프트(이하 엔씨)가 이를 이미지 분석 기능까지 갖춘 비전언어모델(VLM)로 업그레이드했다. 자연어만 인식할 수 있던 기존 생성형 인공지능(AI)에 '눈'을 추가한 것으로, 이르면 내년부터 외부 콘텐츠 기업 등에 관련 서비스를 판매하는 수익화 사업에도 나선다는 계획이다.
엔씨는 4일 VLM '바르코-비전'과 한국어 멀티모달 벤치마크 5종을 공개했다. VLM은 자연어와 이미지를 함께 활용해 입력값을 넣을 수 있는 언어모델이다. 현재 오픈소스로 공개된 대부분의 VLM은 영어와 중국어 기반이며 한국어 지원 모델은 소수에 불과해 국내 기업들은 GPT나 클로드 같은 해외 빅테크 기업 모델에 의존하고 있다.
이날 엔씨가 공개한 오픈소스 VLM 바르코-비전은 한글·영어 프롬프트와 함께 이미지 입력값을 이해할 수 있는 중소형 모델이다. LLM과 유사한 수준의 언어 능력을 보유하고 있어 애플리케이션에서 LLM과 VLM 두 개 모델을 운용하지 않고 바르코-비전 단일 모델만으로 이미지·텍스트 작업과 텍스트 전용 작업을 모두 처리할 수 있을 전망이다.
바르코-비전은 한국어 부문에서 동종 크기 모델 중 성능이 가장 높다는 게 회사 측 설명이다. 특히 이미지를 인식하고 추론하는 비전 태스크에서도 뛰어난 결과 값을 제공한다.
바르코-비전을 활용하면 AI 서비스 개발 기업은 이미지 인식 및 질의응답, 이미지 설명, 문자인식(OCR), 사물 위치 검출(그라운딩) 기능을 통해 각종 서비스를 제공할 수 있다.
콘텐츠 제작 기업은 이미지 상세 설명을 자동 생성해 콘텐츠 제작 시간을 아끼거나, 이미지 내 텍스트 인식을 통해 보다 많은 자료를 빠르게 수집하는 등 기획 업무에 도움을 받을 수 있다. 엔씨는 이날 한국어 AI 모델 연구 발전에 기여하기 위한 벤치마크 5종도 공개했다. 일반적으로 언어모델의 성능을 평가하기 위해서는 수행능력 판별의 기준점이 되는 벤치마크가 필요하다. 반면 한국어의 경우 멀티모달 벤치마크가 거의 없어 올바른 성능 평가가 어려운 상황이다.
엔씨는 영미권에서 대표적으로 사용되고 있는 객관식 벤치마크 3종과 주관식 벤치마크 1종을 기반으로 새로운 한국어 벤치마크 4종을 구축했다. 더불어 한국어 문서, 표, 차트에 대한 이해능력을 검증할 수 있는 'K-DTC벤치(Bench)' 벤치마크 1종을 새롭게 더했다.
이연수 엔씨 리서치본부장은 "향후 VLM의 접목 분야를 오디오, 비디오까지 확대하고 콘텐츠 제작 지원 기능을 강화하는 등 다양한 산업에서 활용할 수 있도록 성능을 끌어올릴 것"이라고 밝혔다.
✍ 요약
엔씨소프트(엔씨)는 자체 거대언어모델(LLM) '바르코'를 업그레이드해 비전언어모델(VLM) '바르코-비전'을 발표했습니다. 이를 통해 텍스트와 이미지를 동시에 처리할 수 있는 기능을 갖추고, 한국어 특화 모델로 콘텐츠 제작 및 분석 효율성을 크게 향상시켰습니다.
1. 바르코-비전의 특징
- VLM 기술: 자연어와 이미지를 함께 입력하고 이해할 수 있는 모델
- 한국어 특화: 국내에서 개발된 모델로 한국어 처리 성능이 뛰어나며 해외 모델(GPT, 클로드 등)에 대한 의존도를 줄이는데 기여
- 텍스트와 이미지 통합 작업: 바르코-비전 단일 모델로 이미지·텍스트 작업과 텍스트 전용 작업 모두 가능
2. 주요 활용 사례
- 이미지 기반 AI 서비스: 이미지 인식 및 질의응답, 이미지 설명 생성, 문자인식(OCR), 사물 위치 검출(그라운딩)
- 콘텐츠 제작 지원
- 이미지 설명 자동 생성으로 제작 시간 단축
- 이미지 내 텍스트 분석으로 데이터 수집 효율화
3. 한국어 멀티모달 벤치마크
- 한국어 벤치마크 4종: 영미권에서 대표적으로 사용하고 있는 객관식 벤치마크 3종과 주관식 벤치마크 1종을 기반으로 구축
- K-DTC벤치 1종: 한국어 문서, 표, 차트 이해능력 평가를 위한 새로운 기준 마련
4. 향후 계획
- 오디오 및 비디오 처리 기능 추가로 활용 범위 확대
- 콘텐츠 제작 기능 강화로 다양한 산업 분야에 적용
🔍 추가 조사한 내용
비전언어모델 (Vision-Language Models , VLM)
언어(텍스트)와 이미지(시각적 데이터)를 동시에 처리하여 인간처럼 두 가지 정보를 결합해 이해하는 AI 모델
1. 주요 기능
- 이미지 캡셔닝 (Image Captioning)
- 이미지를 분석하여 해당 이미지의 주요 내용을 텍스트로 설명합니다.
- 예: 사진에 있는 강아지의 모습과 행동을 텍스트로 묘사
- 이미지-텍스트 검색 (Image-Text Retrieval)
- 텍스트를 입력하여 이에 맞는 이미지를 검색하거나, 반대로 이미지를 입력하여 관련된 텍스트를 검색합니다.
- 예: "검은색 고양이 사진"을 검색하면 해당하는 이미지를 보여줌
- 이미지 기반 질의응답 (Visual Question Answering, VQA)
- 이미지와 관련된 질문에 답변을 제공합니다.
- 예: 사진을 보여주며 "몇 명의 사람이 있나요?"라는 질문에 답변
- 멀티모달 학습
- 텍스트와 이미지를 동시에 입력으로 받아 두 데이터를 결합한 태스크 수행
2. 동작 원리
- 공동 임베딩 공간 (Joint Embedding Space)
- 이미지를 컴퓨터가 이해할 수 있는 벡터(숫자 형태)로 변환한 후, 이를 텍스트 데이터와 같은 표현 공간에서 학습합니다.
- 이미지는 CNN(합성곱 신경망)이나 비전 트랜스포머(ViT)를 사용해 처리합니다.
- 텍스트는 트랜스포머 기반 언어모델(GPT, BERT 등)을 사용해 처리합니다.
- 멀티모달 주의 메커니즘 (Cross-Modal Attention)
- 이미지와 텍스트 간의 연관성을 학습하기 위해 상호작용을 강화합니다.
- 예: "고양이가 있는 사진"이라는 텍스트 입력과 실제 고양이 사진의 매칭을 학습합니다.
- 대규모 데이터 학습
- 인터넷에서 수집한 수십억 개의 이미지-텍스트 쌍을 학습하여, 텍스트와 이미지를 정확히 연결하는 능력 강화합니다.
🔗연관 링크
VARCO-VISION: 동급 오픈소스 VLM 모델 중 한국어 1위
💡 현직자에게 할 질문
1. 바르코-비전의 성능 차별화 요인
바르코-비전은 한국어 특화 비전언어모델(VLM)로 동종 크기 모델 중 최고 성능을 자랑한다고 알고 있습니다. 그렇다면 바르코-비전이 다른 글로벌 VLM, 예를 들어 CLIP(OpenAI)이나 Flamingo(Google)와 비교했을 때 가장 차별화되는 기술적 우위는 무엇인가요? 특히 한국어와 같은 비영어권 언어에서 어떤 혁신이 이루어졌는지 알고 싶습니다.
2. 한국어 멀티모달 벤치마크의 기여와 평가 방식
엔씨가 새롭게 구축한 한국어 멀티모달 벤치마크가 모델 성능 평가에 중요한 기여를 한다고 들었습니다. 기존 영어 기반 벤치마크와 비교했을 때, 이 벤치마크가 한국어 특화 모델 평가에서 어떤 차별화된 기준을 제공하며, 실제로 바르코-비전의 성능을 평가할 때 어떤 지표가 가장 유의미하게 사용되었는지 알고 싶습니다.
3. 오디오와 비디오 확장 계획
바르코-비전이 오디오 및 비디오로 확장될 예정이라고 들었습니다. 이러한 확장이 이루어질 경우, 텍스트와 이미지 중심의 현재 VLM 구조에서 기술적으로 가장 큰 도전 과제는 무엇인가요? 또한, 오디오·비디오 데이터를 결합한 멀티모달 학습은 어떤 새로운 응용 사례를 가능하게 할 것으로 예상하시나요?
'취준 > 경제신문스크랩' 카테고리의 다른 글
[매일경제] 문서 작성·데이터 검색까지 한컴, AI 솔루션 2종 선보여 (0) | 2024.12.09 |
---|---|
[매일경제] 전세계 날씨 8분내 예측한다 구글 AI 기상예보 모델 공개 (1) | 2024.12.06 |
[한국경제] 세계 첫 '온디바이스 AI'…언어장벽 허물었다 (1) | 2024.12.04 |
[전자신문] 현대차·아마존 죽스 첫 협력…탄력 붙는 자율주행 동맹 (0) | 2024.12.03 |
[전자신문] kt ds, AI 그룹웨어 'Works AI' 오픈 (0) | 2024.12.02 |