📰 "AI 혁명, 이제 출발선…종착지는 인간화 로봇"
'AI 구루' 얀 르쿤 뉴욕대 교수
과기부 글로벌포럼서 기조연설
"LLM, 환경의 복잡성 이해 못해
다음 스텝은 고급기계지능 될 것"
“인공지능(AI) 혁명은 아직 시작도 안 했다. 진짜 혁명은 앞으로 5~10년에 걸쳐 일어날 것이다.”
미국 증시를 이끄는 빅테크 중 하나인 메타의 수석과학자 얀 르쿤 뉴욕대 교수(사진)가 11일 과학기술정보통신부가 연 ‘K-사이언스 테크놀로지 글로벌 포럼’ 기조연설에서 이렇게 밝혔다. 르쿤 교수는 올해 노벨물리학상 수상자인 제프리 힌턴, 요슈아 벤지오, 앤드루 응과 함께 세계 AI 4대 석학으로 불린다.
르쿤 교수는 현재 AI 시장을 지배하는 대규모언어모델(LLM)을 평가절하했다. 자사의 LLM인 라마도 예외로 두지 않았다. 그는 “(오픈AI의) 챗GPT나 라마, (구글의) 제미나이 등은 인간이 사는 환경의 복잡성을 이해하지 못한다”며 “정보를 인풋(주입)하고 끝낼 게 아니라 최적화를 반드시 거쳐야 한다”고 말했다. 여기서 최적화를 담당하는 기술이 최근 AI업계의 화두로 떠오른 ‘AI 에이전트’다.
르쿤 교수는 “추론하고 계획을 세우면서 인간의 통제에 순응하는 AI 모델인 AMI(고급 기계 지능)를 개발해야 한다”고 강조했다. 그는 AMI의 예로 메타가 개발 중인 ODA(목표 지향 AI)를 소개했다. ODA는 아기가 기어 다니거나 걸음마를 배우는 것처럼 물리적 세상과 상호작용하며 학습하는 AI를 말한다. 어떤 행동을 취한 뒤 이로 인해 주변 환경이 어떻게 바뀔지 추론하고, 이를 토대로 다음 행동을 선택한다. 아마존, 테슬라 등이 개발 중인 로봇 전용 대규모행동모델(LBM)과 비슷한 개념이다.
르쿤 교수는 “수학적 함수로 구현되는 ODA는 AI 에이전트가 잘못된 행동을 하나하나 걸러가며 아웃풋을 좁혀간다”며 “이는 LLM과는 차별화된 개념”이라고 설명했다. 그러면서 ODA 구현 알고리즘으로 동영상 콘텐츠를 이해하는 ‘제파(JEPA)’를 개발하고 있다고 밝혔다. 제파는 확률을 토대로 데이터를 선택해 출력하는 것에 그치는 LLM의 기반 트랜스포머와 달리 추론하고 복잡한 행동 계획을 짤 수 있다. 르쿤 교수는 다른 빅테크처럼 메타 AI의 최종 목적지가 ‘인간화된 로봇’임을 내비쳤다. 그는 “사람이 식사하고 난 뒤 식탁을 치우고 그릇을 식기세척기에 넣는 로봇을 개발하기 위해선 제파가 필요하다”고 했다.
서울 여의도 페어몬트호텔에서 열린 이번 포럼은 과기정통부가 글로벌 연구개발(R&D) 협력을 위해 마련한 행사다. 미국 영국 유럽연합(EU) 등 73개국 주한 외교관 108명 등이 참여했다. 르쿤 교수는 “인류가 진보하려면 이런 만남의 장이 중요하다”며 “각국의 모든 기업과 연구자들이 오픈소스 기반으로 협력하고 데이터를 공유하면서 전 세계 언어를 담는 AI 모델을 구축해야 한다”고 제안했다.
✍ 요약
얀 르쿤 교수, AI 혁명의 미래를 논하다
- 얀 르쿤 교수의 비전
- AI 혁명은 이제 시작 단계로, 진정한 혁신은 향후 5~10년간 진행될 것.
- 현재 대규모언어모델(LLM)은 환경의 복잡성을 이해하지 못하며, AI의 다음 단계는 고급 기계 지능(AMI).
- LLM의 한계와 AMI의 필요성
- 기존 LLM: 단순 정보 입력과 출력에 의존.
- AMI: 인간의 통제 아래 추론과 계획 능력을 갖춘 AI로 발전해야 함.
- 메타의 ODA(목표 지향 AI)
- 물리적 세상과 상호작용하며 학습하는 AI.
- 행동 결과를 예측하고 추론하며 다음 행동을 결정.
- JEPA(제파) 알고리즘
- 메타가 개발 중인 ODA 구현 기술.
- 데이터를 단순 선택하는 기존 LLM과 달리, 복잡한 추론과 행동 계획 가능.
- 인간화 로봇 개발 목표
- 단순 작업(예: 식사 후 식탁 정리)을 수행하는 로봇 개발이 최종 목표.
- 글로벌 협력과 데이터 공유 필요성
- AI 혁신 가속화를 위해 오픈소스와 데이터 공유 중요.
- 전 세계 언어를 통합한 AI 모델 구축 제안.
🔍 추가 조사한 내용
JEPA(Video Joint Embedding Predictive Architecture)
JEPA(Joint Embedding Predictive Architecture)는 Yann LeCun과 그의 연구팀이 제안한 혁신적인 비지도 학습 아키텍처로, 데이터를 단순히 복원하는 기존 접근법을 넘어, 데이터 간 관계를 학습하는 데 중점을 둔 새로운 방식입니다. 특히, JEPA는 입력 데이터의 고차원적인 특징을 학습하고 예측하는 데 강점을 가지고 있습니다.
JEPA는 데이터를 직접 복원하려는 기존의 재구성(reconstruction) 방식과 달리, 데이터를 고차원 임베딩 공간에서 표현하고 예측하는 방식을 채택합니다. 이를 통해 더 적은 계산량으로 더 깊은 데이터 간 관계를 이해할 수 있습니다.
- 두 가지 인코더 활용
- JEPA는 입력 데이터(x)와 타겟 데이터(y)를 각각 처리하는 두 개의 인코더(x-인코더, y-인코더)를 사용합니다.
- 두 인코더의 결과를 바탕으로, JEPA는 예측기(Pϕ)를 통해 입력과 타겟 간 관계를 모델링합니다.
- 특징 기반 학습
- JEPA는 데이터의 개별 픽셀을 복원하는 대신, 고차원 임베딩 공간에서 두 데이터의 특징 벡터 간의 관계를 학습합니다. 이를 통해 불필요한 세부 정보 처리를 줄이고 더 나은 일반화를 이끌어냅니다.
- 손실 함수 기반 학습
- JEPA는 예측된 특징과 실제 타겟 특징 간의 차이를 최소화하기 위해 손실 함수를 사용합니다. 이러한 접근법은 모델이 데이터 간 관계를 보다 효과적으로 학습하도록 돕습니다.
V-JEPA(Vision-JEPA)
V-JEPA는 JEPA를 영상 데이터에 특화한 모델로, 시간적·공간적 관계를 이해하고 학습하는 데 최적화되어 있습니다.
- 멀티블록 마스킹(Multi-Block Masking): 입력 데이터에서 중요한 특징을 효과적으로 추출하기 위해 적응형 풀링 기법을 활용합니다. 이를 통해 다양한 입력 크기와 복잡성에도 유연하게 대처할 수 있습니다.
- 적응형 풀링(Adaptive Pooling): 입력 데이터에서 중요한 특징을 효과적으로 추출하기 위해 적응형 풀링 기법을 활용합니다. 이를 통해 다양한 입력 크기와 복잡성에도 유연하게 대처할 수 있습니다.
- 효율적인 학습: 기존 픽셀 복원 기반의 모델보다 학습 속도가 빠르고 계산 비용이 낮아, 적은 리소스로도 높은 성능을 달성합니다.
- 라벨 효율성: V-JEPA는 적은 수의 라벨 데이터를 사용하더라도 높은 성능을 발휘할 수 있어, 대규모 라벨링 작업이 어려운 경우에도 유용합니다.