📰 전세계 날씨 8분내 예측한다 구글 AI 기상예보 모델 공개
40년 기상정보 학습시켜
99% 사례에서 더 정확해
인공지능(AI)을 활용한 3차원 단백질 구조 예측으로 올해 노벨 화학상을 거머쥔 구글 딥마인드가 이번에는 전 세계 날씨를 단 8분 만에 예측해내는 AI 모델을 선보였다.
5일 구글에 따르면 구글 딥마인드는 이날 국제 학술지 네이처에 등재된 '머신러닝을 통한 확률론적 일기예보'라는 제목의 논문을 통해 새로운 기상예보 모델 '젠캐스트(GenCast)'를 공개했다.
논문에서 구글 딥마인드 연구팀은 우선 기존 기상예보의 한계에 대해 지적했다. 전통적인 수치 기상예보는 물리학 기반의 시뮬레이션을 통해 기상 변화를 예측하지만 이는 불확실성을 충분히 반영하지 못하고 계산 비용이 높다는 문제가 있다고 진단했다.
예를 들어 현재는 지금 날씨를 반영해 '내일 오전 7시 예상 기온은 섭씨 -2도'와 같은 단일 예측만 가능한데, 이는 요즘처럼 이상기후 현상이 빈번한 상황에서는 잘 맞지 않는다는 것이다. 구글이 대안으로 제시한 젠캐스트는 머신러닝을 통한 확률적 기상예보 모델이다. 기존처럼 단일 예측값을 내놓는 것이 아니라 '내일 오전 7시 예상 기온은 섭씨 -5~2도일 확률은 70%, 2도 이상일 확률은 30%'처럼 다양한 기상 변수를 기반으로 발생 가능한 여러 날씨 시나리오를 확률적으로 제시한다. 정확도를 높이기 위해 구글은 유럽중기기상예보센터(ECMWF) 아카이브에 저장된 40년간의 기상 데이터를 젠캐스트에 학습시켰다. 그 결과 현재 학습 대상이던 센터의 최고 수치예보 모델 '앙상블 시스템(ENS)'보다 더 정확한 예측에 성공했다는 게 회사 측 설명이다.
실제 구글이 두 시스템의 성능을 비교하기 위해 다양한 변수와 시간대를 반영한 1320가지 조합을 테스트해 보니 97.2%에서 젠캐스트가 ECMWF보다 더 정확히 예측한 것으로 나타났다. 특히 예측시간이 36시간을 넘을 경우 1320가지 조합 중 99.8%에서 더 정확한 예측을 내놓은 것으로 집계됐다. 예보 속도도 단축했다. 구글코리아는 공식 블로그에 "구글이 자체 개발한 머신러닝 전용 반도체인 TPU v5 칩 한 개만으로 전 세계 15일간의 날씨예보를 단 8분 만에 생성할 수 있다"며 "(기존 예보가) 수만 개의 프로세스를 갖춘 슈퍼컴퓨터에서 몇 시간이 걸리는 반면, 젠캐스트는 단일 TPU로 단시간에 처리한다"고 설명했다. 이러한 젠캐스트의 강점은 특히 태풍이나 허리케인 같은 기상 위험을 정확하게 예측해 피해를 줄이는 데 도움이 될 것으로 전망된다.
✍ 요약
구글 딥마인드가 새로운 AI 기반 기상예보 모델 젠캐스트(GenCast)를 발표했습니다. 이 모델은 기존 기상예보 방식의 한계를 개선하고, 전 세계 날씨를 단 8분 만에 예측할 수 있는 혁신적인 시스템입니다.
젠캐스트
1. 배경: 기존 기상예보의 한계
- 전통적인 수치 기상예보: 물리학 기반의 시뮬레이션을 통해 기상 변화 예측
- 예: 현재는 지금 날씨를 반영해 '내일 오전 7시 예상 기온은 섭씨 -2도'와 같은 단일 예측
- 단점: 불확실성을 충분히 반영하지 못하고 계산 비용이 높음
2. 특징
- 머신러닝을 통한 확률적 기상예보: 다양한 기상 변수를 기반으로 발생 가능한 여러 날씨 시나리오를 확률적으로 제시
- 예: '내일 오전 7시 예상 기온은 섭씨 -5~2도일 확률은 70%, 2도 이상일 확률은 30%'
- 학습 데이터: 유럽중기기상예보센터(ECMWF) 아카이브에 저장된 40년간의 기상 데이터
- 성능
- 정확도: 다양한 변수와 시간대를 반영한 1320가지 조합을 테스트
- 97.2%에서 젠캐스트가 ECMWF보다 더 정확히 예측
- 예측시간이 36시간을 넘을 경우 1320가지 조합 중 99.8%에서 더 정확한 예측
- 속도
- 구글이 자체 개발한 머신러닝 전용 반도체인 TPU v5 칩 한 개만으로 전 세계 15일간의 날씨예보를 단 8분 만에 생성 가능
- 정확도: 다양한 변수와 시간대를 반영한 1320가지 조합을 테스트
🔍 추가 조사한 내용
젠캐스트 (GenCast)
젠캐스트는 확률론적 기상 예보를 위해 구글 딥마인드에서 개발한 새로운 AI 기반 모델입니다. 이는 기존의 수치 기상 예보(NWP) 방식과 달리 머신러닝을 활용하여 더 빠르고 정확한 결과를 제공합니다. 15일 동안의 전 세계 날씨를 12시간 간격으로 예측하며, 기존의 ECMWF(유럽중기기상예보센터) 시스템보다 높은 정확도를 보였습니다.
1. 기술적 원리: Diffusion Model 기반
- Diffusion Model (확산 모델): 노이즈(noise, 잡음)에서 시작해 점진적으로 유용한 데이터를 생성하는 과정
- 초기 상태: 랜덤한 기상 상태(노이즈)에서 시작
- 조건 설정: 과거의 기상 데이터를 조건으로 추가
- 반복 정제: 여러 단계를 거쳐 예측 결과를 점차 정교하게 만듦
2. 젠캐스트의 모델 구성
- 인코더(Encoder)
- 역할: 과거 기상 데이터를 컴퓨터가 이해할 수 있는 형식으로 변환
- 입력: 기온, 기압, 풍속 등 다양한 기상 데이터
- 출력: 변환된 데이터(벡터 형태)
- 프로세서(Processor)
- 역할: 인코더에서 변환된 데이터를 분석하고, 이를 바탕으로 예측 과정을 수행
- 동작 방식: 과거 데이터와 현재 상태를 결합해 기상 상태의 변화를 모델링
- 활용 기술: 트랜스포머(Transformer) 기술을 사용해 데이터 간의 관계를 학습
- 디코더(Decoder)
- 역할: 프로세서의 분석 결과를 사람이 이해할 수 있는 예측값으로 변환
- 출력: 예측된 기상 데이터(예: 기온, 강수량 등)
3. 젠캐스트의 학습 과정
- 학습 데이터: 약 40년간의 기상 데이터
- ERA5 재분석 데이터: 유럽중기기상예보센터(ECMWF)에서 제공
- 1979년부터 2018년까지의 글로벌 기상 기록
- 학습 방법
- 과거 기상 데이터를 입력
- 실제 결과와 모델의 예측값을 비교해 오류를 수정
- 반복적으로 학습해 모델의 성능을 개선
- 데이터 처리 방식
- 공동 임베딩 공간(Joint Embedding Space): 이미지와 텍스트 데이터를 같은 공간에서 표현해, 서로 다른 데이터를 효과적으로 연결.
- 멀티스케일 접근(Multi-Scale Approach): 다양한 시간대와 공간 범위를 고려한 예측.
💡 현직자에게 할 질문
1. 젠캐스트의 지역 맞춤형 예측 가능성
젠캐스트가 전 세계 날씨를 예측하지만, 특정 지역(예: 기상 패턴이 복잡한 지역)에서는 일반화된 모델이 성능을 저하시킬 수도 있다고 생각합니다. 특정 지역의 맞춤형 예측을 위해 젠캐스트를 지역 데이터에 특화시킬 계획이 있는지, 그리고 이 경우 확률론적 예측 방식이 어떻게 달라질 수 있는지 알고 싶습니다.
2. 젠캐스트와 다른 예보 시스템의 융합 가능성
젠캐스트는 ECMWF의 앙상블 시스템보다 높은 정확도를 보였다고 발표했는데, 기존 기상 시스템(ENS)과 젠캐스트를 융합해 더 나은 결과를 도출할 가능성이 있나요? 이를 위해 두 시스템 간의 데이터를 상호 보완적으로 활용하는 방안이 검토되고 있는지 궁금합니다.
3. 예측 결과의 활용성과 보급 계획
젠캐스트가 생성한 예측 데이터를 일반 사용자 또는 기상학자들에게 제공할 때, 데이터를 쉽게 이해하고 활용할 수 있도록 지원하는 플랫폼이나 인터페이스가 계획 중인가요? 예를 들어, API 형태로 제공하거나, 특정 산업군에 특화된 대시보드를 개발할 가능성이 있는지 궁금합니다.