돌발홍수는 매년 5,000명 이상의 목숨을 앗아가는 세계에서 가장 치명적인 기상 재해 중 하나입니다. 그러나 발병 속도가 빠르고 범위가 작으며 지속 기간이 짧아 오랫동안 정확한 예측이 어려웠습니다. 이런 문제에 직면한 구글의 새로운 대답은 “AI가 뉴스 보도를 읽게 하라”는 것이다.

전통적인 기상 모니터링은 기온, 강수량, 하천 유량 등 많은 양의 데이터를 축적해 왔습니다. 그러나 갑작스럽고 극도로 강력한 돌발 홍수 사건의 경우 인간은 다른 기상학적 요소만큼 완전하고 지속적인 관측 기록을 갖고 있지 않습니다. 이로 인해 일기 예보 분야에서 딥 러닝이 점점 더 강력해지고 있음에도 불구하고, 모델을 훈련할 수 있는 "진정한 가치" 데이터가 충분하지 않기 때문에 돌발 홍수 예측에서는 동일한 수준으로 수행할 수 없다는 사실이 나타났습니다.

이러한 데이터 격차를 메우기 위해 Google 연구팀은 대규모 언어 모델인 Gemini를 사용하여 전 세계에서 약 500만 개의 뉴스 보도를 선별하고 약 260만 개의 다양한 홍수 사건을 자동으로 식별 및 추출한 다음 이러한 텍스트 보고서를 시간 및 지리적 태그가 포함된 시퀀스 데이터 세트 "Groundsource"로 변환했습니다. Google의 연구 제품 관리자인 Gila Loike는 회사가 이러한 유형의 정량적 데이터 구축 작업을 완료하기 위해 대규모 언어 모델을 사용한 것은 이번이 처음이라고 말했습니다. 관련 연구 결과와 데이터 세트는 목요일 오전 일찍 공개되었습니다.

이 "실제 기준선"을 얻은 후 연구원들은 장단기 기억(LSTM) 신경망을 기반으로 새로운 돌발 홍수 예측 모델을 훈련하여 전 세계 일기 예보 데이터를 입력하고 특정 지역의 돌발 홍수 확률을 출력할 수 있었습니다. 현재 Google의 돌발 홍수 예측 모델은 Flood Hub 플랫폼을 통해 150개국 도시 지역에 대한 위험 정보를 제공하고 있으며 전 세계 많은 비상 관리 기관에 데이터를 공개했습니다. 남아프리카 개발 공동체(SADC)의 비상 대응 책임자인 António José Beleza는 Google과의 실험에서 이 모델이 그의 팀이 홍수에 더 빠르게 대응하는 데 도움이 되었다고 말했습니다.

그러나 이 시스템에는 여전히 분명한 한계가 있습니다. 한편으로 공간 해상도는 상대적으로 낮으며 현재 약 20제곱킬로미터 규모의 위험 평가만 제공할 수 있습니다. 반면, 지역 레이더 등 실시간 강수량 모니터링 데이터를 포함하지 않기 때문에 정확도는 기존 미국 기상청의 홍수 경보 시스템만큼 정확하지 않습니다.

구글은 이번 프로젝트의 원래 의도 중 하나가 값비싼 기상 관측 인프라가 부족하고 장기 기상 기록이 없는 지역을 개발하는 데 역할을 하는 것이라고 강조했습니다. Groundsource 데이터 세트는 전 세계 수백만 건의 뉴스 보도를 집계하여 모델이 데이터가 부족한 지역에 대한 예측을 추정할 수 있을 정도로 "지도의 균형을 재조정"합니다. Google 탄력성 팀의 프로그램 관리자인 Juliet Rothenberg는 이러한 접근 방식을 통해 팀이 이전에 정보가 심각하게 부족했던 영역을 처리할 수 있었다고 말했습니다.

Rothenberg는 또한 텍스트 내러티브를 구조화된 정량적 데이터로 변환하기 위해 대규모 언어 모델을 사용한다는 아이디어가 돌발 홍수에만 국한되지 않는다고 말했습니다. 미래에는 폭염이나 산사태와 같이 수명이 짧지만 매우 중요한 자연 현상에 대한 데이터 세트를 구축하는 데 유사한 기술이 사용될 것으로 예상되며, 이를 통해 더욱 극단적인 날씨와 지질 재해를 예측할 수 있는 기반이 제공될 것입니다.

업계 관계자에 따르면 구글의 시도는 창의적인 데이터 수집을 통해 딥러닝 일기예보 개발을 촉진하는 중요한 단계다. 수력 발전 회사와 같은 고객을 위해 딥 러닝을 사용하여 하천 흐름을 예측하는 회사인 Upstream Tech의 CEO인 Marshall Moutenot는 현재 지구 과학 분야가 "데이터 부족"이라는 지속적인 문제에 직면해 있다고 지적했습니다. 한편으로는 지구 관측 데이터가 극도로 복잡하고 다른 한편으로는 모델을 보정하고 검증하는 데 사용할 수 있는 고품질 "진리 값"이 매우 제한되어 있습니다. Moutenot은 또한 기계 학습에 직접 사용할 수 있는 연구원 및 스타트업을 위한 날씨 데이터 세트를 구성하는 데 전념하는 조직인 Dynamical.org의 공동 창립자이기도 합니다. 그는 구글의 작업이 “매우 창의적인 방법”을 통해 귀중한 데이터를 얻는 전형적인 예라고 믿습니다.