본문 바로가기
주식/세틀로직

EarthMAE: 통합형 거대 관측 AI의 새로운 지평(with Satellogic)

by 밀리테크를 지향하는 세계 2025. 4. 29.
반응형

1. EarthMAE와 Satellogic 

 

 Satellogic 자료를 검색하던 중 링크드인에서 EarthMAE라는 지구 관측 학습 모델을 발견했다. 여러 데이터를 통합한 이 모델은 AI 시장에서 데이터와 해석 기술의 중요성을 다시 한번 보여준다. 과거 "Satellogic EarthView Dataset Now Openly Accessible via Registry of Open Data on AWS"라는 기사를 통해 Satellogic의 데이터셋에 접근하며 기술적 이해를 쌓은 적이 있었다. 당시에는 실질적인 AI 모델을 접하지 못했지만, 이번 EarthMAE 공개로 관심이 한층 커졌다. Satellogic의 1m 고해상도 데이터가 이런 기술 발전에 기여했다는 점은 투자자로서 주목할 만하다. 지구 관측은 기후 변화와 재난 관리에서 점점 중요한 역할을 하고, AI는 이를 위한 핵심 기술로 자리 잡았다. Satellogic은 EarthView 오픈소스 데이터셋으로 시장 선점을 노린다. 이 글에서 EarthMAE의 특징과 Satellogic의 전략을 살펴보며 그 성장 가능성을 확인해보려 한다.


2. 연구 자료에서 공개한 EarthMAE는 무엇인가?

이 모델의 작동 방식 [입력 이미지] → [패치 분할] → [마스킹] → [인코더] → [디코더] → [재구성된 이미지]

 

2.1 MAE 모델의 이해


 마스크드 오토인코더(MAE)는 자가 감독 학습 기술로, 데이터를 레이블 없이 학습하는 방식이다. 이미지의 일부를 마스킹하고 이를 예측하도록 훈련하며, 데이터의 패턴과 맥락을 스스로 이해한다. MAE는 입력 데이터의 일정 비율을 가리고, 남은 부분을 활용해 가려진 영역을 복원하는 과정을 통해 학습한다. 이런 접근은 모델이 데이터의 본질적 구조를 파악하도록 유도하며, 레이블링 작업이 필요 없어 데이터 준비 과정이 간소화된다. 특히 위성 데이터처럼 방대한 양의 비정형 데이터를 다룰 때 효과적이다. 투자자에게 MAE는 데이터 처리의 혁신적 방법으로, 전통적인 감독 학습보다 빠르고 경제적인 대안으로 주목받는다.


2.2 MAE 모델이 가지는 장점


 MAE 모델은 비용 효율성, 유연성, 정확성에서 두드러진 장점을 보인다. 비용 효율성은 레이블링이 필요 없는 자가 감독 학습에서 비롯된다. 이는 대규모 데이터셋을 활용할 때 인력과 시간을 절감한다. 유연성은 다양한 데이터 유형에 적용 가능하다는 점에서 돋보인다. 광학, 초분광, SAR 데이터 등 서로 다른 소스에도 적응할 수 있다. 정확성 면에서는 마스킹 기반 학습이 데이터의 맥락을 깊이 이해하도록 도와, 구름이나 누락된 부분을 복원하는 데 뛰어난 성능을 발휘한다. 이런 장점은 투자자에게 기술 개발 비용 절감과 시장 적용 가능성을 높이는 매력적인 요소로 다가간다.


2.3 EarthMAE: SpectralMAE와 SatMAE 통합


 EarthMAE는 SpectralMAE와 SatMAE의 장점을 통합한 모델로, 지구 관측 데이터의 복잡성을 해결하는 데 특화되었다. SpectralMAE는 초분광 데이터를 처리하며, 수백 개의 스펙트럼 밴드를 분석해 세밀한 환경 변화를 감지한다. SatMAE는 시간적, 다중분광 데이터를 다루며, 시계열 기반 변화를 추적한다. EarthMAE는 이 둘을 결합해 다양한 소스를 단일 모델로 처리한다. 광학 데이터, 초분광 데이터, SAR 데이터를 통합적으로 학습하며, 구름이나 데이터 누락 같은 문제를 극복한다. 이런 통합성은 기술적 혁신의 정점으로, 투자자에게 Satellogic의 데이터가 시장에서 독보적인 위치를 점할 수 있다는 자신감을 심어준다. EarthMAE는 지구 관측의 새로운 기준을 제시한다.

 

*SAR같은 경우 특별한 MAE 모델이 없으나, 현재 관련 모델에 관한 생성이 논의 중이며 EarthMAE에서는 Sentinel-1에 탑재된 SAR도 같이 학습을 하여 모델에 깊이를 더함. 


2.4 훈련 데이터: Satellogic, Sentinel, NEON 데이터


 EarthMAE는 Satellogic, Sentinel, NEON 데이터를 활용해 훈련되었다. Satellogic은 1m 해상도의 RGB와 근적외선 데이터를 제공하며, 풍부한 메타데이터(타임스탬프, 오프-나디르 각도)와 함께 2022년 7월부터 12월까지의 데이터를 포함한다. Sentinel은 10m 해상도의 다중분광 데이터와 SAR 데이터(VH, VV 편광)를 제공하며, 시계열 정보를 통해 시간적 변화를 학습한다. NEON은 0.1m RGB, 1m 초분광(369개 밴드), 고도 데이터를 포함해 미국 숲 지역의 세밀한 데이터를 제공한다. 이 모든 데이터는 EarthView라는 15테라 픽셀 규모의 데이터셋으로 통합된다.


2.5 훈련 과정: 마스킹 전략, 토크나이저, SAR 활용


 EarthMAE의 훈련 과정은 마스킹 전략, 토크나이저, 위치 인코딩, SAR 데이터 활용으로 구성된다. 마스킹 전략은 튜브 마스킹과 랜덤 마스킹을 결합한다. 튜브 마스킹은 시계열 데이터에서 동일 패치를 모든 타임스텝에서 가려 시간적 연속성을 학습한다. 랜덤 마스킹은 패치를 무작위로 가려 다양한 패턴을 학습한다. 토크나이저는 소스별로 데이터를 처리하며, 예를 들어 Satellogic의 RGB와 Sentinel의 SAR 데이터를 각각의 특성에 맞게 변환한다. 위치 인코딩은 공간적 위치, 시간 정보(연도, 월, 일), 소스 정보를 추가해 맥락을 강화한다. SAR 데이터는 구름 투과성으로 광학 데이터의 한계를 보완하며, 지형 정보를 제공해 복원 정확도를 높인다. 


2.6 응용 가능성: 재난 모니터링, 농업, 환경 분석


 EarthMAE는 다양한 분야에서 응용 가능성을 보인다. 재난 모니터링에서는 구름으로 가려진 지역을 복원해 산불, 홍수, 지진 피해를 예측한다. 예를 들어 아마존 홍수 지역의 변화를 분석해 대응 전략을 세울 수 있다. 정밀 농업에서는 작물 건강과 수확 시기를 예측하며, 브라질 대두 농장에서 수확량을 최적화한다. 환경 분석은 기후 변화와 빙하 감소를 추적해 지속 가능한 정책 수립에 기여한다. 도시 계획에서는 도시 확장과 인프라 관리를 지원하고, 자원 탐사에서는 광물과 수자원을 탐지한다. 이런 다목적 응용은 투자자에게 Satellogic의 데이터가 환경, 농업, 자원 시장에서 수익을 창출할 수 있음을 보여준다. EarthMAE는 기술과 시장의 접점을 넓힌다.


3. Satellogic이 무료로 방대한 데이터셋을 공개한 이유

 

3.1 오픈소스 데이터의 힘


 Satellogic은 EarthView라는 방대한 데이터셋을 오픈소스로 공개하며 데이터 접근성을 높였다. 이 데이터셋은 5개 대륙에 걸쳐 200만 개 이상의 지역을 포함하며, 여러 차례 재방문을 통해 총 700만 개 이상의 고해상도 이미지를 확보했다. AWS의 오픈 데이터 스폰서십 프로그램을 통해 Satellogic EarthView에 접속하면, 연구자들은 추가 저장 공간 비용 없이 컴퓨팅 서비스 요금만 지불하면 된다. AWS가 데이터 저장 및 전송 비용을 지원해 전 세계 연구자들이 클라우드에서 고해상도 이미지를 분석할 수 있게 한다. 이는 협업을 촉진하고 표준화된 데이터로 기술 평가 기준을 제공하며, 교육 기관의 연구와 학습을 지원한다. 투자자에게 이는 Satellogic의 데이터가 업계 표준으로 자리 잡을 가능성을 보여준다.

 

Satellogic EarthView dataset - Registry of Open Data on AWS

Description Satellogic EarthView dataset includes high-resolution satellite images captured over all continents. The dataset is organized in Hive partition format and hosted by AWS. The dataset can be accessed via STAC browser or aws cli. Each item of the

registry.opendata.aws


3.2 커뮤니티 신뢰와 익숙함


 EarthView 공개는 커뮤니티의 신뢰를 쌓는다. 연구자와 개발자는 Satellogic의 고해상도 이미지에 익숙해지며 데이터 품질에 대한 신뢰를 갖게 된다. 예를 들어, 1m 해상도의 이미지는 세밀한 지형 분석에 유용하다. 이런 신뢰는 무료 데이터 사용자가 상업용 데이터로 전환하는 계기가 된다. 연구자가 EarthView로 성공적인 결과를 내면, 최신 고해상도 이미지가 필요한 프로젝트에서 Satellogic의 유료 서비스를 선택할 가능성이 높아진다. 이는 투자자에게 안정적인 고객 기반과 수익 흐름을 약속한다. Satellogic의 데이터가 신뢰의 상징으로 자리 잡으면 시장 내 입지가 강화된다.


3.3 네트워크 효과


 EarthView 데이터셋은 네트워크 효과를 일으킨다. 커뮤니티가 성장하며 더 많은 연구와 솔루션이 Satellogic의 고해상도 이미지를 기반으로 개발된다. 이는 Satellogic 데이터를 업계 표준으로 자리 잡게 한다. 예를 들어, EarthMAE 같은 모델이 Satellogic 데이터를 활용해 성공적인 결과를 내면, 다른 연구자들도 이를 따를 가능성이 커진다. 이런 움직임은 시장 확대를 가속화하고 경쟁사 대비 우위를 점하게 한다. 네트워크 효과는 데이터 표준화를 통해 Satellogic이 지구 관측 시장에서 필수적인 존재로 인식되게 한다. 투자자에게 이는 시장 점유율 증가와 안정적인 성장을 의미한다.


3.4 데이터 생태계 확대 및 락인 효과


 EarthView를 기반으로 데이터 생태계가 확대된다. 커뮤니티는 Satellogic의 고해상도 이미지를 활용해 새로운 도구와 응용 프로그램을 개발하며 생태계를 풍부하게 한다. Satellogic의 Aleph 플랫폼은 API와 클라우드 접근을 지원하며, 이런 생태계 확장을 가속화한다. 예를 들어, Aleph를 통해 연구자들이 데이터를 쉽게 통합하고 분석하면 Satellogic 데이터에 최적화된 솔루션이 늘어난다. 이는 사용자 락인 효과를 낳는다. 한번 익숙해진 사용자는 다른 데이터 소스로 전환하는 데 비용과 시간이 들기 때문에 Satellogic을 계속 선택한다. Satellogic의 CaaS(Constellation-as-a-Service)는 고객 맞춤형 데이터 제공으로 상업 전환을 유도한다. 이는 브랜드 인지도를 높이고, 무료 데이터 사용자가 유료 고해상도 이미지로 전환하는 가능성을 키운다. 커뮤니티 피드백은 Aleph를 통해 데이터 품질 개선으로 이어진다. 투자자에게 이는 안정적인 수익 흐름과 지속적인 혁신을 약속하며, Satellogic의 시장 지배력을 강화한다.


4. 통합형 거대 관측 인공지능의 출현 가능성


4.1 LLM 모델과의 결합 가능성


 이미 다양한 비전 AI 모델이 LLM과 통합되며 데이터 해석을 개선하고 있다. 예를 들어, 자율주행 시스템은 LLM을 활용해 실시간 도로 상황을 자연어로 설명한다. 그러나 이런 통합은 주로 단일 소스 데이터에 국한된다. EarthMAE는 LLM과의 결합에서 차별화된 가능성을 제시한다. 광학, 초분광, SAR 데이터를 통합한 EarthMAE는 LLM을 통해 복잡한 메타데이터를 더 풍부한 맥락으로 해석한다. 예를 들어, "2023년 6월 아마존 지역에서 촬영된 이미지, 구름 거의 없음, SAR 데이터로 숲 지형 확인됨" 같은 설명이 가능하다. 이는 환경 보고서 자동 생성이나 "이 지역은 산불 위험이 높다" 같은 경고로 이어진다. EarthMAE의 통합성은 LLM과의 결합으로 더 포괄적이고 정밀한 분석을 가능케 하며, 거대 관측 AI의 새로운 표준을 제시한다.


4.2 예측 가능성


 EarthMAE는 시계열 데이터를 학습해 시간적 패턴을 이해한다. 지속적인 데이터 유입으로 미래 예측 능력이 강화된다. 예를 들어, 아마존 지역의 과거 데이터를 분석해 2024년 홍수 패턴을 예측할 수 있다. 이는 재난 대비와 자원 관리에 유용하다. 기후 변화 추세나 산불 발생 가능성 같은 장기적 예측도 가능하다. 다만, 학습 데이터 범위를 벗어나는 새로운 패턴은 예측이 어렵다. 기존 관측 업체의 AI 모델은 단일 소스 데이터를 기반으로 파편화된 예측에 그친다. 반면, EarthMAE는 광학, 초분광, SAR 데이터를 통합해 더 정확한 예측을 시도한다. 이런 통합성은 거대 관측 AI가 데이터의 한계를 넘어 더 넓은 범위의 환경 변화를 예측할 수 있음을 시사한다.


4.3 군사적 방향성


 EarthMAE의 기술은 군사적 응용 가능성을 열어준다. 구름 투과 가능한 SAR 데이터와 고해상도 이미지, 시계열 분석은 정찰과 감시에 유용하다. 예를 들어, 가려진 지역을 복원해 야간이나 구름 조건에서도 지형 정보를 분석할 수 있다. 미사일 발사 징후 감지 같은 응용도 가능하다. 현재 미국 NGA나 이스라엘 Iron Dome 같은 사례가 군사 활용의 가능성을 보여준다. EarthMAE는 여러 소스를 통합해 정밀한 군사 데이터를 생성한다. 다만, 국제 우주법과 프라이버시 논란 같은 윤리적·법적 제약이 따른다. 이는 통합형 거대 관측 AI가 민간과 군사 영역에서 새로운 기회를 창출할 수 있음을 보여준다.

 

*이 글에서는 EarthMAE라고 표기하였으나, 내포한 의미는 'EarthMAE와 같은 통합형 지구 관측 AI 모델'이라는 뜻이다. 


5. 결론: EarthMAE와 통합형 관측 AI의 미래

 

 EarthMAE는 AI와 위성 데이터 융합으로 지구 관측 혁신을 이끄는 모델이다. 광학, 초분광, SAR 데이터를 통합하며 기존의 파편화된 단일 소스 분석의 한계를 넘어섰다. 이런 통합성은 재난 관리, 환경 분석, 군사 응용 등 다양한 분야에서 새로운 가능성을 열어준다. Satellogic의 오픈소스 전략은 EarthView 데이터셋을 통해 전 세계 연구자와 협력을 촉진하며, 700만 개 이상의 고해상도 이미지를 제공해 기술 발전의 기반을 마련했다. 무료 공개되는 데이터 및 업계 최저 비용으로 제공되는 Satellogic의 데이터는 통합형 거대 관측 AI의 발전을 가속화한다. EarthMAE는 단순한 모델을 넘어, 다중 소스를 통합한 거대 관측 AI의 미래를 보여준다. 이는 지구 관측 기술이 환경 문제와 글로벌 위기를 해결하는 데 중요한 역할을 할 것임을 시사한다.


용어 정리 

  • 마스크드 오토인코더(MAE): 자가 감독 학습 모델. 이미지 일부를 가리고(마스킹) 이를 예측하도록 학습하며, 레이블 없이 데이터 패턴을 이해한다.  
  • 자가 감독 학습(Self-Supervised Learning): 레이블 없이 데이터를 학습하는 방식. 데이터 자체에서 학습 신호를 생성(예: 마스킹 후 예측).  
  • 마스킹(Masking): 이미지 일부(패치)를 가리는 과정. EarthMAE는 75~90% 패치를 가려 학습하며, 구름 같은 누락 데이터를 복원한다.  
  • 패치(Patch): 이미지를 작은 조각으로 나눈 단위. 예: 224x224 이미지를 16x16 크기로 나누면 196개 패치 생성.  
  • 인코더(Encoder): ViT 기반으로 가시적인 패치의 특징을 추출하고 압축된 특징 벡터로 변환. 맥락 학습에 핵심 역할.  
  • 디코더(Decoder): 인코더의 특징 벡터와 마스크 토큰을 받아 가려진 패치를 예측, 이미지를 재구성한다.  
  • 마스크 토큰(Mask Token): 가려진 패치의 위치를 나타내는 플레이스홀더. 디코더가 예측 대상으로 사용.  
  • ViT(Vision Transformer): 이미지 데이터를 처리하는 트랜스포머 아키텍처. 패치 간 상호작용과 맥락을 학습한다.  
  • 위치 인코딩(Positional Encoding): 패치의 공간적 위치, 시간, 소스 정보를 추가해 맥락을 제공.  
  • 튜브 마스킹(Tube Masking): 시계열 데이터에서 동일 패치를 모든 타임스텝에서 가림. 시간적 연속성 학습에 유용.  
  • 랜덤 마스킹(Random Masking): 패치를 무작위로 가림. 다양한 패턴 학습에 활용.  
  • 소스 인코딩(Source Encoding): 데이터 소스(Satellogic, Sentinel 등)를 구분하는 인코딩. 데이터 특성을 반영.  
  • SAR(Synthetic Aperture Radar): 레이더 기반 데이터. 구름 투과성으로 광학 데이터의 한계를 보완, 지형 정보 제공.  
  • TOA(Top-of-Atmosphere): 대기 상단에서 측정한 원시 반사율 데이터. 대기 보정 전 데이터로, 원본성을 보장한다.  
  • 토크나이저(Tokenizer): 데이터를 모델이 처리할 수 있는 형태로 변환. EarthMAE에서는 소스별(예: Satellogic RGB, Sentinel SAR)로 데이터를 패치 단위로 나누고 벡터로 변환.

Velazquez_EarthView_A_Large_Scale_Remote_Sensing_Dataset_for_Self-Supervision_WACVW_2025_paper.pdf
8.34MB

반응형