1444 字
7 分钟
NOAA通过NODD计划提供PB级地球系统数据开放访问

NOAA 每天从卫星、雷达、船舶、海洋与大气预报模型等来源获取和生成的数据量达到数10TB。虽然这些数据可供公众使用,但要下载和处理如此庞大的数据十分困难。

NOAA开放数据传播计划(NOAA Open Data Dissemination,NODD)通过商业公有云计算平台发布NOAA的开放数据,使公众能够以很方便快捷的方式访问这些数据。NODD 目前与亚马逊网络服务 (AWS)、谷歌云平台 (GCP) 和微软 Azure三家基础设施即服务 (IaaS) 提供商开展合作。这些合作伙伴关系可以促进全面、开放的数据访问,而且通过将NOAA数据整合到现有的基于云计算平台的数据访问和分析工具中,使海洋大气局的数据更易于访问,从而促进科技创新。

NOAA开放数据向公有云计算平台传输示意图

NODD发展历史

NODD计划始于2015年,是一个从研究到运行(R2O)的实验项目,名为大数据项目(BDP)。该项目旨在探索一种可扩展的方法,利用商业云服务向公众传播NOAA呈指数级增长的观测、模型和研究数据集。之所以需要一种新的传播方法,是因为指数级增长的数据给公众有效使用NOAA的数据带来了障碍,例如成本增加和带宽限制。

经过正式程序,NOAA于2015年4月与五个合作伙伴签署了为期三年的非竞争性合作研发协议(CRADA)。这五个合作伙伴包括亚马逊网络服务(AWS)、谷歌云平台(GCP)、IBM、微软Azure和开放共享联盟(OCC)。在CRADA阶段,通过云提供了 150 多个数据集。

2019 年,NOAA开始正式实施大数据项目,并正式向业界征求建议书,最终与AWS、Google Cloud和Microsoft签订了为期十年的合同。这使得大数据项目成为大数据计划,并从2019年10月开始具备大数据计划的初始运行能力。

2021年,大数据项目成为一项可运营的企业服务,即启动了NOAA开放数据传播计划(NODD),其使命仍是通过云平台为公众提供免费、便捷的数据访问。

NODD提供的数据集

  • 卫星观测数据,包括GOES-16、GOES-17、GOES-18、Himawari-8/9、联合极轨卫星系统(JPSS)等卫星获取的数据。
  • 雷达数据:下一代天气雷达(NEXRAD)
  • 数值模式:全球预报系统GFS、全球集合预报系统GEFS、高分辨率快速循环同化更新预报系统(High Resolution Rapid Refresh,HRRR)
  • 观测数据:全球历史气候观测网络(GHCN)、闪电观测数据
  • 海洋数据:WOD、全球地形数据
  • 渔业数据

截至2023年12月,该计划已整合并开放了约28PB数据,每天提供数十亿次请求和 PB级数据访问。

NODD已开放的数据集:https://www.noaa.gov/nodd/datasets

通过NODD在云上公开提供的部分NOAA数据集

点表示过去 5 个月在 AWS、Azure 和 GCP 上的每月加入量(y 轴)、上传量(x 轴)和交互量(点的大小)的中位数。蓝色虚线表示加入量和上传量的一比一比例。高于蓝线的数据集表示加入量多于上传量。

NODD数据访问方式

通过AWS、Azure和GCP上的NODD对象存储访问NOAA数据,用户无需支付任何费用。用户无需为访问数据付费,无需为任何数据出口付费,无需为访问数据进行身份验证,也无需拥有云账户来使用数据。每个云服务提供商都在其对象存储平台背后建立了基础设施,可同时并行提供数据,没有限制带宽流量:每个平台均支持每秒数千次请求。正是由于这种高性能的平台架构,单个用户可以在一天内访问PB级的数据。每个云服务提供商还提供免费计算服务,这些服务需要注册,但不需要云账户。例如Microsoft Planetary Computer、Google Colaboratory、Google Earth Engine、AWS Sagemaker Studio Lab。

AWS集成的数据集

Microsoft Planetary Computer集成的数据集

Google云平台提供的数据

本公众号相关内容推荐:

NOAA通过NODD计划提供PB级地球系统数据开放访问
https://blog.scidatalab.net/posts/noaa通过nodd计划提供pb级地球系统数据开放访问/
作者
Echo
发布于
2024-05-22
许可协议
CC BY-NC-SA 4.0