NOAA 每天从卫星、雷达、船舶、海洋与大气预报模型等来源获取和生成的数据量达到数10TB。虽然这些数据可供公众使用,但要下载和处理如此庞大的数据十分困难。
NOAA开放数据传播计划(NOAA Open Data Dissemination,NODD)通过商业公有云计算平台发布NOAA的开放数据,使公众能够以很方便快捷的方式访问这些数据。NODD 目前与亚马逊网络服务 (AWS)、谷歌云平台 (GCP) 和微软 Azure三家基础设施即服务 (IaaS) 提供商开展合作。这些合作伙伴关系可以促进全面、开放的数据访问,而且通过将NOAA数据整合到现有的基于云计算平台的数据访问和分析工具中,使海洋大气局的数据更易于访问,从而促进科技创新。

NOAA开放数据向公有云计算平台传输示意图
NODD发展历史
NODD计划始于2015年,是一个从研究到运行(R2O)的实验项目,名为大数据项目(BDP)。该项目旨在探索一种可扩展的方法,利用商业云服务向公众传播NOAA呈指数级增长的观测、模型和研究数据集。之所以需要一种新的传播方法,是因为指数级增长的数据给公众有效使用NOAA的数据带来了障碍,例如成本增加和带宽限制。

经过正式程序,NOAA于2015年4月与五个合作伙伴签署了为期三年的非竞争性合作研发协议(CRADA)。这五个合作伙伴包括亚马逊网络服务(AWS)、谷歌云平台(GCP)、IBM、微软Azure和开放共享联盟(OCC)。在CRADA阶段,通过云提供了 150 多个数据集。
2019 年,NOAA开始正式实施大数据项目,并正式向业界征求建议书,最终与AWS、Google Cloud和Microsoft签订了为期十年的合同。这使得大数据项目成为大数据计划,并从2019年10月开始具备大数据计划的初始运行能力。
2021年,大数据项目成为一项可运营的企业服务,即启动了NOAA开放数据传播计划(NODD),其使命仍是通过云平台为公众提供免费、便捷的数据访问。
NODD提供的数据集
- 卫星观测数据,包括GOES-16、GOES-17、GOES-18、Himawari-8/9、联合极轨卫星系统(JPSS)等卫星获取的数据。
- 雷达数据:下一代天气雷达(NEXRAD)
- 数值模式:全球预报系统GFS、全球集合预报系统GEFS、高分辨率快速循环同化更新预报系统(High Resolution Rapid Refresh,HRRR)
- 观测数据:全球历史气候观测网络(GHCN)、闪电观测数据
- 海洋数据:WOD、全球地形数据
- 渔业数据
截至2023年12月,该计划已整合并开放了约28PB数据,每天提供数十亿次请求和 PB级数据访问。
NODD已开放的数据集:https://www.noaa.gov/nodd/datasets


通过NODD在云上公开提供的部分NOAA数据集
点表示过去 5 个月在 AWS、Azure 和 GCP 上的每月加入量(y 轴)、上传量(x 轴)和交互量(点的大小)的中位数。蓝色虚线表示加入量和上传量的一比一比例。高于蓝线的数据集表示加入量多于上传量。
NODD数据访问方式
通过AWS、Azure和GCP上的NODD对象存储访问NOAA数据,用户无需支付任何费用。用户无需为访问数据付费,无需为任何数据出口付费,无需为访问数据进行身份验证,也无需拥有云账户来使用数据。每个云服务提供商都在其对象存储平台背后建立了基础设施,可同时并行提供数据,没有限制带宽流量:每个平台均支持每秒数千次请求。正是由于这种高性能的平台架构,单个用户可以在一天内访问PB级的数据。每个云服务提供商还提供免费计算服务,这些服务需要注册,但不需要云账户。例如Microsoft Planetary Computer、Google Colaboratory、Google Earth Engine、AWS Sagemaker Studio Lab。

AWS集成的数据集

Microsoft Planetary Computer集成的数据集

Google云平台提供的数据
本公众号相关内容推荐:
- 用于探索性数据分析(EDA)的开源python库
- 分享一个构建交互式D3js可视化的Python库
- 推荐15个图网络可视化python软件包
- 9个提升科研效率的软件工具
- 生成式人工智能模型颠覆传统天气预报
- 分享5个python可视化图表工具
- 分享17个网络(Network)数据可视化工具
- Napari:一个支持分析大型多维图像数据集的python工具
- 地理空间数据分析可视化R软件包汇总
- 大气海洋科学数据可视化案例集#2
- 一个快速检索和下载NASA地球科学数据的Python软件包
- 可视化呈现海洋洋流-墨西哥湾流
- 探索NOAA提供的数据产品资源
- 全球海洋船舶定位数据交互式可视化(附数据)
- 地球科学领域开源python包#1
- 地球科学领域开源python包#2
- 大规模空间矢量数据可视化Python库-lonboard
- 可视化呈现2023年是有气象记录以来最热的一年
- 大气海洋科学数据可视化案例集#1
- 地球科学领域计算分析开源Julia软件包
- 地球观测数据可视化工具
- 地球科学领域计算分析开源Julia软件包