3461 字
17 分钟
生成式AI重塑气象信息服务:7th NOAA AI Workshop深度解读之1/5

本文基于2025年NOAA第七届AI研讨会开幕专题”生成式AI与信息服务”整理,涵盖NOAA数据战略、国家气象局风暴报告自动生成、ECMWF聊天机器人开发,以及Tomorrow.IO的扩散模型创新应用。本文是该系列解读文章的第1篇。

引言#

当ChatGPT被问及”如果NOAA是一家私营公司,你会如何描述它的品牌”时,答案令人深思:

“全球最值得信赖的气候智能、海洋技术和大气解决方案来源"
"数据权威、科学诚信、公私合作”

这些由AI生成的描述,恰好点明了本次研讨会的核心议题:如何利用生成式AI来强化NOAA作为可信数据提供者的角色,同时提升数据的质量、可访问性和可用性

一、NOAA首席数据官的战略视角#

1.1 数据的经济价值#

NOAA首席数据官Tony LaVoi分享了一组令人印象深刻的数据:

  • • 2024年天气预报服务行业收入达102亿美元
  • • NOAA观测系统支撑着800家企业,雇用超过30万名员工
  • • 金融界正在使用NOAA数据规划与天气相关的金融不确定性

“NOAA数据驱动着经济和社会众多领域的产品和服务。“

1.2 “默认开放”的数据理念#

NOAA是一个”默认开放”的机构——绝大多数数据不仅可以而且依法必须公开。数据的价值只有在被使用时才能体现,而AI/ML正是放大这一价值的关键。

Tony提出了生成式AI与数据交叉点上的三个关键指标:

  • • 质量(Quality)
  • • 可访问性(Accessibility)
  • • 可用性(Usability)

1.3 75个生成式AI试点项目#

在首席技术官Frank Indiglio的领导下,NOAA正在运行约75个生成式AI试点项目。常见主题包括:

  1. 1. 数据文档和元数据挑战:利用GenAI自动化数据管理计划和元数据创建
  2. 2. 数据发现:解决”我们知道你们有很多数据,但很难找到”的老问题
  3. 3. 增强可访问性:使数据对LLM代理更加兼容
  4. 4. 态势感知仪表板:实时信息汇总
  5. 5. 数据理解和可视化

1.4 数据治理的警示#

“云和AI将补充和改进,但不能替代我们的核心数据治理和管理要求。高质量数据不是凭空产生的,它来自对数据治理和管理的承诺。”

这是来自首席数据官的”公共服务公告”——技术可以加速,但基础仍然是人对数据质量的承诺。

二、国家气象局:自动生成风暴报告#

2.1 什么是本地风暴报告(LSR)?#

本地风暴报告是预报员从各种来源(应急管理人员、公众来电、社交媒体、观测站)收集的风暴事件报告,包括冰雹、龙卷风、热带风暴损害等。

为什么重要?

  • • 预报员的实时态势感知
  • • 验证预报准确性(预警是否与地面情况吻合)
  • • 量化风暴事件的影响

2.2 挑战:手工过程的瓶颈#

撰写LSR是一个手工过程,耗时且不一致。更棘手的是:大规模天气事件时报告最多,而预报员的时间被分散在处理事件和收集报告之间。

2.3 解决方案:GenAI自动起草系统#

与AWS生成式AI创新中心合作,国家气象局正在开发一个系统:

数据源(第一阶段):

  • • 新闻和社交媒体
  • • 与应急管理社区的Slack频道
  • • 交通部门报告
  • • mPING(公众天气事件提交系统)

系统流程:

多源数据输入 → GenAI系统起草LSR → 人工审核/编辑/拒绝 → 提交到数据库

关键设计原则:人在回路(Human in the Loop)

系统生成草稿,但最终决定权在预报员——他们可以审核、编辑或拒绝报告。

2.4 早期成果与挑战#

成功案例:
从社交媒体图片中,系统成功提取了:

  • • 事件类型
  • • 经纬度位置
  • • 关键描述信息

挑战场景:

  • • “曼哈顿北端”——系统难以精确定位
  • • 城市名在多个州重复——需要上下文消歧

2.5 用雷达验证报告可信度#

一个创新点是使用雷达数据验证报告真实性

输入:日期、时间、位置、事件类型
系统分析雷达数据
输出:验证结论 + 置信度 + 推理逻辑

示例输出(龙卷风报告验证):

结论:是,这可能是有效报告
置信度:中等
推理:雷达特征显示沿海系统发展模式,但要确认龙卷风需要更多数据——速度数据、其他地面观测者报告…

系统甚至知道自己需要什么数据才能更有信心——这是一个令人惊喜的表现。

2.6 训练数据的人工积累#

在开发之前,团队发现缺少输入-输出配对数据。于是招募了54名志愿者,创建了600多个配对样本(如:一条推文 → 对应的LSR报告)。

“没有这些数据,我们什么也做不了。向所有志愿者致敬!“

三、ECMWF:目的地地球(Destination Earth)聊天机器人#

3.1 项目背景:复杂系统的用户接口#

目的地地球是欧洲委员会资助的大型项目,ECMWF与欧洲航天局、EUMETSAT合作构建基于数字孪生的信息系统:

  • • 气候孪生:5公里分辨率,十年尺度预测
  • • 极端天气孪生:4.4公里分辨率,4天预报

数据分布在不同超算平台,运行各种假设场景,对用户来说非常复杂。聊天机器人的目标是改变用户与信息系统的交互方式

3.2 目标受众:技术用户#

聊天机器人首先面向技术用户:

  • • 特定领域的主题专家
  • • 科学家和软件工程师
  • • 数据的”高级用户”

3.3 核心功能#

1. 数据发现

  • • 数据覆盖范围
  • • 可用参数
  • • 数据位置

2. 用户支持与API使用

  • • 生成代码片段帮助入门
  • • 无需翻阅大量API文档

3. 数据获取

  • • 从提示到数据提取的完整流程
  • • 在浏览器中直接获取数据

3.4 技术架构:防幻觉设计#

RAG系统(技术文档 + 数据目录)
       
    智能体 + 工具
       
  精确的代码/数据提取

关键设计:智能体查询真实目录

“智能体实际查询真实的数据目录,所以聊天机器人不会编造任何元数据。这防止了用户因获得不存在的数据而产生的挫败感和信任丧失。“

3.5 示例交互#

问题: “我应该在法国南部种植山毛榉吗?”

系统响应逻辑:

    1. 识别这是一个与气候数据相关的问题
    1. 引导用户到相关数据参数
    1. 提供数据获取方式和代码片段
    1. 最终答案总是指向数据

“理想情况下,聊天机器人的答案总是数据。“

3.6 未来展望:智能体网络#

一个专注于”从提示到数据”的专业智能体,未来可以成为更大系统的一部分——不同组织的智能体相互连接,形成资源网络。

四、Tomorrow.IO:扩散模型驱动的区域预报#

4.1 公司定位#

Tomorrow.IO是一家SaaS公司,三大核心领域:

  1. 1. 平台和API:向客户提供天气预报信息
  2. 2. 模型能力:物理模型 + AI/ML模型
  3. 3. 全球观测:自有微波探测卫星星座

4.2 AI天气模型的局限与机遇#

GraphCast等开源AI天气模型表现出色,但有一个共同局限:

  • • 都在传统再分析数据上训练
  • • 都用传统同化系统初始化

机遇:用新的观测数据和初始化方法改进这些社区代码库。

4.3 Focus系统:扩散模型驱动的区域预报#

目标: 公里级分辨率的集合预报

架构: 基于Nvidia Earth-2的U-Net扩散架构,本质上是学习HRRR(高分辨率快速刷新模型)的物理过程。

性能亮点:

  • • 单个集合成员在Azure H100上运行仅需6秒
  • • 可以快速扩展集合数量
  • • 15分钟分辨率,15分钟刷新频率

灵活的输入源:

  • • 多个GFS成员
  • • ECMWF数据
  • • 全球AI模型(可将6小时/25km降尺度到高时空分辨率)

观测数据整合:

  • • RTMA
  • • 地面站
  • • METAR
  • • 雷达网络(实时初始化)

4.4 冷池不确定性的表达#

在一个俄克拉荷马州的中尺度对流系统案例中:

  • • 确定性HRRR显示阵风锋和冷池的物理表示
  • • 扩散模型集合均值结构相似,但包含更多不确定性信息
  • • 大集合可以表达冷池边界和阵风阈值的概率分布

这对于预报极端事件至关重要——客户关心的正是这些阈值。

4.5 跨区域迁移学习#

模型在美国训练后,可以应用到其他地区:

  • • 去除位置嵌入等约束
  • • 保留物理过程学习
  • • 结合全球统一降水产品初始化

在缺少密集观测网的地区,这种高效的降尺度能力尤为宝贵。

4.6 Tomorrow微波探测星座#

现状:

  • • 7颗在轨卫星
  • • 接近亚小时重访能力
  • • 数据质量与ATMS相当

意义:
传统同化系统每6小时运行一次。即使AI模型能在几秒内运行,如果初始化数据不新鲜也没意义。Tomorrow的星座填补了这个观测空白。

4.7 ICGen:初始条件生成器#

目标: 利用星座数据高效生成更准确的全球天气状态

方法:

    1. 用EDM和ERA5训练无条件扩散模型
    1. 推理时用Tomorrow微波探测数据引导扩散过程
    1. 生成的初始场保持热力学-动力学一致性

数据否定实验显示:

  • • 有/无TMS数据对湿度场有明显影响
  • • 湿度校正会传播到动力场
  • • 物理一致性得到保持

五、专家讨论:一年后的展望#

研讨会最后,每位专家分享了对一年后的期待:

Forest (Tomorrow.IO):

“直接观测到预测的框架。利用快速重访卫星探测真正改进模型初始条件。”

Stefan (ECMWF):

“很多用户在实际工作中使用AI预报。不仅是更多数据,而是用户真正能用起来。”

Jonas (ECMWF):

“解决如何约束聊天机器人坚持使用可信数据源的问题。这仍然是一个大挑战。”

Monica (NWS):

“可解释性的进步。更关键的是,从预测到行动——完美的预报如果人们不理解、不行动,就白费了。”

Tony (NOAA CDO):

“两个梦想:AI帮助我们处理、质控、记录更多数据;人们不再说’我知道你们有很多数据,但我找不到’。“

六、关键洞见与启示#

6.1 数据仍然是基础#

无论技术多先进,数据质量、治理和可访问性仍然是根本。生成式AI是加速器,不是替代品。

6.2 人在回路是必须的#

从NWS的LSR系统到所有专家的讨论,人类监督和决策权是建立信任的关键。

6.3 防幻觉的技术方案#

ECMWF的方法值得借鉴:让智能体查询真实数据目录,而不是让LLM编造元数据。

6.4 观测数据的新价值#

Tomorrow.IO的案例表明,在AI天气预报时代,快速、高质量的观测数据成为新的竞争优势。

6.5 跨职能协作是关键#

从NOAA的战略层面到项目层面,打破IT、数据、科学、运营的壁垒是成功的前提。

6.6 从预测到行动#

Monica的观点发人深省:再完美的预报,如果公众不理解、不行动,就没有意义。生成式AI在”最后一公里”的价值可能比在预测本身更大。

结语#

本次研讨会开幕专题描绘了一幅生动的图景:生成式AI正在从多个维度重塑气象信息服务——

  • • 数据层面:自动化文档、元数据生成、质量控制
  • • 产品层面:自动起草风暴报告、智能问答系统
  • • 模型层面:扩散模型驱动的高效集合预报
  • • 用户层面:自然语言界面、代码生成、数据获取

但所有这些创新都建立在一个共同的基础上:可信赖的数据和负责任的AI应用

正如Tony LaVoi所说,NOAA的品牌核心是”信任”。在生成式AI时代,维护这种信任需要新的方法——更好的验证管道、更透明的系统、更紧密的人机协作。


本文整理自NOAA第七届AI研讨会(2025年)开幕专题”生成式AI与信息服务”,演讲者包括NOAA首席数据官Tony LaVoi、国家气象局Monica Youngman、ECMWF的Stefan Simon和Jonas,以及Tomorrow.IO的Forest Cannon。

生成式AI重塑气象信息服务:7th NOAA AI Workshop深度解读之1/5
https://blog.scidatalab.net/posts/生成式ai重塑气象信息服务-7th-noaa-ai-workshop深度解读之1-5/
作者
Echo
发布于
2025-12-24
许可协议
CC BY-NC-SA 4.0