生成式AI重塑气象信息服务：7th NOAA AI Workshop深度解读之1/5

本文基于2025年NOAA第七届AI研讨会开幕专题”生成式AI与信息服务”整理，涵盖NOAA数据战略、国家气象局风暴报告自动生成、ECMWF聊天机器人开发，以及Tomorrow.IO的扩散模型创新应用。本文是该系列解读文章的第1篇。

引言#

当ChatGPT被问及”如果NOAA是一家私营公司，你会如何描述它的品牌”时，答案令人深思：

“全球最值得信赖的气候智能、海洋技术和大气解决方案来源"
"数据权威、科学诚信、公私合作”

这些由AI生成的描述，恰好点明了本次研讨会的核心议题：如何利用生成式AI来强化NOAA作为可信数据提供者的角色，同时提升数据的质量、可访问性和可用性。

一、NOAA首席数据官的战略视角#

1.1 数据的经济价值#

NOAA首席数据官Tony LaVoi分享了一组令人印象深刻的数据：

• 2024年天气预报服务行业收入达102亿美元
• NOAA观测系统支撑着800家企业，雇用超过30万名员工
• 金融界正在使用NOAA数据规划与天气相关的金融不确定性

“NOAA数据驱动着经济和社会众多领域的产品和服务。“

1.2 “默认开放”的数据理念#

NOAA是一个”默认开放”的机构——绝大多数数据不仅可以而且依法必须公开。数据的价值只有在被使用时才能体现，而AI/ML正是放大这一价值的关键。

Tony提出了生成式AI与数据交叉点上的三个关键指标：

• 质量(Quality)
• 可访问性(Accessibility)
• 可用性(Usability)

1.3 75个生成式AI试点项目#

在首席技术官Frank Indiglio的领导下，NOAA正在运行约75个生成式AI试点项目。常见主题包括：

1. 数据文档和元数据挑战：利用GenAI自动化数据管理计划和元数据创建
2. 数据发现：解决”我们知道你们有很多数据，但很难找到”的老问题
3. 增强可访问性：使数据对LLM代理更加兼容
4. 态势感知仪表板：实时信息汇总
5. 数据理解和可视化

1.4 数据治理的警示#

“云和AI将补充和改进，但不能替代我们的核心数据治理和管理要求。高质量数据不是凭空产生的，它来自对数据治理和管理的承诺。”

这是来自首席数据官的”公共服务公告”——技术可以加速，但基础仍然是人对数据质量的承诺。

二、国家气象局：自动生成风暴报告#

2.1 什么是本地风暴报告(LSR)？#

本地风暴报告是预报员从各种来源（应急管理人员、公众来电、社交媒体、观测站）收集的风暴事件报告，包括冰雹、龙卷风、热带风暴损害等。

为什么重要？

• 预报员的实时态势感知
• 验证预报准确性（预警是否与地面情况吻合）
• 量化风暴事件的影响

2.2 挑战：手工过程的瓶颈#

撰写LSR是一个手工过程，耗时且不一致。更棘手的是：大规模天气事件时报告最多，而预报员的时间被分散在处理事件和收集报告之间。

2.3 解决方案：GenAI自动起草系统#

与AWS生成式AI创新中心合作，国家气象局正在开发一个系统：

数据源（第一阶段）：

• 新闻和社交媒体
• 与应急管理社区的Slack频道
• 交通部门报告
• mPING（公众天气事件提交系统）

系统流程：

1
多源数据输入 → GenAI系统起草LSR → 人工审核/编辑/拒绝 → 提交到数据库

关键设计原则：人在回路(Human in the Loop)

系统生成草稿，但最终决定权在预报员——他们可以审核、编辑或拒绝报告。

2.4 早期成果与挑战#

成功案例：
从社交媒体图片中，系统成功提取了：

• 事件类型
• 经纬度位置
• 关键描述信息

挑战场景：

• “曼哈顿北端”——系统难以精确定位
• 城市名在多个州重复——需要上下文消歧

2.5 用雷达验证报告可信度#

一个创新点是使用雷达数据验证报告真实性：

1
输入：日期、时间、位置、事件类型
2
↓
3
系统分析雷达数据
4
↓
5
输出：验证结论 + 置信度 + 推理逻辑

示例输出（龙卷风报告验证）：

结论：是，这可能是有效报告
置信度：中等
推理：雷达特征显示沿海系统发展模式，但要确认龙卷风需要更多数据——速度数据、其他地面观测者报告…

系统甚至知道自己需要什么数据才能更有信心——这是一个令人惊喜的表现。

2.6 训练数据的人工积累#

在开发之前，团队发现缺少输入-输出配对数据。于是招募了54名志愿者，创建了600多个配对样本（如：一条推文 → 对应的LSR报告）。

“没有这些数据，我们什么也做不了。向所有志愿者致敬！“

三、ECMWF：目的地地球(Destination Earth)聊天机器人#

3.1 项目背景：复杂系统的用户接口#

目的地地球是欧洲委员会资助的大型项目，ECMWF与欧洲航天局、EUMETSAT合作构建基于数字孪生的信息系统：

• 气候孪生：5公里分辨率，十年尺度预测
• 极端天气孪生：4.4公里分辨率，4天预报

数据分布在不同超算平台，运行各种假设场景，对用户来说非常复杂。聊天机器人的目标是改变用户与信息系统的交互方式。

3.2 目标受众：技术用户#

聊天机器人首先面向技术用户：

• 特定领域的主题专家
• 科学家和软件工程师
• 数据的”高级用户”

3.3 核心功能#

1. 数据发现

• 数据覆盖范围
• 可用参数
• 数据位置

2. 用户支持与API使用

• 生成代码片段帮助入门
• 无需翻阅大量API文档

3. 数据获取

• 从提示到数据提取的完整流程
• 在浏览器中直接获取数据

3.4 技术架构：防幻觉设计#

1
RAG系统（技术文档 + 数据目录）
2
        ↓
3
    智能体 + 工具
4
        ↓
5
  精确的代码/数据提取

关键设计：智能体查询真实目录

“智能体实际查询真实的数据目录，所以聊天机器人不会编造任何元数据。这防止了用户因获得不存在的数据而产生的挫败感和信任丧失。“

3.5 示例交互#

问题： “我应该在法国南部种植山毛榉吗？”

系统响应逻辑：

1. 识别这是一个与气候数据相关的问题
1. 引导用户到相关数据参数
1. 提供数据获取方式和代码片段
1. 最终答案总是指向数据

“理想情况下，聊天机器人的答案总是数据。“

3.6 未来展望：智能体网络#

一个专注于”从提示到数据”的专业智能体，未来可以成为更大系统的一部分——不同组织的智能体相互连接，形成资源网络。

四、Tomorrow.IO：扩散模型驱动的区域预报#

4.1 公司定位#

Tomorrow.IO是一家SaaS公司，三大核心领域：

1. 平台和API：向客户提供天气预报信息
2. 模型能力：物理模型 + AI/ML模型
3. 全球观测：自有微波探测卫星星座

4.2 AI天气模型的局限与机遇#

GraphCast等开源AI天气模型表现出色，但有一个共同局限：

• 都在传统再分析数据上训练
• 都用传统同化系统初始化

机遇：用新的观测数据和初始化方法改进这些社区代码库。

4.3 Focus系统：扩散模型驱动的区域预报#

目标： 公里级分辨率的集合预报

架构： 基于Nvidia Earth-2的U-Net扩散架构，本质上是学习HRRR（高分辨率快速刷新模型）的物理过程。

性能亮点：

• 单个集合成员在Azure H100上运行仅需6秒
• 可以快速扩展集合数量
• 15分钟分辨率，15分钟刷新频率

灵活的输入源：

• 多个GFS成员
• ECMWF数据
• 全球AI模型（可将6小时/25km降尺度到高时空分辨率）

观测数据整合：

• RTMA
• 地面站
• METAR
• 雷达网络（实时初始化）

4.4 冷池不确定性的表达#

在一个俄克拉荷马州的中尺度对流系统案例中：

• 确定性HRRR显示阵风锋和冷池的物理表示
• 扩散模型集合均值结构相似，但包含更多不确定性信息
• 大集合可以表达冷池边界和阵风阈值的概率分布

这对于预报极端事件至关重要——客户关心的正是这些阈值。

4.5 跨区域迁移学习#

模型在美国训练后，可以应用到其他地区：

• 去除位置嵌入等约束
• 保留物理过程学习
• 结合全球统一降水产品初始化

在缺少密集观测网的地区，这种高效的降尺度能力尤为宝贵。

4.6 Tomorrow微波探测星座#

现状：

• 7颗在轨卫星
• 接近亚小时重访能力
• 数据质量与ATMS相当

意义：
传统同化系统每6小时运行一次。即使AI模型能在几秒内运行，如果初始化数据不新鲜也没意义。Tomorrow的星座填补了这个观测空白。

4.7 ICGen：初始条件生成器#

目标： 利用星座数据高效生成更准确的全球天气状态

方法：

1. 用EDM和ERA5训练无条件扩散模型
1. 推理时用Tomorrow微波探测数据引导扩散过程
1. 生成的初始场保持热力学-动力学一致性

数据否定实验显示：

• 有/无TMS数据对湿度场有明显影响
• 湿度校正会传播到动力场
• 物理一致性得到保持

五、专家讨论：一年后的展望#

研讨会最后，每位专家分享了对一年后的期待：

Forest (Tomorrow.IO)：

“直接观测到预测的框架。利用快速重访卫星探测真正改进模型初始条件。”

Stefan (ECMWF)：

“很多用户在实际工作中使用AI预报。不仅是更多数据，而是用户真正能用起来。”

Jonas (ECMWF)：

“解决如何约束聊天机器人坚持使用可信数据源的问题。这仍然是一个大挑战。”

Monica (NWS)：

“可解释性的进步。更关键的是，从预测到行动——完美的预报如果人们不理解、不行动，就白费了。”

Tony (NOAA CDO)：

“两个梦想：AI帮助我们处理、质控、记录更多数据；人们不再说’我知道你们有很多数据，但我找不到’。“

六、关键洞见与启示#

6.1 数据仍然是基础#

无论技术多先进，数据质量、治理和可访问性仍然是根本。生成式AI是加速器，不是替代品。

6.2 人在回路是必须的#

从NWS的LSR系统到所有专家的讨论，人类监督和决策权是建立信任的关键。

6.3 防幻觉的技术方案#

ECMWF的方法值得借鉴：让智能体查询真实数据目录，而不是让LLM编造元数据。

6.4 观测数据的新价值#

Tomorrow.IO的案例表明，在AI天气预报时代，快速、高质量的观测数据成为新的竞争优势。

6.5 跨职能协作是关键#

从NOAA的战略层面到项目层面，打破IT、数据、科学、运营的壁垒是成功的前提。

6.6 从预测到行动#

Monica的观点发人深省：再完美的预报，如果公众不理解、不行动，就没有意义。生成式AI在”最后一公里”的价值可能比在预测本身更大。

结语#

本次研讨会开幕专题描绘了一幅生动的图景：生成式AI正在从多个维度重塑气象信息服务——

• 数据层面：自动化文档、元数据生成、质量控制
• 产品层面：自动起草风暴报告、智能问答系统
• 模型层面：扩散模型驱动的高效集合预报
• 用户层面：自然语言界面、代码生成、数据获取

但所有这些创新都建立在一个共同的基础上：可信赖的数据和负责任的AI应用。

正如Tony LaVoi所说，NOAA的品牌核心是”信任”。在生成式AI时代，维护这种信任需要新的方法——更好的验证管道、更透明的系统、更紧密的人机协作。

本文整理自NOAA第七届AI研讨会（2025年）开幕专题”生成式AI与信息服务”，演讲者包括NOAA首席数据官Tony LaVoi、国家气象局Monica Youngman、ECMWF的Stefan Simon和Jonas，以及Tomorrow.IO的Forest Cannon。