本文基于2025年NOAA第七届AI研讨会开幕专题”生成式AI与信息服务”整理,涵盖NOAA数据战略、国家气象局风暴报告自动生成、ECMWF聊天机器人开发,以及Tomorrow.IO的扩散模型创新应用。本文是该系列解读文章的第1篇。

引言
当ChatGPT被问及”如果NOAA是一家私营公司,你会如何描述它的品牌”时,答案令人深思:
“全球最值得信赖的气候智能、海洋技术和大气解决方案来源"
"数据权威、科学诚信、公私合作”
这些由AI生成的描述,恰好点明了本次研讨会的核心议题:如何利用生成式AI来强化NOAA作为可信数据提供者的角色,同时提升数据的质量、可访问性和可用性。

一、NOAA首席数据官的战略视角
1.1 数据的经济价值
NOAA首席数据官Tony LaVoi分享了一组令人印象深刻的数据:
- • 2024年天气预报服务行业收入达102亿美元
- • NOAA观测系统支撑着800家企业,雇用超过30万名员工
- • 金融界正在使用NOAA数据规划与天气相关的金融不确定性
“NOAA数据驱动着经济和社会众多领域的产品和服务。“
1.2 “默认开放”的数据理念
NOAA是一个”默认开放”的机构——绝大多数数据不仅可以而且依法必须公开。数据的价值只有在被使用时才能体现,而AI/ML正是放大这一价值的关键。
Tony提出了生成式AI与数据交叉点上的三个关键指标:
- • 质量(Quality)
- • 可访问性(Accessibility)
- • 可用性(Usability)
1.3 75个生成式AI试点项目
在首席技术官Frank Indiglio的领导下,NOAA正在运行约75个生成式AI试点项目。常见主题包括:
- 1. 数据文档和元数据挑战:利用GenAI自动化数据管理计划和元数据创建
- 2. 数据发现:解决”我们知道你们有很多数据,但很难找到”的老问题
- 3. 增强可访问性:使数据对LLM代理更加兼容
- 4. 态势感知仪表板:实时信息汇总
- 5. 数据理解和可视化

1.4 数据治理的警示
“云和AI将补充和改进,但不能替代我们的核心数据治理和管理要求。高质量数据不是凭空产生的,它来自对数据治理和管理的承诺。”
这是来自首席数据官的”公共服务公告”——技术可以加速,但基础仍然是人对数据质量的承诺。

二、国家气象局:自动生成风暴报告
2.1 什么是本地风暴报告(LSR)?
本地风暴报告是预报员从各种来源(应急管理人员、公众来电、社交媒体、观测站)收集的风暴事件报告,包括冰雹、龙卷风、热带风暴损害等。
为什么重要?
- • 预报员的实时态势感知
- • 验证预报准确性(预警是否与地面情况吻合)
- • 量化风暴事件的影响

2.2 挑战:手工过程的瓶颈
撰写LSR是一个手工过程,耗时且不一致。更棘手的是:大规模天气事件时报告最多,而预报员的时间被分散在处理事件和收集报告之间。
2.3 解决方案:GenAI自动起草系统
与AWS生成式AI创新中心合作,国家气象局正在开发一个系统:
数据源(第一阶段):
- • 新闻和社交媒体
- • 与应急管理社区的Slack频道
- • 交通部门报告
- • mPING(公众天气事件提交系统)
系统流程:
多源数据输入 → GenAI系统起草LSR → 人工审核/编辑/拒绝 → 提交到数据库关键设计原则:人在回路(Human in the Loop)
系统生成草稿,但最终决定权在预报员——他们可以审核、编辑或拒绝报告。
2.4 早期成果与挑战
成功案例:
从社交媒体图片中,系统成功提取了:
- • 事件类型
- • 经纬度位置
- • 关键描述信息
挑战场景:
- • “曼哈顿北端”——系统难以精确定位
- • 城市名在多个州重复——需要上下文消歧
2.5 用雷达验证报告可信度
一个创新点是使用雷达数据验证报告真实性:
输入:日期、时间、位置、事件类型↓系统分析雷达数据↓输出:验证结论 + 置信度 + 推理逻辑示例输出(龙卷风报告验证):
结论:是,这可能是有效报告
置信度:中等
推理:雷达特征显示沿海系统发展模式,但要确认龙卷风需要更多数据——速度数据、其他地面观测者报告…
系统甚至知道自己需要什么数据才能更有信心——这是一个令人惊喜的表现。
2.6 训练数据的人工积累
在开发之前,团队发现缺少输入-输出配对数据。于是招募了54名志愿者,创建了600多个配对样本(如:一条推文 → 对应的LSR报告)。
“没有这些数据,我们什么也做不了。向所有志愿者致敬!“
三、ECMWF:目的地地球(Destination Earth)聊天机器人
3.1 项目背景:复杂系统的用户接口
目的地地球是欧洲委员会资助的大型项目,ECMWF与欧洲航天局、EUMETSAT合作构建基于数字孪生的信息系统:
- • 气候孪生:5公里分辨率,十年尺度预测
- • 极端天气孪生:4.4公里分辨率,4天预报
数据分布在不同超算平台,运行各种假设场景,对用户来说非常复杂。聊天机器人的目标是改变用户与信息系统的交互方式。
3.2 目标受众:技术用户
聊天机器人首先面向技术用户:
- • 特定领域的主题专家
- • 科学家和软件工程师
- • 数据的”高级用户”
3.3 核心功能
1. 数据发现
- • 数据覆盖范围
- • 可用参数
- • 数据位置
2. 用户支持与API使用
- • 生成代码片段帮助入门
- • 无需翻阅大量API文档
3. 数据获取
- • 从提示到数据提取的完整流程
- • 在浏览器中直接获取数据

3.4 技术架构:防幻觉设计
RAG系统(技术文档 + 数据目录) ↓ 智能体 + 工具 ↓ 精确的代码/数据提取关键设计:智能体查询真实目录
“智能体实际查询真实的数据目录,所以聊天机器人不会编造任何元数据。这防止了用户因获得不存在的数据而产生的挫败感和信任丧失。“
3.5 示例交互
问题: “我应该在法国南部种植山毛榉吗?”
系统响应逻辑:
-
- 识别这是一个与气候数据相关的问题
-
- 引导用户到相关数据参数
-
- 提供数据获取方式和代码片段
-
- 最终答案总是指向数据
“理想情况下,聊天机器人的答案总是数据。“
3.6 未来展望:智能体网络
一个专注于”从提示到数据”的专业智能体,未来可以成为更大系统的一部分——不同组织的智能体相互连接,形成资源网络。
四、Tomorrow.IO:扩散模型驱动的区域预报
4.1 公司定位
Tomorrow.IO是一家SaaS公司,三大核心领域:
- 1. 平台和API:向客户提供天气预报信息
- 2. 模型能力:物理模型 + AI/ML模型
- 3. 全球观测:自有微波探测卫星星座

4.2 AI天气模型的局限与机遇
GraphCast等开源AI天气模型表现出色,但有一个共同局限:
- • 都在传统再分析数据上训练
- • 都用传统同化系统初始化
机遇:用新的观测数据和初始化方法改进这些社区代码库。
4.3 Focus系统:扩散模型驱动的区域预报
目标: 公里级分辨率的集合预报
架构: 基于Nvidia Earth-2的U-Net扩散架构,本质上是学习HRRR(高分辨率快速刷新模型)的物理过程。
性能亮点:
- • 单个集合成员在Azure H100上运行仅需6秒
- • 可以快速扩展集合数量
- • 15分钟分辨率,15分钟刷新频率
灵活的输入源:
- • 多个GFS成员
- • ECMWF数据
- • 全球AI模型(可将6小时/25km降尺度到高时空分辨率)
观测数据整合:
- • RTMA
- • 地面站
- • METAR
- • 雷达网络(实时初始化)
4.4 冷池不确定性的表达
在一个俄克拉荷马州的中尺度对流系统案例中:
- • 确定性HRRR显示阵风锋和冷池的物理表示
- • 扩散模型集合均值结构相似,但包含更多不确定性信息
- • 大集合可以表达冷池边界和阵风阈值的概率分布
这对于预报极端事件至关重要——客户关心的正是这些阈值。
4.5 跨区域迁移学习
模型在美国训练后,可以应用到其他地区:
- • 去除位置嵌入等约束
- • 保留物理过程学习
- • 结合全球统一降水产品初始化
在缺少密集观测网的地区,这种高效的降尺度能力尤为宝贵。
4.6 Tomorrow微波探测星座
现状:
- • 7颗在轨卫星
- • 接近亚小时重访能力
- • 数据质量与ATMS相当
意义:
传统同化系统每6小时运行一次。即使AI模型能在几秒内运行,如果初始化数据不新鲜也没意义。Tomorrow的星座填补了这个观测空白。
4.7 ICGen:初始条件生成器
目标: 利用星座数据高效生成更准确的全球天气状态
方法:
-
- 用EDM和ERA5训练无条件扩散模型
-
- 推理时用Tomorrow微波探测数据引导扩散过程
-
- 生成的初始场保持热力学-动力学一致性
数据否定实验显示:
- • 有/无TMS数据对湿度场有明显影响
- • 湿度校正会传播到动力场
- • 物理一致性得到保持

五、专家讨论:一年后的展望
研讨会最后,每位专家分享了对一年后的期待:
Forest (Tomorrow.IO):
“直接观测到预测的框架。利用快速重访卫星探测真正改进模型初始条件。”
Stefan (ECMWF):
“很多用户在实际工作中使用AI预报。不仅是更多数据,而是用户真正能用起来。”
Jonas (ECMWF):
“解决如何约束聊天机器人坚持使用可信数据源的问题。这仍然是一个大挑战。”
Monica (NWS):
“可解释性的进步。更关键的是,从预测到行动——完美的预报如果人们不理解、不行动,就白费了。”
Tony (NOAA CDO):
“两个梦想:AI帮助我们处理、质控、记录更多数据;人们不再说’我知道你们有很多数据,但我找不到’。“
六、关键洞见与启示
6.1 数据仍然是基础
无论技术多先进,数据质量、治理和可访问性仍然是根本。生成式AI是加速器,不是替代品。
6.2 人在回路是必须的
从NWS的LSR系统到所有专家的讨论,人类监督和决策权是建立信任的关键。
6.3 防幻觉的技术方案
ECMWF的方法值得借鉴:让智能体查询真实数据目录,而不是让LLM编造元数据。
6.4 观测数据的新价值
Tomorrow.IO的案例表明,在AI天气预报时代,快速、高质量的观测数据成为新的竞争优势。
6.5 跨职能协作是关键
从NOAA的战略层面到项目层面,打破IT、数据、科学、运营的壁垒是成功的前提。
6.6 从预测到行动
Monica的观点发人深省:再完美的预报,如果公众不理解、不行动,就没有意义。生成式AI在”最后一公里”的价值可能比在预测本身更大。
结语
本次研讨会开幕专题描绘了一幅生动的图景:生成式AI正在从多个维度重塑气象信息服务——
- • 数据层面:自动化文档、元数据生成、质量控制
- • 产品层面:自动起草风暴报告、智能问答系统
- • 模型层面:扩散模型驱动的高效集合预报
- • 用户层面:自然语言界面、代码生成、数据获取
但所有这些创新都建立在一个共同的基础上:可信赖的数据和负责任的AI应用。
正如Tony LaVoi所说,NOAA的品牌核心是”信任”。在生成式AI时代,维护这种信任需要新的方法——更好的验证管道、更透明的系统、更紧密的人机协作。
本文整理自NOAA第七届AI研讨会(2025年)开幕专题”生成式AI与信息服务”,演讲者包括NOAA首席数据官Tony LaVoi、国家气象局Monica Youngman、ECMWF的Stefan Simon和Jonas,以及Tomorrow.IO的Forest Cannon。