****

随着深度学习技术的发展，模型对训练数据的需求量越来越大。在地球观测(EO)领域，虽然存在着海量的卫星数据，但当前的数据集往往存在格式不统一、数据结构多样等问题，这给数据集的互操作性带来了挑战。

近年来，地球观测和地理空间模型朝着更大、更通用的方向发展，这些模型被称为“基础模型”，需要海量的高质量训练数据，它们在解决重要的科学和社会问题方面展现出巨大潜力。然而，同时也存在挑战，包括：

本文介绍欧空局(ESA) Φ-lab的项目：Major TOM，旨在通过创建高质量、全球分布的AI-Ready数据集。该项目采用基于网格点的地理索引系统，方便不同数据集的整合和查询。通过设计元数据，允许合并来自不同来源的多个数据集。

2024年3月，Major TOM发布，首个核心数据集构成了迄今为止最大的基于机器学习的Sentinel-2数据集。

在Major TOM去年发布的首个数据集的基础上，研究团队推出了首个用于地球观测的全球Embedding数据集，提供了对大量数据的有效表示，从而可以对卫星数据进行更精确和可扩展的分析。

MajorTOM-Core数据集#

这是迄今为止最大规模基于机器学习的Sentinel-2卫星数据集。它包括Sentinel-2的两个处理级别，图像块大小为1068×1068像素，总计超过2.5万亿像素（比迄今为止最大的公开可用Sentinel-2数据集大一个数量级）。

数据集发布在HuggingFace网站：https://huggingface.co/Major-TOM

Major TOM Core 的全球覆盖范围示意图。彩色区域表示采样区域（绿色表示陆地，浅蓝色表示海洋）

Embedding是一种将复杂数据转换为高维向量的技术方法。在地球观测领域，它可以将卫星图像、传感器数据等复杂信息转换成计算机更容易处理的数值形式。可以把它理解为数据的”数字指纹”，这个”指纹”保留了原始数据的关键特征和内在关系。

以卫星图像为例，嵌入式表示的工作过程是：

最新版本通过处理超过62TB原始数据提供超过1.69亿个Embedding向量，该模型数据可以在HuggingFace上免费下载，包括：

这些数据使模型能够以与下游任务无关的方式精确地发现模式、相似性和联系。通过嵌入，用户可以有效地解释卫星图像、传感器数据和地理信息系统中的关键特征，从而简化空间关系的分析并优化时间和资源。

随着哥白尼计划中地球观测数据量的不断增加，高效的向量表示比以往任何时候都更加必要。通过将复杂数据编码为高维向量，嵌入捕获了关系和含义，将自然语言、图像和其他数据类型转换为紧凑的形式，可以轻松集成到各种人工智能工作流程中。