Newsletter #1: 2022年人工智能领域重磅论文总结

1. 2022年人工智能和数据科学领域重磅论文总结这个页面收集了2022年人工智能和数据科学领域发表的重磅论文，每篇论文均配有油管视频讲解，部分论文还附有实现代码。https://github.com/louisfb01/best\_AI\_papers\_2022

2. 用于遥感图像理解的大规模、多任务数据集Satlas

Satlas是一个大规模、多任务的数据集，用于衡量和改进遥感图像理解模型。Satlas的目标是：对卫星图像中可见的一切进行标注。Satlas包含的图像像素比现有最大的数据集多10倍，并跨越了7种模式。它比现有最大的数据集多出2倍。该数据集将在2023年1月发布。

https://satlas.allenai.org/Paper:https://arxiv.org/abs/2211.15660

论文提出了一个统一的模型结构SatNet。该模型支持Satlas中所有标签模式的预测。

作者将SatNet与Satlas上的八个基线进行比较；并使用多种预训练方法对下游应用任务的性能进行评估。

3. 基于SAR的山体滑坡分类预训练模型

自然灾害发生后的快速评估是确定应急资源优先次序的关键。在山体滑坡的情况下，快速评估包括确定受影响地区的范围和测量单个山体滑坡的大小和位置。合成孔径雷达（SAR）是一种不受天气条件影响的主动遥感技术。深度学习算法可以应用于SAR数据，但训练它们需要大量的标记数据集。在山体滑坡的情况下，这些数据集的产生是很费力的，而且往往没有事件发生的特定区域的数据。作者研究了用于SAR产品上的山体滑坡分割的深度学习算法如何从一个更简单的任务和来自不同地区的数据的预训练中获益。

Paper:https://arxiv.org/abs/2211.09927Code:https://github.com/VMBoehm/SAR-landslide-detection-pretraining**4.****利用语言模型设计并生成全新蛋白质****（Language models generalize beyond natural proteins）**

语言模型是一种机器学习模型，可以通过分析大量的数据来学习自然语言模式。在这篇研究论文中，作者对天然蛋白质的序列进行了语言模型的训练，并利用它们来生成自然界中没有的新蛋白质。作者专注于两项任务：固定骨架设计，即指定蛋白质的结构；以及无约束生成，即从模型中抽出结构。作者对生成的蛋白质进行了实验评估，发现他们在生成可溶性和单体蛋白质方面是成功的。

Paper:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1PDF:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf

5. 利用遥感数据预测强降雨（WeatherFusionNet: Predicting Precipitation from Satellite Data）

降水的短期预测在生活的许多领域都是至关重要的，有大量的工作致力于预测雷达反射率图像。雷达图像只有在有地面气象雷达的地区才能获得。因此，该方法是通过较低分辨率的卫星辐射率图像来预测高分辨率的降水。作者设计了名为WeatherFusionNet的神经网络被用来预测提前8小时的强降雨。WeatherFusionNet是一个U-Net架构，它融合了三种不同的方式来处理卫星数据。从当前帧（sat2rad）中提取雨水信息，预测未来的卫星帧（PhyDNet），以及直接结合输入序列来预测降雨（U-Net）。使用这种方法，WeatherFusionNet可以提前8小时预测强降雨。该模型在NeurIPS 2022 Weather4Cast challenge获得了第一名。这项挑战是让参与者从低分辨率的卫星数据中产生高分辨率的短期降雨预测。

Paper:https://arxiv.org/abs/2211.16824Code:https://github.com/Datalab-FIT-CTU/weather4cast-2022

6. 采用现场观测和机器学习建立的中国1公里每日土壤水分数据集

高质量的网格化土壤水分产品对于许多地球系统科学的应用是必不可少的，而最近的再分析和遥感土壤水分数据往往是粗略的分辨率，而且遥感数据只针对表层土壤。在此，我们提出了一个1公里分辨率的长期土壤水分数据集，该数据集是通过对中国境内1789个站点的原位测量数据进行机器学习训练后得出的，命名为SMCI1.0（中国原位数据土壤水分，1.0版）。基于随机森林方法，使用ERA5-Land时间序列、叶面积指数、土地覆盖类型、地形和土壤属性作为预测因子来预测土壤水分。SMCI1.0提供了2000-2020年期间每日分辨率的10层土壤湿度，间隔为10厘米，最深为100厘米。由于SMCI1.0是基于现场数据的，它可以作为现有基于模型和卫星的土壤水分数据集的有益补充，用于各种水文、气象和生态分析和模型。

Paper: https://essd.copernicus.org/articles/14/5267/2022/Datasets:https://data.tpdc.ac.cn/en/data/49b22de9-5d85-44f2-a7d5-a1ccd17086d2/**7. 一个用于神经网络和深度学习的并行Fortran框架neural-fortran**neural-fortran是一个用于神经网络和深度学习的并行Fortran框架。它有一个简单的界面来构建任意结构和大小的前馈神经网络，有几个激活函数，以及随机梯度下降作为默认优化算法。Neural-fortran还利用Fortran 2018标准的集体子程序，在共享或分布式内存机器上实现基于数据的并行性。易用性和计算性能与现有的流行机器学习框架相似，使neural-fortran成为进一步开发和生产中使用的可行的候选者。

Paper:https://arxiv.org/abs/1902.06714Code:https://github.com/modern-fortran/neural-fortran

8. 计算海洋近似中性表面的python工具包

海洋内部的运动主要是沿着而不是跨越中性切面发生的。这些平面不能连接在一起形成定义明确的表面，所以海洋学家使用近似中性表面。迄今为止，最准确的此类表面是ω-表面，但其实际效用有限，因为其数值实现速度慢，有时不稳定。这个python包可以在大约15秒内计算出1,440×720网格的海洋的ω-表面，而原来的软件大约需要11小时。