1. 遥感数据分析python库scikit-eo
scikit-eo是用于遥感数据分析的Python包,通过pip安装,也可从GitHub源码安装。scikit-eo提供了多种机器学习和神经网络算法,可用于土地利用和土地覆盖(LULC)分析,包括:
- 机器学习算法(随机森林、支持向量机、决策树、朴素贝叶斯、神经网络等)
- 监督分类校准(如蒙特卡罗交叉验证、留一交叉验证等)
- 混淆矩阵的置信区间信息
- K-means分类和算法校准
- 主成分分析(PCA)
- 大气校正
- 深度学习算法
- 线性趋势分析(用于森林退化或土地退化制图)
- 多源遥感数据融合
- 谱混合分析(亚像元分类)
论文给出了一个使用支持向量机进行LULC分类的例子。总的来说,scikit-eo为遥感数据处理提供了一个强大的Python工具包,集成了多种机器学习和神经网络算法,可用于各种LULC分析应用。

论文:https://joss.theoj.org/papers/10.21105/joss.06692
代码:https://github.com/yotarazona/scikit-eo
使用说明:https://yotarazona.github.io/scikit-eo/
2. 阿里通义千问开源多模态视觉模型Qwen2-VL
阿里开源了最新视觉多模态模型:Qwen2-VL,能理解超20分钟视频,能力媲美GPT-4o。Qwen2-VL的72B模型在大部分指标上甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等,特别在文档理解方面。支持理解超过20分钟的视频,并用于问答、对话和内容创作。支持英语、中文、大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。可集成到手机、机器人等设备,根据视觉环境和文字指令进行操作,实现智能体能力。支持理解**不同分辨率和不同长宽比的图片,**在 MathVista、DocVQA、RealWorldQA、MTVQA 等视觉理解基准测试中表现出色。
目前其2B和7B参数模型已开源,72B模型已开放API。

模型:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d代码:https://github.com/QwenLM/Qwen2-VLDemo: https://huggingface.co/spaces/Qwen/Qwen2-VLAPI:
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
3. 支持与本地文档对话的开源工具
一个能让你与文档进行对话的开源工具kotaemon。基于 RAG 技术实现与文档的交互式对话,支持多模态检索,可以处理文本、图表和表格等不同类型的数据。该工具提供简洁易用的界面,并支持使用本地 LLM 或主流 LLM API 提供商,还可一键安装使用。
后端功能
- 使用Python和Flask或FastAPI构建后端API。
- 支持多用户登录和权限管理,每个用户可以有自己的私有和公共文件集合。
- 集成流行的LLM和嵌入模型API,如OpenAI、Azure、Ollama和Groq。
- 实现混合RAG管道,包括全文和向量检索器以及重排序,确保最佳检索质量。
- 支持多模态文档解析,包括处理图表和表格。
- 提供详细的引用,包括相关性得分,并在PDF查看器中高亮显示。
- 实现问题分解和基于代理的复杂推理方法。
前端功能
- 使用Gradio构建Web UI,提供可配置的设置。
- 允许用户上传和组织文档,设置权限。
- 提供问答界面,支持多模态输入。
- 显示答案和相关引用,包括PDF预览。
- 提供协作和分享功能,让用户分享聊天记录。
架构
- 后端API处理用户认证、文档管理和问答逻辑。
- 前端UI通过API与后端交互,提供用户界面。
- 使用分布式索引和检索策略,如GraphRAG,确保可扩展性和性能。
这个项目涉及许多有趣的技术挑战,如多用户支持、多模态文档处理、复杂推理方法和可扩展的检索架构。


https://github.com/Cinnamon/kotaemon
4. 微软推出快速原型化AI代理的低代码界面工具
Microsoft Research最近推出了AutoGen Studio,这是一个用于快速原型化AI代理的低代码界面。它建立在AutoGen框架的基础之上,也可用于调试和评估多代理工作流程。AutoGen Studio提供了以下关键功能:
低代码环境
AutoGen Studio提供了一个图形用户界面,允许用户使用最少的编码来构建、测试和部署多代理工作流程。用户和开发人员可以从预定义的代理库中选择,并将它们组合成团队来解决特定任务。图形界面允许用户进一步使用基础模型、提示、技能和工作流程来定制这些工作流程。
导出和部署选项
用户可以将代理工作流程导出为JSON配置文件,并将其集成到任何Python应用程序中。这些工作流程也可以从命令行启动为API,或部署在Azure Container Apps和Azure Web Apps等云服务上。
社区和协作
AutoGen Studio培养了一个协作环境,允许用户分享、发现和学习彼此的工作流程、代理和技能。这种社区驱动的方法旨在培养专业知识并促进技术重用。

使用文档:
https://microsoft.github.io/autogen/docs/autogen-studio/getting-started/
论文:https://arxiv.org/abs/2408.15247
5. 开源Web爬虫FireCrawl
用户可以使用这个开源工具firecrawl集成的Claude 3.5或GPT-4o爬取整个网站,支持将整个网站转换为适合大型语言模型(LLM)的Markdown格式或结构化数据。
该工具通过一个API进行抓取、爬取和提取,会爬取所有可访问的子页面,并为每个页面提供干净的数据。无需提供网站地图。该工具最大的优势是提取的数据专门为基于LLM的管道量身定制。该工具支持在线使用或者自部署。目前在Github已经有11K Stars。

https://github.com/mendableai/firecrawl
6. 实时目标检测与统计
使用YOLOv8实现的实时目标检测、分割与统计任务,以饼图、柱状图、折线等形式展示统计结果,实现过程详见:
https://docs.ultralytics.com/guides/analytics/#why-graphs-are-important
7. 集成AI的开源项目管理和知识共享工具
AppFlowy是一款集成AI技术的开源项目管理和知识共享工具,可以是Notion的开源替代。
- 协作工作空间
统一的平台,方便团队成员协作管理项目、wiki、笔记等内容。
- AI 辅助
整合AI功能,辅助高效工作,比如自动生成内容、整理信息等。
- 数据安全
支持自部署,数据隐私性高,用户拥有对数据的完全控制权,以确保数据安全。


https://github.com/AppFlowy-IO/AppFlowy
8. 一篇介绍大语言模型提示工程(Prompt)的论文
基于Transformer的生成式人工智能(GenAI)系统正在各个行业和研究环境中越来越多地被部署。开发者和最终用户通过提示或提示工程(Prompt)与这些系统进行交互。尽管提示是一个广泛研究的概念,但由于该领域的初始阶段,存在相互矛盾的术语和对提示构成的本体论理解不足的情况。论文建立了对提示的结构化理解,通过汇编提示技术的分类法并分析其使用。
论文提供了一个包含33个术语的综合词汇表、58种仅限文本的提示技术的分类法以及40种其他模态的技术。
目前我看过的最全的介绍提示工程的论文《The Prompt Report: A Systematic Survey of Prompting Techniques》,非常系统地帮助理解提示工程的框架。

https://arxiv.org/pdf/2406.06608
9. 生成式AI学习资源
生成式人工智能(Generative AI)的发展迅速,正在各个行业引发深刻变革。近年来,深度学习和大语言模型(LLM)的进步使得生成式AI能够处理更复杂的任务。海量的训练数据使得模型能够学习和生成高质量的内容。另一方面,计算资源的提升使得训练和运行大型模型成为可能。生成式人工智能的应用范围包括内容创作、软件开发、游戏和虚拟现实等。该资源包括生成式AI相关的论文、代码、视频教程等资源。

本公众号相关内容推荐
- 图网络的应用场景及图分析python库
- 使用Python和NetworkX创建并可视化图网络(Graph Network)
- OpenResearcher:一个开源科学研究AI助理
- NeuralGCM: 一种融合机器学习与物理原理来模拟地球大气的新方法
- Transformer Explainer:文本生成模型交互式可视化工具
- 用于探索性数据分析(EDA)的开源python库
- 分享一个构建交互式D3js可视化的Python库
- 推荐15个图网络可视化python软件包
- 9个提升科研效率的软件工具
- 生成式人工智能模型颠覆传统天气预报
- 分享5个python可视化图表工具
- 分享17个网络(Network)数据可视化工具
- Napari:一个支持分析大型多维图像数据集的python工具
- 地理空间数据分析可视化R软件包汇总
- 大气海洋科学数据可视化案例集#2
- 一个快速检索和下载NASA地球科学数据的Python软件包
- 可视化呈现海洋洋流-墨西哥湾流
- 探索NOAA提供的数据产品资源
- 全球海洋船舶定位数据交互式可视化(附数据)
- 地球科学领域开源python包#1
- 地球科学领域开源python包#2
- 大规模空间矢量数据可视化Python库-lonboard
- 可视化呈现2023年是有气象记录以来最热的一年
- 大气海洋科学数据可视化案例集#1
- 地球科学领域计算分析开源Julia软件包
- 地球观测数据可视化工具
- 地球科学领域计算分析开源Julia软件包