Software 2.0

SAM 2 视频分割
MODEL-ZOO

SAM 2 视频分割

Segment Anything Model 2 (SAM 2) 是一个统一的视频和图像分割模型。 与图像分割相比,视频分割面临着独特的挑战。物体运动、变形、遮挡、光照变化和其他因素可能会在帧与帧之间发生巨大变化。由于相机运动、模糊和分辨率较低,视频质量通常低于图像,这进一步增加了难度。 SAM 2 在视频分割方面表现出更高的准确性,交互次数比以前的方法少 3 倍。SAM 2 在图像分割方面更准确,速度比原始 Segment Anything Model (SAM) 快 6 倍。 1、加载 SAM 2 模型进行视频处理💡点击这里打开本指南附带的笔记本。首先,使用以下命令克隆存储库并安装所需的依赖项: git clone https://github.com/facebookresearch/segment-anything-2.git

Arxiv论文检索和摘要工具
APPLICATION

Arxiv论文检索和摘要工具

随着人工智能的不断发展,促进多个 AI 代理协调的框架的开发已获得显著的关注。多代理系统不再依赖单一、包罗万象的 LLM,而是采用一组专门的代理,每个代理都旨在擅长某项特定任务。这种方法允许更复杂、更细致入微地解决问题,因为代理可以协作、共享信息并利用各自的优势。 OpenAI Swarm 是一个实验性框架,旨在使多代理协调更易于访问和用户友好。OpenAI 的 Swarm 是一个开创性的框架,它支持创建和管理协作 AI 代理,旨在更有效地处理复杂任务。本文深入探讨了 OpenAI Swarm 及其架构,并与其他著名框架(如 LangGraph、Microsoft AutoGen 和 CrewAI)进行了比较。 1、OpenAI SwarmOpenAI Swarm 是一个开源框架,旨在简化多代理系统的开发和协调。与传统的单代理模型不同,Swarm 允许多个 AI 代理动态交互、共享任务并协作解决复杂问题。该框架特别适合需要复杂任务协调的应用程序,

Illuminate 用论文生成播客
TOOL

Illuminate 用论文生成播客

凭借 NotebookLM 取得突破性成功后,强大的 Google 机器再次从其研究实验室推出另一款产品。 Google Illuminate 在许多方面都是一款与 NotebookLM 类似的播客制作产品,但在一个关键功能上却完全不同——它的重点完全放在播客上。 这两种人工智能工具都旨在更快、更轻松地将知识提炼成友好易懂的块,并以方便人类的方式呈现。 Illuminate 目前仅向特定群体开放,并有候补名单以获得更广泛的访问权限。目前尚不清楚它是否会成为不仅仅是一个实验。 1、什么是 Google Illuminate?Google Illuminate 是一个简单的播客生成器,它使用人工智能来创建对话,类似于 NotebookLM 中的播客功能。这些新工具背后的原理是,人工智能非常擅长阅读大量文本、视频或音频,然后生成深刻的摘要。 谷歌在这一领域的优势在于,其 Gemini 人工智能模型拥有巨大的上下文窗口,是其竞争对手的两倍,达到 200 万个标记。上下文窗口本质上是人工智能在开始遗忘或退化之前在一次会话中可以保存的信息量。 这意味着,其他模型(来自 OpenAI 或 Anthropic)

GPT-4o mini微调医疗援助模型
MODEL-ZOO

GPT-4o mini微调医疗援助模型

在着手创建由生成式 AI 驱动的聊天解决方案时,效率应该是我们的指导方针。从利用 SaaS 解决方案到从头开始构建模型,选项多种多样。在本文中,我将介绍基于 Azure OpenAI 服务的模型微调,重点是在定制与效率之间取得平衡。 注意:本文中显示的输入数据包含与医学相关的一般问题和答案,目的是开发一个包含一些医学领域信息的模型。由于我不是医学专业人士,我仅将这些数据用于本文所讨论的数据科学工作,而不是建议或表明任何医疗状况或疾病的定义、预防、诊断或治疗。优先考虑效率意味着并不总是需要选择最大、最强大的模型。定制通常使我们能够使用更轻量的模型版本实现卓越的性能。出于这个原因,我选择了 GPT-4o mini,它是著名的 GPT-4o 模型的较小版本。 在下图中,我们可以在两个阶段使用它:提示工程和 AOAI 模型 FT。 1、为什么微调是一个明智的选择?你可能已经熟悉了少样本学习的概念,其中机器学习模型在极少量的标记示例上进行训练,从而提高效率。微调是另一种(尽管是独立的)优先考虑效率的方法,并且与少样本学习相比具有几个优势: 质量结果:微调可以在比单个提示更大的数据集上进行训练,从而产生更高质量的输出。