APPLICATION 打造智能家居的AI代理 近十年来,我一直在研究智能家居 API。我购买了许多系统,构建了多个版本的集成 API、移动应用程序和聊天机器人,但它们从未完全实现真正的目标——像钢铁侠系列中的 JARVIS 一样的真正的AI驱动的家。
MODEL-ZOO PaliGemma2微调优化图像理解 通过使用自定义数据集(例如知名的 VQA)对 PalliGema2 进行微调,可以在高度特定的任务上实现最先进的性能,以连续且可扩展的方式弥合文本和视觉理解之间的差距。
LIBRARY Stagehand:Web自动化AI框架 Stagehand 是 Playwright 的 AI 继任者,提供三个简单的 API(act、extract 和 observer),为自然语言驱动的 Web 自动化提供构建模块。
TOOL Unstract零代码AI文档处理平台 Unstract是一个功能强大的基于 AI 的平台,可简化文档处理。本文探讨了 AI 文档处理的来龙去脉,以及 Unstract 如何简化你企业的文档处理需求。
APPLICATION 基于多模态LLM的PDF处理管道 我们的管道是一个两步过程。首先将每个页面分割成重要的块并总结每个块。其次对块进行一次索引,然后在每次收到请求时搜索这些块,并在 LLM 上下文中包含每个检索到的块的完整上下文。
MODEL-ZOO 34个编程大模型综合比较 本文对通过公共 API 提供的顶级 LLM 进行了深入分析。我专注于它们在编码任务中的表现,以 HumanEval 等基准为衡量标准,以及它们在各自的 Elo 分数中反映的实际表现。
APPLICATION 基于Schema的LLM结构化输出 记者们通过文档转储和白皮书获得 PDF 作为对 FOIA 请求的回应。要使用 PDF,这些记者需要从文档中获取数据并将其转换为易于分析的格式,例如电子表格。该过程可能涉及费力的手动转录或将数据从一种格式复制并粘贴到另一种格式。 从理论上讲,大型语言模型可以协助文档处理,但幻觉等风险和 LLM 输出固有的不确定性使这种方法变得棘手。记者需要确保输出确实包含所需的数据、遵循所需的数据类型并采用可用的格式。 结构化输出为这些挑战提供了解决方案。像 Anthropic 和 OpenAI 这样的提供商以及像 Outlines 这样的开源库允许开发人员定义严格的模式,将 LLM 响应限制在特定字段、数据类型和格式。 结构化输出将原始的 LLM 功能转换为可靠的数据处理管道。例如,从多页 PDF 中提取表格时,模式可确保跨页面的列名和数据类型一致。虽然这种方法不能保证完全准确,但它降低了解析和验证 LLM 响应的工程复杂性,使文档处理工作流更加可靠和易于维护。 模式本质上是一个蓝图,它告诉模型要查找哪些信息以及如何组织这些信息。可以将其想象成一个标准化表格:记者不是让模型以任何格式返回数据,而是提供特定的字段来填写——这是一个日期,这是一个美元金额,另一个应该是是/
LIBRARY Apryse文档提取JS开发包 Apryse 是一款用于文档管理的一体化原生工具包,它提供了用于 Web、移动、客户端和服务器使用的库,涵盖 PDF 查看、注释、编辑、创建、生成,以及与我的需求最相关的:通过其服务器 SDK 提取数据,以 JSON、XML 甚至 XLSX 格式提供数据。
DEVOPS 大模型推理加速与服务优化 使用 Triton Inference Server 部署 TensorRT-LLM 并设置与 OpenAI 兼容的 API 可实现高效、高性能的推理大型语言模型。