Software 2.0

GenAI高级索引管道
RAG

GenAI高级索引管道

管理复杂的 GenAI 管道(尤其是具有多个模型和数据源的管道)可能是一项艰巨的任务。本文演示了如何将 LlamaIndex 与 Qdrant 和 MLflow 集成以简化 GenAI 应用程序的管理和部署。你将探索 MLflow 的功能(例如跟踪、模型打包和评估)如何实现 LlamaIndex 引擎的无缝处理。通过逐步实施,了解如何简化检索增强生成 (RAG) 工作流程、确保性能一致性并优化索引系统以实现更好的可扩展性和效率。 1、系统架构该架构集成了多个关键组件,以构建高效且可扩展的检索增强生成 (RAG) 系统。其核心是利用 LlamaIndex 进行索引和检索、利用 Qdrant 进行矢量存储和搜索以及利用 MLflow 在整个生命周期内注册、服务和跟踪所有组件的模型。这种设计旨在管理来自各种来源的大量数据,同时确保最终用户能够快速检索和准确推理。 管道从提取来自各种来源(例如 Web 文档、内部文档和数据库记录)的文档开始。这些文档由变更数据捕获

用LLM提取文档中的数据
APPLICATION

用LLM提取文档中的数据

近十年前,我在 LinkedIn 著名的数据标准化团队担任机器学习工程师。从我加入到离开,我们仍然无法自动读取一个人的个人资料,也无法在所有语言和地区可靠地了解某人的资历和职位。 乍一看,这很简单。“软件工程师”已经足够清楚了,对吧?如果一个人只写“助理”,那他可能是一个资历较低的零售员工(如果他们在沃尔玛工作)或者一个高级律师(如果他们在律师事务所工作)。但你可能知道这一点——你知道什么是 Java 新手吗?什么是 Freiwilliges Soziales Jahr?这不仅仅是了解德语——它翻译为“自愿社会年”。但什么是代表这个角色的良好标准头衔?如果你有一个已知的职位列表,你会把它映射到哪里? 我加入了 LinkedIn,我离开了 LinkedIn。我们取得了进展,但即使是最简单的常规文本——一个人的简历,也难以理解。 1、曾经困难的事情变得微不足道你可能不会惊讶地发现,对于像 GPT-4 这样的大模型来说,这个问题很简单: 对于 GPT 来说很容易但是等等,我们是一家公司,

商业文档多模态AI搜索
APPLICATION

商业文档多模态AI搜索

商业文档,例如复杂的报告、产品目录、设计文件、财务报表、技术手册和市场分析报告,通常包含多模态数据(文本以及图形、图表、地图、照片、信息图、图表和蓝图等视觉内容)。从这些文档中找到正确的信息需要对客户或公司员工提出的给定查询的文本和相关图像进行语义搜索。例如,公司的产品可能通过其标题、文本描述和图像来描述。同样,项目提案可能包括文本、说明预算分配的图表、显示地理覆盖范围的地图和过去项目的照片的组合。 准确快速地搜索多模态信息对于提高业务生产力非常重要。业务数据通常以文本和图像格式分布在各种来源中,这使得高效检索所有相关信息变得具有挑战性。虽然生成式 AI 方法(尤其是利用 LLM 的方法)增强了业务中的知识管理(例如,检索增强生成、图形 RAG 等),但它们在访问多模态、分散的数据方面面临限制。统一不同数据类型的方法允许用户使用自然语言提示查询各种格式。此功能可以使公司内的员工和管理层受益,并改善客户体验。它可以有多种用例,例如对相似主题进行聚类并发现主题趋势、构建推荐引擎、让客户参与更相关的内容、更快地访问信息以改进决策、提供特定于用户的搜索结果、增强用户交互以使其感觉更直观和自然,以及减少查找信息所花费的时间,仅举几例。

用AI设计REST API
APPLICATION

用AI设计REST API

自 2022 年 11 月推出 ChatGPT 以来,人工智能 (AI) 工具一直在科技界掀起波澜。这些工具的形式和功能差异很大,但其中有一个不变的点,那就是它们旨在改善用户的工作流程和效率。 但是,如果不了解这些工具的工作原理以及如何最好地与它们交互,那么有效使用这些工具可能会很困难。大多数这些工具——尤其是基于 OpenAI 的生成式预训练转换器 (GPT) 模型的工具。这些是大型语言模型 (LLM),其工作方式基本上是接受输入提示并根据训练过的数据预测哪些文本最有可能遵循该提示。 OpenAI 的模型已经接受了大量数据的训练,包括软件工程、编码和系统设计信息。因此,使用这些模型构建的 AI 可以回答您在这些领域和许多其他领域中的问题。 基于 OpenAI Codex 模型的 GitHub Copilot 和 ChatGPT 等 AI 工具被开发人员广泛用于帮助他们编写代码和解决技术问题。然而,由于上下文限制,这些工具在处理更大的软件设计挑战时存在局限性。 这正是 smol developer

开发第一个深度学习应用
DEEP LEARNING

开发第一个深度学习应用

我从事数据分析工作已经近十年了。我时不时地会使用机器学习技术从数据中获取见解,而且我习惯使用经典机器学习。 虽然我通过了一些关于神经网络和深度学习的 MOOC,但我从未在工作中使用过它们,而且这个领域对我来说似乎相当具有挑战性。我有这些偏见: 你需要学习很多东西才能开始使用深度学习:数学、不同的框架(我至少听说过其中三个:PyTorch、TensorFlow 和 Keras)和网络架构。需要大量数据集才能拟合模型。如果没有强大的计算机(它们还必须有 Nvidia GPU),就不可能获得不错的结果,因此很难进行设置。要启动和运行由机器学习驱动的服务,需要很多样板:你需要处理前端和后端。我认为分析的主要目标是帮助产品团队根据数据做出正确的决策。如今,神经网络绝对可以改善我们的分析,即 NLP 有助于从文本中获得更多见解。因此,我决定再次尝试利用深度学习的力量会很有帮助。 这就是我开始学习 Fast.AI 课程的方式(该课程于 2022 年初更新,因此我认为自 TDS 上之前的评测以来内容已经发生了变化)。我意识到使用深度学习解决您的任务并不那么困难。 本课程遵循自上而下的方法。因此,你从构建一个工作系统开始,然后才能深入了解所有必要的基础知识和细微差别。

药物副作用问答系统
APPLICATION

药物副作用问答系统

虽然大多数人关注的是检索增强生成 (RAG) 对非结构化文本(例如公司文档或文件)的检索,但我对检索系统对结构化信息(尤其是知识图谱)的检索非常看好。GraphRAG 引起了很多关注,尤其是微软的实现。然而,在他们的实现中,输入数据是文档形式的非结构化文本,使用大型语言模型 (LLM) 将其转换为知识图谱。 在这篇博文中,我们将展示如何在包含来自 FDA 不良事件报告系统 (FAERS) 的结构化信息的知识图谱上实现检索器,该系统提供有关药物不良事件的信息。如果你曾经摆弄过知识图谱和检索,你的第一个想法可能是使用 LLM 生成数据库查询,以从知识图谱中检索相关信息来回答给定的问题。然而,使用 LLM 生成数据库查询仍在发展中,可能还不能提供最一致或最强大的解决方案。那么,目前有哪些可行的替代方案呢? 我认为,目前最好的解决方案是动态查询生成。这种方法不是完全依赖 LLM 来生成完整的查询,而是采用逻辑层,从预定义的输入参数确定性地生成数据库查询。可以使用具有函数调用支持的 LLM 来实现此解决方案。使用函数调用功能的优势在于能够向 LLM 定义它应该如何准备函数的结构化输入。这种方法确保查询生成过程是可控且一致的,

AI中的新UI和UX
UI

AI中的新UI和UX

AI 时代 UI/UX 新方法的不断更新集合。如果你在野外看到了什么……请告诉我,我会将其添加到此文档中,并向你致谢(当然!)! 1、刻度盘、旋钮和滑块物理旋钮、数字滑块和象限“刻度盘”可用于调整 AI 交互的响应音调或其他输入变量。 这个第一个新颖的 UX 想法来自 Figma 的新 Figma Slides 产品中的生成文本功能。你可以滑动橙色指示器,将语气从休闲变为专业,从简洁变为扩展。 此示例来自 Twitter 用户 Johannes Stelzer 的一篇文章。我不知道细节,但喜欢这个演示。 这是我自己的小型 AI 项目……一个总结任何网页的 Chrome 扩展程序。你可以使用滑块调整输出。想要一个四字故事吗?很简单:将其调整为 4 个字。想要一篇文章?

5个最流行的开源TTS模型
MODEL-ZOO

5个最流行的开源TTS模型

文本转语音 (TTS) 技术在无障碍、教育和虚拟助手等行业中应用广泛,因此过去一年对它的需求猛增。就像 LLM 和图像生成模型的进步一样,TTS 模型也不断发展,能够从文本输入生成更逼真、更像人类的语音。 如果你希望将 TTS 集成到你的系统中,开源模型是一个绝佳的选择。与专有替代方案相比,它们提供了更大的灵活性、控制力和定制性。在这篇文章中,我们将探讨当今一些最流行的开源 TTS 模型。我们将深入研究它们的优点和缺点,帮助您选择最适合您需求的模型。最后,我们将提供一些常见问题的答案。 1、XTTS-v2XTTS 是最流行的语音生成模型之一。其最新版本 XTTS-v2 能够仅通过 6 秒的快速音频样本将声音克隆成不同的语言。这种效率消除了对大量训练数据的需求,使其成为语音克隆和多语言语音生成的有吸引力的解决方案。 坏消息是,XTTS 背后的公司于 2024 年初关闭,将该项目留给了开源社区。 但是,源代码仍然在 GitHub 上可用,XTTS-v2 仍然是 Hugging

创业点子发生器
APPLICATION

创业点子发生器

创作者通常首先要努力的事情就是为他们的服务找到合适的利基创意。最好的方法始终是先找到一个微型 SaaS,它是 SaaS 的一个子集,专注于解决特定问题的小规模、高度专业化的应用程序。 但是你如何发现这些利基创意呢?为什么不让AI为你做这件事呢。在这个实验中,我整理了一个实用的应用程序,它可以帮助挖掘 Reddit、搜索引擎以找到利基创意。 在这篇博文中,我将分享如何构建这个 CrewAI 应用程序,该应用程序利用它来为微型 SaaS 生成利基创意。我们将深入研究应用程序结构、技术堆栈,并提供构建应用程序的分步指南。到最后,你将全面了解如何启动自己的 CrewAI 代理。 1、应用程序结构首先,让我们看一下应用程序结构。下面是概述我们应用程序关键组件的图表: 技术堆栈概述为了构建此应用程序,我们将使用各种工具和技术: Groq:用于服务大型语言模型 (LLM)。8B Llama3 模型:用于生成想法的核心模型。CrewAI:与 LangChain 工具一起使用,用于管理多个代理。Praw:用于从 Reddit