Software 2.0

药物副作用问答系统
APPLICATION

药物副作用问答系统

虽然大多数人关注的是检索增强生成 (RAG) 对非结构化文本(例如公司文档或文件)的检索,但我对检索系统对结构化信息(尤其是知识图谱)的检索非常看好。GraphRAG 引起了很多关注,尤其是微软的实现。然而,在他们的实现中,输入数据是文档形式的非结构化文本,使用大型语言模型 (LLM) 将其转换为知识图谱。 在这篇博文中,我们将展示如何在包含来自 FDA 不良事件报告系统 (FAERS) 的结构化信息的知识图谱上实现检索器,该系统提供有关药物不良事件的信息。如果你曾经摆弄过知识图谱和检索,你的第一个想法可能是使用 LLM 生成数据库查询,以从知识图谱中检索相关信息来回答给定的问题。然而,使用 LLM 生成数据库查询仍在发展中,可能还不能提供最一致或最强大的解决方案。那么,目前有哪些可行的替代方案呢? 我认为,目前最好的解决方案是动态查询生成。这种方法不是完全依赖 LLM 来生成完整的查询,而是采用逻辑层,从预定义的输入参数确定性地生成数据库查询。可以使用具有函数调用支持的 LLM 来实现此解决方案。使用函数调用功能的优势在于能够向 LLM 定义它应该如何准备函数的结构化输入。这种方法确保查询生成过程是可控且一致的,

AI中的新UI和UX
UI

AI中的新UI和UX

AI 时代 UI/UX 新方法的不断更新集合。如果你在野外看到了什么……请告诉我,我会将其添加到此文档中,并向你致谢(当然!)! 1、刻度盘、旋钮和滑块物理旋钮、数字滑块和象限“刻度盘”可用于调整 AI 交互的响应音调或其他输入变量。 这个第一个新颖的 UX 想法来自 Figma 的新 Figma Slides 产品中的生成文本功能。你可以滑动橙色指示器,将语气从休闲变为专业,从简洁变为扩展。 此示例来自 Twitter 用户 Johannes Stelzer 的一篇文章。我不知道细节,但喜欢这个演示。 这是我自己的小型 AI 项目……一个总结任何网页的 Chrome 扩展程序。你可以使用滑块调整输出。想要一个四字故事吗?很简单:将其调整为 4 个字。想要一篇文章?

5个最流行的开源TTS模型
MODEL-ZOO

5个最流行的开源TTS模型

文本转语音 (TTS) 技术在无障碍、教育和虚拟助手等行业中应用广泛,因此过去一年对它的需求猛增。就像 LLM 和图像生成模型的进步一样,TTS 模型也不断发展,能够从文本输入生成更逼真、更像人类的语音。 如果你希望将 TTS 集成到你的系统中,开源模型是一个绝佳的选择。与专有替代方案相比,它们提供了更大的灵活性、控制力和定制性。在这篇文章中,我们将探讨当今一些最流行的开源 TTS 模型。我们将深入研究它们的优点和缺点,帮助您选择最适合您需求的模型。最后,我们将提供一些常见问题的答案。 1、XTTS-v2XTTS 是最流行的语音生成模型之一。其最新版本 XTTS-v2 能够仅通过 6 秒的快速音频样本将声音克隆成不同的语言。这种效率消除了对大量训练数据的需求,使其成为语音克隆和多语言语音生成的有吸引力的解决方案。 坏消息是,XTTS 背后的公司于 2024 年初关闭,将该项目留给了开源社区。 但是,源代码仍然在 GitHub 上可用,XTTS-v2 仍然是 Hugging

创业点子发生器
APPLICATION

创业点子发生器

创作者通常首先要努力的事情就是为他们的服务找到合适的利基创意。最好的方法始终是先找到一个微型 SaaS,它是 SaaS 的一个子集,专注于解决特定问题的小规模、高度专业化的应用程序。 但是你如何发现这些利基创意呢?为什么不让AI为你做这件事呢。在这个实验中,我整理了一个实用的应用程序,它可以帮助挖掘 Reddit、搜索引擎以找到利基创意。 在这篇博文中,我将分享如何构建这个 CrewAI 应用程序,该应用程序利用它来为微型 SaaS 生成利基创意。我们将深入研究应用程序结构、技术堆栈,并提供构建应用程序的分步指南。到最后,你将全面了解如何启动自己的 CrewAI 代理。 1、应用程序结构首先,让我们看一下应用程序结构。下面是概述我们应用程序关键组件的图表: 技术堆栈概述为了构建此应用程序,我们将使用各种工具和技术: Groq:用于服务大型语言模型 (LLM)。8B Llama3 模型:用于生成想法的核心模型。CrewAI:与 LangChain 工具一起使用,用于管理多个代理。Praw:用于从 Reddit

Gemini目标检测实测
MODEL-ZOO

Gemini目标检测实测

我们熟悉 Gemini 令人印象深刻的多模态能力,尤其是在推理图像数据时——无论是字幕、OCR、分类还是识别图像中的特定内容。 与其开放模型对手 PaliGemma 不同,Gemini 模型并未专门针对对象检测任务进行训练。这一事实促使我进行了一些实验并撰写了这篇博客。 注意:在这里,当我们谈论对象检测时,我们的意思是通过绘制边界框来识别和定位对象,就像 YOLO、DETR、EfficientDet、Florence-2 和 PaliGemma 等模型一样。所以,事不宜迟,让我们来看看 Gemini 是否可以执行对象检测和定位。如果是,在多大程度上? 1、代码实现我们只需要 Gemini API 密钥—不需要其他任何东西。我假设你已经熟悉 Gemini API。如果还不熟悉,请查看此博客以了解如何在 Google AI Studio 上创建 Gemini API 密钥。

Farmer.chat:农业聊天机器人
APPLICATION

Farmer.chat:农业聊天机器人

全球约有 5 亿小农户:他们在全球粮食安全中发挥着关键作用。及时获取准确信息对于这些农民做出明智决策和提高产量至关重要。 “农业推广服务”为农民提供农业技术建议,并为他们提供必要的投入和服务以支持他们的农业生产。 仅在印度就有 30 万名农业推广人员,他们提供有关改进农业实践的必要信息,并帮助小农户做出决策。 但是,尽管推广人员的数量令人印象深刻,但数量不足以满足所有需求:他们与农民的互动比例通常为 1:1000。通过伙伴关系和技术接触农业推广人员和农民仍然是关键。 进入 GAIA 项目,这是一项由 CGIAR 率先发起的合作计划。 它通过专家支持计划将 Hugging Face 作为导师,并将 Digital Green 作为项目合作伙伴聚集在一起。 GAIA 有一个崇高的目标,那就是将多年的农业知识以研究论文的形式带到农民手中,这些研究论文在 GARDIAN 门户网站上精心维护。有近 46000 篇研究论文和报告,涵盖了数十年来全球不同作物的农业知识。 Digital Green 立即看到了开发由检索增强生成 (RAG) 驱动的智能聊天机器人的潜力,这些聊天机器人基于经过批准的精选信息。

15个顶级LLMOps工具
TOOL

15个顶级LLMOps工具

我们已经不再局限于改进大型语言模型 (LLM),而是专注于使用它们来创建有助于企业的 AI 应用程序。这就是大型语言模型操作 (LLMOps) 工具发挥作用的地方,它简化了创建完全自动化系统的过程,用于构建和部署 LLM 解决方案投入生产。 在本文中,我们将介绍不同的工具,如 LLM API、微调框架、实验跟踪工具、LLM 集成生态系统、向量搜索工具、模型服务框架、部署平台和可观察性工具。每种工具都各有特色,旨在解决与 LLM 相关的特定问题。 1、什么是 LLMOps?LLMOps 是一个新兴领域,专注于生产环境中大型语言模型的运营管理。它本质上是专门针对语言和其他多模态模型的 MLOps(机器学习操作)。 LLMOps 涵盖大型语言模型的整个生命周期,包括数据收集、模型训练或微调、测试和验证、集成、部署、优化、监控和维护以及协作。通过构建项目和自动化流程,LLMOps 可帮助你减少错误并有效扩展 AI