APPLICATION 使用AI友好的文档优化LLM响应 你是否曾经在大型语言模型完全误解你的编码问题时感到沮丧?我们都有过这样的经历。事实是,LLMs就像我们的开发同事一样——它们的帮助质量很大程度上取决于我们提供的上下文。
APPLICATION 用AI分析家庭视频 我想给家庭视频添加标签,以便更方便地搜索。当时没有一个很好的模型可以从视频中生成描述性文本,所以我搭建了一个LLM管道,将图像作为输入来生成视频的摘要。我希望使用完全本地化的解决方案,这样就不需要将个人视频发送到云提供商,并且因为视频通常比较大,而且不是总能获得高带宽互联网连接。 这就是我最终搭建的内容——https://github.com/byjlw/video-analyzer/ 它的工作原理是使用whisper转录音频,使用OpenCV选择有趣的/不同的帧,然后使用LLM描述每个帧中的信息。最后,它将所有帧的描述输入以总结整个视频。 有关设计和工作原理的更多详细信息,请参阅存储库中的DESIGN.md 1、要求要使用它,你需要: Python 3.10–3.12FFMPEG - 安装说明在底部如果你希望完全在本地运行,还需要安装Ollama。 如果你的电脑不够强大,无法在本地运行LLM,你可以使用OpenAI的API,openrouter.ai或几乎任何主要的LLM服务。我倾向于使用openrouter,因为它是一个一站式服务,涵盖了几乎所有模型。 2、分析视频要开始,请打开计算机上的终端 我喜欢在使用Python时使用虚拟环境以避免包冲突 在Mac或Linux上输入: python -m
APPLICATION LLM代码生成中的幻觉问题 我经常看到开发人员尝试使用LLM编写代码时遇到幻觉——通常是LLM发明了一个不存在的方法,甚至是一个完整的软件库——这让他们对LLM作为编写代码工具的信心崩溃。
PROMPT ENGINEERING 提示工程:从思维链到草稿链 草稿链(Chain of Draft)是一种旨在简化推理而不牺牲准确性的提示技术。可以将其视为更详细的思维链(CoT)方法的“言简意赅”版本。
APPLICATION 金融分析多智能体系统 当我们构建QuantJourney时——这是为零售投资者和量化分析师提供的最全面框架时,我们相信投资者需要上下文感知的基于GPT的可适应系统,而不仅仅是提供原始数据。
APPLICATION AI驱动的投资平台 当我更深入地进入投资世界时,我发现了一个改变游戏规则的东西:像Gemini和ChatGPT这样的AI工具。突然间,我可以比以往任何时候都更高效地进行深入的定性和定量研究。
MODEL-ZOO VPTQ低位LLM量化算法 在 MMLU 等任务上,使用 VPTQ 的 2 位量化几乎实现了与原始 16 位模型相当的性能。此外,它能够在单个 GPU 上运行 Llama 3.1 405B,同时使用的内存比 70B 模型少!
MODEL-ZOO 从零实现2B参数LLM 我们将使用 Pile 数据集从头开始训练一个 20 亿参数的 LLM。结果,我们得到了一个 LLM,它在响应中输出完美的语法和标点符号,较短的上下文有意义,但不是整个响应。
APPLICATION LLM增强的Web抓取 在网络抓取过程中,通过集成 LLMs 可以在很大程度上优化流程。我们需要从网页获取 HTML 代码,并将其馈送到 LLM,LLM 从中提取出它所指的对象。
APPLICATION AI代理的架构、工具与实现 代理是扩展LLM能力的程序,使其能够观察、推理并自主行动,使用各种工具完成任务。在本文中,我们将探讨AI代理的世界,涵盖其架构、核心组件以及在实际应用中的实现。
APPLICATION 打造智能家居的AI代理 近十年来,我一直在研究智能家居 API。我购买了许多系统,构建了多个版本的集成 API、移动应用程序和聊天机器人,但它们从未完全实现真正的目标——像钢铁侠系列中的 JARVIS 一样的真正的AI驱动的家。
MODEL-ZOO PaliGemma2微调优化图像理解 通过使用自定义数据集(例如知名的 VQA)对 PalliGema2 进行微调,可以在高度特定的任务上实现最先进的性能,以连续且可扩展的方式弥合文本和视觉理解之间的差距。
LIBRARY Stagehand:Web自动化AI框架 Stagehand 是 Playwright 的 AI 继任者,提供三个简单的 API(act、extract 和 observer),为自然语言驱动的 Web 自动化提供构建模块。