APPLICATION 如何设计大规模AI系统 训练一个机器学习模型是一回事,也许在基准数据集上达到最先进的准确性。但将其部署,使其为数百万用户服务,处理TB级的数据,并可靠地全天候运行则是完全不同的挑战。
MODEL-ZOO MedGemma:医学多模态模型 MedGemma 4B是一组经过训练以在与医学文本和图像理解相关的任务中表现良好的Gemma 3变体。本文介绍如何使用MedGemma模型结合医学图像和文本提示生成有意义的临床输出。
MODEL-ZOO Gemma 3n:移动设备全栈AI 在这篇博客文章中,我们将探讨如何在移动设备上完全运行 完整的 AI 栈,涵盖从语音到文本(STT)、函数调用、视觉语言模型(VLM)推理到文本到语音(TTS)的完整 Android 应用程序实现。
APPLICATION 推理/微调速度对比:CPU vs. GPU 上周末,我有机会测试了多个GPU,包括最先进的Nvidia H100、RTX 5090、RTX 4090等。本文将总结它们在推理和微调任务上的性能。
MODEL-ZOO FLUX.1 Kontext:用文字编辑图像 FLUX.1 Kontext 是来自 Black Forest Labs 的一款新图像编辑模型。它是用于通过文本提示编辑图像的最佳模型之一,并且是 FLUX.1 家族的最新成员。
PROMPT ENGINEERING AI设计和代码生成器提示指南 AI设计和代码生成器在设计过程中发挥了重要作用,所以了解如何充分利用这些工具至关重要。如果你使用过Cursor、Bolt、Lovable或v0,你会发现输出的质量取决于输入。
APPLICATION 用C++构建激光雷达障碍物检测器 这个项目专注于处理城市驾驶场景中的激光雷达点云数据。但在深入实现之前,我会先介绍激光雷达的工作原理及其重要性,以及它如何解决相机和雷达等其他传感器的局限性。
MODEL-ZOO Chatterbox TTS开源语音克隆 Chatterbox由Resemble AI构建,并且以MIT许可证授权。它已经被与付费工具如ElevenLabs进行了基准测试,结果令人惊讶——在盲测中,人们更喜欢Chatterbox。
APPLICATION 失控:自主AI与社会工程攻击 网络犯罪分子在新技术方面很少落后。事实上,他们往往是最早尝试新兴技术的人之一。他们没有合法组织所受的限制。他们可以快速行动、承担风险,并且无需考虑伦理或法律框架即可运作。