MODEL-ZOO BitCPM4:1位LLM时代的到来 BitCPM4是mini CPM 4模型系列的一个变体,最近刚刚发布,专为边缘设备设计。与从头开始用三值权重训练的BitNet 1.5b不同,BitCPM4更像是MiniCPM4的量化版本。
MODEL-ZOO OpenAudio S1:能哭会笑的TTS 从Fish-TTS升级而来的OpenAudio-S1,打败了ElevenLabs、Dia1.6B、Sesame-CSM-1B等其他模型,是情绪表达能力最强的TTS。
MODEL-ZOO MedGemma:医学多模态模型 MedGemma 4B是一组经过训练以在与医学文本和图像理解相关的任务中表现良好的Gemma 3变体。本文介绍如何使用MedGemma模型结合医学图像和文本提示生成有意义的临床输出。
MODEL-ZOO Gemma 3n:移动设备全栈AI 在这篇博客文章中,我们将探讨如何在移动设备上完全运行 完整的 AI 栈,涵盖从语音到文本(STT)、函数调用、视觉语言模型(VLM)推理到文本到语音(TTS)的完整 Android 应用程序实现。
MODEL-ZOO FLUX.1 Kontext:用文字编辑图像 FLUX.1 Kontext 是来自 Black Forest Labs 的一款新图像编辑模型。它是用于通过文本提示编辑图像的最佳模型之一,并且是 FLUX.1 家族的最新成员。
MODEL-ZOO Chatterbox TTS开源语音克隆 Chatterbox由Resemble AI构建,并且以MIT许可证授权。它已经被与付费工具如ElevenLabs进行了基准测试,结果令人惊讶——在盲测中,人们更喜欢Chatterbox。
MODEL-ZOO Quasar Alpha神秘大模型 OpenRouter在2025年4月4日悄悄发布了名为Quasar Alpha的新模型,这一低调的发布引发了关于它来自哪里以及能做什么的大量讨论。
MODEL-ZOO 5个最强前端代码生成AI模型对比 本文在一个真实的前端开发任务上对比了Grok 3、Gemini 2.5 Pro、DeepSeek V3、OpenAI o1-pro和Claude 3.7 Sonnet的效果。
MODEL-ZOO Perplexity Sonar Reasoning 我在浏览OpenRouter时看到了一个我之前从未见过的模型:Perplexity Sonar Reasoning,这是一个令人震惊的预置实时网络搜索能力的大模型。
MODEL-ZOO “链式思维”的隐藏真相 “链式思维”(Chain-of-Thought, CoT)就像是窥探AI的内心世界,看到它的逐步逻辑推理。这很令人兴奋,因为它可以帮助我们信任和控制这些强大的系统,特别是在安全关键任务中。
MODEL-ZOO REVE Image 1.0:好的不得了! REVE Image 1.0已经打破了所有的记录,超越了包括Recraft、Google、BFL和Midjourney在内的40多个已建立的模型,但在性能上却无人知晓!
MODEL-ZOO DeepSeek V3–0324 DeepSeek 回归并发布了 DeepSeek V3–0324,早期的Reddit和社交媒体评论称它是一个令人兴奋的模型,该模型的上下文长度大幅增加,并且在编码和数学任务上的表现看起来非常出色。
MODEL-ZOO GPT-4o:将照片ghibli风格化 Open AI发布了他们的GPT-4o模型图像生成功能。图像生成非常出色,该模型可以完美地将照片转换为吉卜力动画风格。这在X.com上引起了广泛关注。