MODEL-ZOO - Software 2.0 - 汇智网

Tagged

MODEL-ZOO

A collection of 381 posts

MiniMax M3

M3 与 GPT-5.5 和 Gemini 3.1 Pro 相比非常有竞争力，它使用 MiniMax Sparse Attention (MSA) 让长上下文变得实用。

LocateAnything-3B：再见YOLO！

LocateAnything-3B：再见YOLO！

今天的大多数图像模型非常擅长描述图像。它们可以告诉你发生了什么。但LocateAnything专注于不同的方向："它到底在哪里？"。

Composer 2.5：一次意外的进化

Composer 2.5：一次意外的进化

Cursor发布了一个名为Composer 2.5的新模型。

谷歌说，别再要求Gemini思考了

谷歌说，别再要求Gemini思考了

2025年3月25日，谷歌发布了Gemini 2.5思考模型API的文档页面。埋在其中的一段指导悄悄地让两年的主流提示词实践失效了。

Claude Opus 4.8 提示词指南

Claude Opus 4.8 提示词指南

如何每次都从 Anthropic 最强大的模型中获得最佳结果，包括全新的 Dynamic Workflows 功能。

VoxCPM2 多语种开源TTS模型

VoxCPM2 多语种开源TTS模型

30种语言，48kHz输出，上下文感知的韵律。从文本设计任何声音。从短音频片段克隆并带有风格引导。无需语言标签。一切都在本地运行。免费用于商业用途。

用DeepSeek V4 重构你的RAG

用DeepSeek V4 重构你的RAG

一个0.28美元/百万token的开源权重模型如何迫使我们彻底转变构建自主代理、扩展代码库推理和处理百万token上下文的方式。

DeepSeek V4的4个技巧

DeepSeek V4的4个技巧

这个1.6T参数的模型仅用V3.2 10%的内存运行。我读了80页的论文，这样你就不必读了——其中有4个技巧在你看到数学之前听起来真的不可能。

Seed-VC 语音克隆指南

学习如何使用零样本学习执行高质量语音转换。

OpenAI隐私过滤器

一个在Apache 2.0下发布、可在浏览器中运行的PII模型。让我们来谈谈它实际解决了什么问题。

DeepSeek V4：推理成本致胜

DeepSeek V4：推理成本致胜

10% KV 缓存的技巧没有人预料到。以及为什么 Pro-Max 多消耗了 4.3 倍的 token 只为了 2 个百分点的提升。

DeepSeek v4实测：CC & Hermes

DeepSeek v4实测：CC & Hermes

我本以为只是炒作，所以我用 Claude Code 和 Hermes Agent 都测试了一下，结果发现我错了，现在给它起了个绰号——我的"一次通过之王"

Seedance 2.0：AI正在成为导演

Seedance 2.0：AI正在成为导演

为什么 Seedance 2.0 更像是一个为导演设计的工具，而不是一个提示词机器。

OpenMythos：Mythos开源复现

OpenMythos：Mythos开源复现

OpenMythos基于第一性原理对 Claude Mythos 架构进行理论复现，完全使用 PyTorch 构建，并以同行评审研究为基础。

15个实测：Kimi K2.6 vs. GLM-5.1

15个实测：Kimi K2.6 vs. GLM-5.1

两个中国开源模型目前占据全球 SWE-Bench Pro 排行榜榜首：Kimi K2.6 为 58.6%，GLM-5.1 为 58.4%。从纸面上看它们打平了。我花了 18 小时让两个模型通过相同的 15 个生产编程任务。结果发现 0.2 分的差距是整个对比中最小的差距。

OpenAI GPT-image-2 是个核弹

OpenAI GPT-image-2 是个核弹

这一次，当你看看实际的数据、增量变化、分布图，以及每一个竞争对手实时重新定位的方式时，你会发现有些不同的事情正在发生。

22个图像生成模型的成本分析

我对22个图像生成模型进行了基准测试，使用相同的提示词来比较成本和延迟。

GPT Image 2 提示词指南

GPT Image 2 提示词指南

本指南将介绍三种提示模式、照片级真实感、产品、UI、图片中的文字、风格迁移和角色一致性的模式，以及一个可以直接在fal上使用的复制粘贴模板库。

Qwen3.6–35B vs. Gemma 4 26B

Qwen3.6–35B vs. Gemma 4 26B

我花了 48 小时在 MacBook Pro M3 Max（64GB）上并排运行这两款模型。以下是完整分析

Gemini 3.1 TTS提示编写指南

Gemini 3.1 TTS提示编写指南

Gemini 3.1 Flash 文本转语音 (TTS) 是一个新模型，你可以通过指导它来获得精确的音频表现。在这篇博文中，我将分享一些关于如何通过提示词引导模型的技巧，并展示它的一些优势。

gemini 3.1 TTS全部30 种语音实测

gemini 3.1 TTS全部30 种语音实测

我测试了 Google 新版 Gemini 3.1 的全部 30 种语音，下面介绍我的发现。

Lyria 3 音乐制作指南

无论你是想为好朋友制作一首生日歌、一首健身时的燃曲，还是一首适合学习的 lo-fi 忧郁节拍，Lyria 3 都能满足你

Flash 3.1 TTS：用提示控制声音

Flash 3.1 TTS：用提示控制声音

Gemini 3.1 Flash TTS 携200+音频标签、30种声音预设和让ElevenLabs紧张的控制力重磅登场。

关于Gemma 4的真相

一周的真实 Python 工作。不是基准测试。以下是实际发生的情况。

Chandra：商业OCR的终结者

Chandra：商业OCR的终结者

一个来自布鲁克林初创公司的4B参数模型正在90种语言上击败GPT-4o和Gemini。虽然OCR不是我的专业领域，但这个模型让我着迷。