MODEL-ZOO 3个顶级大模型的网页设计对比 AI 世界变化飞快,我们最近从 OpenAI、Google 和 Anthropic 那里获得了几款新 AI 模型来试用。我想测试这些模型在最常见的设计任务之一上的能力:落地页设计。
MODEL-ZOO Qwen 3.5 35B-A3B 让我们分解一下 Qwen 3.5 35B-A3B 到底是什么,为什么架构值得理解,如何获得人们发布的性能数字,以及真正的权衡隐藏在哪里,而这些是没人会在推特上谈论的。
MODEL-ZOO GLiNER v2 60M边缘小模型 让我们实事求是。你在炫目的幻灯片中看到的大多数"边缘 AI"解决方案都是谎言。 它们作为原型可以工作,但随后就崩溃了!你看过演示:一个小模型识别出"Apple"是公司,"Steve Jobs"是人。每个人都鼓掌。但当你将该模型投入到现实世界的生产环境中,例如,在专利中识别罕见的 PFAS 化学物质或从混乱的历史档案中提取 18 世纪的"isAt"关系时,它就会崩溃。 它撞上了"泛化墙"。 科技界每当新的 70B 模型发布时都会兴奋不已,但对于那些负担不起订阅或 4 万美元 H100 集群的人来说,现实是黯淡的。小模型(6000 万到 5 亿参数)历史上一直"很笨",因为它们被饿死了。我们给了它们 100 万个示例,并期望它们理解世界。 这不是通常的"越大越好"
MODEL-ZOO Ollama视觉模型实测 我简单地拍了几张营养标签的照片,并使用提示转换为 JSON。然后我针对一堆自托管模型和 Mistral Open API 进行了测试。它们都表现得相当好,但 Mistral API 是最好的。
MODEL-ZOO Gemini 3 Flash 代理化视觉 Gemini 3 Flash中的代理化视觉,不再进行一次静态的扫描,而是将每张图片都视为需要调查的问题。代理化视觉的核心概念是一个循环:思考、行动、观察。
MODEL-ZOO Opus 4.6 vs. Codex 5.3 2026年2月5日上午9:45刚过(太平洋时间),Anthropic发布了Claude Opus 4.6,20分钟后,OpenAI以GPT-5.3-Codex进行反击。