MODEL-ZOO SAM 3D:从单张图像抽取3D模型 Meta 的新 SAM 3D 不再仅仅了解照片中的内容。它了解事物在 3D 空间中的位置。单击照片中的咖啡杯,它会返回完整的 3D 网格。指向一个人,你就可以得到他们完整的身体姿势和形状。
MODEL-ZOO Kimi K2 Thinking Moonshot AI 的基准测试成绩,显示 K2 Thinking 在“代理推理”和“代理搜索”方面击败了顶级的 OpenAI 和 Anthropic 模型,但在“编码”方面并未达到顶尖水平。
MODEL-ZOO FIBO - Nano Banana的开源对手 作为第一个原生支持JSON的图像生成模型,FIBO为每个渲染提供了可追溯性、可审计性和精确的可编辑性,专为代理、自动化和专业设计工作流程而构建。
MODEL-ZOO IBM Granite 4.0-Nano边缘AI模型 IBM推出了Granite 4.0 Nano模型系列,致力于创建强大且实用的大语言模型(LLM),这些模型特别优化用于边缘和设备端应用。
MODEL-ZOO Chandra:复杂文档OCR模型 Datalab 开发了一款名为 Chandra 的开源 OCR 模型。它在社交媒体上几乎无人问津,但在独立基准测试中,它悄然超越了所有主流 OCR 系统。
MODEL-ZOO 本地微调 Qwen3-VL 模型 在本文中,我们将探讨 Qwen3-VL 与 Qwen2.5-VL 在架构、训练和整体性能方面的区别,介绍 GPU 要求,并逐步讲解如何使用 Unsloth进行微调。
MODEL-ZOO 4个最强大的开源 OCR 模型 有四个开源项目脱颖而出:DeepSeek-OCR、Olmo-OCR 2、Qwen3-VL 和 Dots.OCR。它们的作用相同(读取文档),但方式却截然不同。
MODEL-ZOO DeepSeek-OCR:上下文光学压缩 DeepSeek-OCR模型是一个最先进的文档解析器。但光学字符识别只是更大、更深刻的概念的一个概念验证:一种革命性的用于人工智能的记忆压缩方式。
MODEL-ZOO Fathom-DeepResearch Fathom-DeepResearch 引入了一个完全开源的代理系统,在复杂、长视界的网络推理和综合任务上可以与专有DeepResearch风格的模型相媲美。