MODEL-ZOO MiniCPM-V 4.5:最佳边缘LLM MiniCPM-V 4.5是MiniCPM-V系列中的最新模型。尽管体积小,但它在视觉语言任务、视频理解和OCR/文档解析方面的性能有了显著提升。
MODEL-ZOO Wan S2V开源视频生成模型 WAN-S2V不是AI视频的最终答案,但它显然走在正确的方向上。它能够处理长视频,保持身份不变,并且实际上感觉它“理解”了场景,是的,这是一个巨大的转变。
MODEL-ZOO VibeVoice vs. NotebookLM 微软刚刚发布了 VibeVoice,它看起来像是对 Google NotebookLM 的严重威胁,而 NotebookLM 目前仍是 AI 播客生成领域的霸主。
MODEL-ZOO Gemini 2.5 Flash Image Google悄然发布了Gemini 2.5 Flash Image(之前被称为Nano Banana),它只做一件事:你输入你想看到的内容,它生成的图像不会看起来像一场糟糕的迷幻药之旅。
MODEL-ZOO 探索本地Gemma 3 270M 在本文中,我将使用 Ollama 探索 Google DeepMind 的这款紧凑但强大的模型的功能。通过 Ollama,即使在低端个人电脑上,你也可以非常快速地运行这个紧凑的模型。
MODEL-ZOO Meta Dino-V3:终极视觉AI 如果你想探索自监督视觉,或者构建一个在不脆弱于领域变化的情况下运行良好的东西,开始研究DINOv3吧。它不仅仅是另一个ViT,而是当ViT真正理解空间时的样子。
MODEL-ZOO Gemma3 270M:最小通用LLM Gemma 3 270M是Google Gemma 3家族中最小的成员,可能是迄今为止最实用的一个。这不仅仅是一个轻量级模型,它是一个高效完成实际工作的工具,不会耗尽你的设备或钱包。