MODEL-ZOO - Software 2.0 (Page 2) - 汇智网

Tagged

MODEL-ZOO

A collection of 246 posts

用Nano Banana API编辑图像

用Nano Banana API编辑图像

如果我们把最好的免费 API AI 提供商和最新的 Google 图像生成模型结合起来会怎样？

Nano Banana真正的重要性

Nano Banana真正的重要性

Google在Gemini中使用扩散模型是一个非常重要的事情。

Nano Banana：超越图像生成

Nano Banana：超越图像生成

Nano 不仅仅是一个图像生成器；它是一个创意工作室，拥有丰富的功能，能够提供全新的工作方式。

Gemma 3微调指南

Google 发布了 Gemma 3 270M，这是一款紧凑的指令调优模型，可在本地运行。

Nano Banana 的22个酷炫用法

Nano Banana 的22个酷炫用法

在这篇文章中，我将带你了解 50 多种使用 Nano Banana 的疯狂方法。

5个顶级视觉语言模型的简单测试

5个顶级视觉语言模型的简单测试

聊天模型正在以惊人的速度发展，它们的能力每天都在提高。然而，基于视觉的任务仍然是许多AI模型的重大挑战。

MiniCPM-V 4.5：最佳边缘LLM

MiniCPM-V 4.5：最佳边缘LLM

MiniCPM-V 4.5是MiniCPM-V系列中的最新模型。尽管体积小，但它在视觉语言任务、视频理解和OCR/文档解析方面的性能有了显著提升。

Nano Banana 系统提示(泄露)

Nano Banana 系统提示(泄露)

Google Nano Banana 的系统提示泄露了。

Wan S2V开源视频生成模型

Wan S2V开源视频生成模型

WAN-S2V不是AI视频的最终答案，但它显然走在正确的方向上。它能够处理长视频，保持身份不变，并且实际上感觉它“理解”了场景，是的，这是一个巨大的转变。

VibeVoice vs. NotebookLM

VibeVoice vs. NotebookLM

微软刚刚发布了 VibeVoice，它看起来像是对 Google NotebookLM 的严重威胁，而 NotebookLM 目前仍是 AI 播客生成领域的霸主。

Gemini 2.5 Flash Image

Gemini 2.5 Flash Image

Google悄然发布了Gemini 2.5 Flash Image（之前被称为Nano Banana），它只做一件事：你输入你想看到的内容，它生成的图像不会看起来像一场糟糕的迷幻药之旅。

VibeVoice：超长输出TTS

VibeVoice：超长输出TTS

VibeVoice是一个免费的NotebookLM替代品，其模型形式覆盖了非常长的演讲和多轮对话。

探索本地Gemma 3 270M

探索本地Gemma 3 270M

在本文中，我将使用 Ollama 探索 Google DeepMind 的这款紧凑但强大的模型的功能。通过 Ollama，即使在低端个人电脑上，你也可以非常快速地运行这个紧凑的模型。

Gemma 3 270M本地微调指南

Gemma 3 270M本地微调指南

Gemma 3 270M是一个超高效的本地AI模型。今天，让我们学习如何微调这个模型，让它在下棋和预测下一步动作方面变得非常聪明。

Nano Banana

在 AI 图像生成领域发生了一些奇怪的事情。一个奇怪的名字 Nano Banana 开始在论坛、Discord 和 AI 测试网站上出现。

Matrix Game：交互式世界生成AI

Matrix Game：交互式世界生成AI

Matrix-Game 2.0只有180万个参数，也可以生成像GTA6这样的游戏。

Qwen-Image-Edit快速指南

Qwen-Image-Edit快速指南

Qwen-Image-Edit将Qwen-Image独特的文本渲染能力扩展到图像编辑任务，实现了前所未有的精确文本编辑功能。

Meta Dino-V3：终极视觉AI

Meta Dino-V3：终极视觉AI

如果你想探索自监督视觉，或者构建一个在不脆弱于领域变化的情况下运行良好的东西，开始研究DINOv3吧。它不仅仅是另一个ViT，而是当ViT真正理解空间时的样子。

Gemma3 270M：最小通用LLM

Gemma3 270M：最小通用LLM

Gemma 3 270M是Google Gemma 3家族中最小的成员，可能是迄今为止最实用的一个。这不仅仅是一个轻量级模型，它是一个高效完成实际工作的工具，不会耗尽你的设备或钱包。

GLM-4.5V最佳开源视觉语言模型

GLM-4.5V最佳开源视觉语言模型

如果你还在痴迷于LLaVA或Qwen-VL，那你已经落后了。GLM-4.5V比它们强得多。

Dots.ocr：迄今最好的小型OCR

Dots.ocr：迄今最好的小型OCR

与其他模型使用YOLO风格的检测器加上语言模型不同，dots.ocr只使用一个VLM来处理布局检测、文本解析、阅读顺序，甚至公式。

Kitten-TTS：CPU可运行的TTS

Kitten-TTS：CPU可运行的TTS

Kitten TTS是目前最小的听起来不错的TTS。总大小不到25MB，不需要GPU就可以运行。

如何免费使用OpenAI GPT-OSS？

如何免费使用OpenAI GPT-OSS？

如何免费使用GPT-OSS？有很多方法，不只是一个。

GPT-5：一次性构建整个应用

GPT-5：一次性构建整个应用

OpenAI发布了GPT-5，它可以从一行指令中构建完整的应用、游戏和工具。

Qwen-Image

Qwen-Image不仅仅是一个扩散模型。这是一个完整的图像生成系统，专门用于一件事：理解你想要什么并正确绘制它。