MODEL-ZOO - Software 2.0 (Page 3) - 汇智网

Tagged

MODEL-ZOO

A collection of 246 posts

Flux.1 Krea dev最佳写实AI

Flux.1 Krea dev最佳写实AI

FLUX.1 Krea [dev] 不试图保持中立。它有一种视觉态度。当你给它一个提示时，你得到的不只是原始翻译。你得到的是解释。这就是所谓的有观点。

混元世界1：3D世界生成式AI

混元世界1：3D世界生成式AI

混元世界1.0 是腾讯混元用于从文本描述或单张图像生成沉浸式、交互式3D世界的框架。你提供一句句子或一张照片，系统就会生成一个分层的、可探索的3D环境，具有真实的几何结构和物体分离。

VoxTral vs. Kimi-Audio选型指南

VoxTral vs. Kimi-Audio选型指南

最近出现了两种音频 AI 模型。一种只想倾听并给你事实，另一种则想成为整个对话。VoxTral 和 Kimi-Audio-7B 就是这种分裂的完美例子。

从第一性原理出发的LLM强化学习

从第一性原理出发的LLM强化学习

为了建立对语言模型强化学习的坚实理解，我们将采取逐步的方法。我们将从本概述中的基本概念和定义开始，然后探讨用于使用人类反馈进行强化学习微调语言模型的常用算法。

Silero VAD语音活动检测模型

Silero VAD语音活动检测模型

Silero VAD 是由 Silero AI 团队开发的一个开源、轻量级且高性能的语音活动检测（VAD）模型。

Qwen-MT：最好的AI翻译模型

Qwen-MT：最好的AI翻译模型

Qwen-MT基于Qwen3，增加了大量多语言和特定于翻译的数据，并使用强化学习使输出不仅正确，而且易于阅读。

10个最受欢迎的本地LLM

由于先进的量化和模型优化，你可以在笔记本电脑或台式机上运行强大的LLMs，即使你的RAM或VRAM不足8GB。

如何获取Kimi-K2免费API密钥？

如何获取Kimi-K2免费API密钥？

尽管Kimi-K2这个模型是完全开源的，但大多数人由于高GPU需求而无法使用它，但你仍然可以使用我将在本文中告诉你的免费API密钥在你的程序中运行该模型。

SmolLM3最佳通用小模型

Hugging Face刚刚发布了SmolLM3，一个30亿参数的模型，但它的表现就像它有两倍那么多，甚至击败了拥有70亿参数的模型。

Kyutai实时TTS模型

我见过很多AI语音工具，但Kyutai是我见过的第一个真正感觉像你可以用在实时循环中的声音。

从零构建流匹配模型

将讲解流匹配背后的数学原理，如何实现训练和采样管道，以及这种方法与扩散模型的根本区别。

重新实现Pix2Seq的思考

从零开始构建谷歌激进的目标检测方法所学到的东西——以及它如何改变了我对计算机视觉的看法

YOLOv13 简介

本文将讨论 YOLOv13 是什么，它带来了什么，以及如果你正在开发图像检测模型，你需要做些什么。让我们开始吧！

微调BERT检测假新闻

在这篇指南中，我将带领你完成一个基于BERT的虚假新闻分类器的端到端实现。

微调一个函数调用小模型

在RidgeRun.ai，我们开始开发自己的小规模、本地运行的函数调用模型，有几个重要的原因。

用MonkeyOCR提取结构化数据

用MonkeyOCR提取结构化数据

MonkeyOCR是一个视觉语言模型，能够智能地解析收据、发票、表格和其他无结构的文档图像，将其转换为干净的结构化数据。

强化学习算法全景

强化学习是机器学习的一个分支，近年来作为一种在不同应用领域中高效获取技能的方法正迅速获得关注。在这篇文章中，我们将提供一个全面的概述，既提供高层次的视角，又详细探讨底层数学推导和算法的具体内容。

BitCPM4：1位LLM时代的到来

BitCPM4：1位LLM时代的到来

BitCPM4是mini CPM 4模型系列的一个变体，最近刚刚发布，专为边缘设备设计。与从头开始用三值权重训练的BitNet 1.5b不同，BitCPM4更像是MiniCPM4的量化版本。

大模型微调是浪费时间

人们认为可以通过微调注入知识。他们错了。

微调Qwen2.5-VL用于文档理解

微调Qwen2.5-VL用于文档理解

本文将检查一个手写数字数据集、对其进行标注，并使用它来创建一个专门用于提取手写文本的微调后的Qwen 2.5 VL。

OpenAudio S1：能哭会笑的TTS

OpenAudio S1：能哭会笑的TTS

从Fish-TTS升级而来的OpenAudio-S1，打败了ElevenLabs、Dia1.6B、Sesame-CSM-1B等其他模型，是情绪表达能力最强的TTS。

SmolVLA：开源机器人AI

SmolVLA：开源机器人AI

一款运行在MacBook上的紧凑型开源模型。社区驱动的数据集正在推动现实世界中的机器人技术。新一代可访问、智能的机器时代已经到来。

MedGemma：医学多模态模型

MedGemma：医学多模态模型

MedGemma 4B是一组经过训练以在与医学文本和图像理解相关的任务中表现良好的Gemma 3变体。本文介绍如何使用MedGemma模型结合医学图像和文本提示生成有意义的临床输出。

Gemma 3n：移动设备全栈AI

Gemma 3n：移动设备全栈AI

在这篇博客文章中，我们将探讨如何在移动设备上完全运行完整的 AI 栈，涵盖从语音到文本（STT）、函数调用、视觉语言模型（VLM）推理到文本到语音（TTS）的完整 Android 应用程序实现。

FLUX.1 Kontext：用文字编辑图像

FLUX.1 Kontext：用文字编辑图像

FLUX.1 Kontext 是来自 Black Forest Labs 的一款新图像编辑模型。它是用于通过文本提示编辑图像的最佳模型之一，并且是 FLUX.1 家族的最新成员。