MODEL-ZOO - Software 2.0 (Page 7) - 汇智网

Tagged

MODEL-ZOO

A collection of 248 posts

DeepSeek R1 vs. OpenAI O1

DeepSeek R1 vs. OpenAI O1

在DeepSeek R1出现之前，我认为 OpenAI O1 模型是自 ChatGPT 以来 AI 领域发生的最好的事情。

Kokoro-82M：最好的TTS小模型

Kokoro-82M：最好的TTS小模型

最近，一种名为 Kokoro-82M 的革命性模型已经发布，它只有 8200 万个参数，并在 TTS 领域获得了 SOTA 结果。

从零实现2B参数LLM

我们将使用 Pile 数据集从头开始训练一个 20 亿参数的 LLM。结果，我们得到了一个 LLM，它在响应中输出完美的语法和标点符号，较短的上下文有意义，但不是整个响应。

Qwen2-Audio微调探索音乐转录

Qwen2-Audio微调探索音乐转录

自动音乐转录是将 MP3 和 WAV 等音频文件转换为乐谱、吉他指法谱以及音乐家可能想要用乐器学习歌曲的任何格式的过程。

SPAR3D快速指南

SPAR3D 是一种最先进的开源模型，用于通过点云调节从单个图像快速前馈 3D 网格重建，以提高重建质量。

ModernBERT微调实现文本分类

ModernBERT微调实现文本分类

ModernBERT 是最近发布的传统 BERT 模型的改进版本，本文将深入研究针对文本分类任务对 ModernBERT 进行微调。

Donut模型微调实用指南

在本指南中，我将向你介绍我用来微调 Donut 模型的确切步骤，以便你可以根据特定领域的需求对其进行调整。

DONUT：无需OCR的文档理解

DONUT：无需OCR的文档理解

从非结构化文档中提取数据始终是一项挑战。以前，我们曾经使用基于规则的方法来解决此类问题，现在DONUT是最先进的解决方案之一。

LayoutLM文档提取指南

LayoutLM 是一种革命性的模型，结合了文本识别和布局理解的强大功能，可以准确地从结构化文档中提取实体。

EasyOCR微调简明教程

你使用的 OCR 可能无法满足你的特定需求。在这种情况下，微调 OCR 引擎是可行的方法。在本教程中，我将向你展示如何微调 EasyOCR。

微调PaliGemma优化目标检测

微调PaliGemma优化目标检测

虽然 PaliGemma 具有零样本能力（这意味着模型无需微调即可识别物体），但这种能力是有限的。Google 强烈建议对模型进行微调，以在特定领域获得最佳性能。

FLUX.1微调实现自拍生成

本指南将引导你完成通过微调 FLUX.1 生成自己的 AI 头像的过程。

LLM微调综合指南

训练和微调模型是一项昂贵的苦差事，如果可以的话，你真的应该避免它，把省下的钱花在去阿鲁巴岛或任何你喜欢的度假胜地的旅行上。

NuExtract简明教程

NuExtract 是专为结构化提取任务而设计的专用 LLM，本文介绍如何使用NuExtract提取文本中的结构化数据。

Llama Guard保障LLM对话安全

Llama Guard保障LLM对话安全

LLM对话安全在这里指的是保护整个客户体验—不允许他们查看个人信息，防范有毒内容、有害内容，以及基本上任何他们不应该看到但不会影响他们整体体验的内容。

9个主流OCR模型的综合评测

在这篇博文中，我们比较了9种不同的 OCR 解决方案，并比较了它们在工业 OCR 应用的10个不同领域的功效。

专家混合模型 (MoE)快速指南

专家混合模型 (MoE)快速指南

专家混合 (MoE) 已成为一种流行的提高 LLM 效率的架构组件。在这篇博文中，我们将探讨研究人员在实现专家完美混合的道路上所采取的步骤。

PaliGemma 2微调实现JSON提取

PaliGemma 2微调实现JSON提取

本教程将演示如何使用 Google Colab 微调 PaliGemma 2 以从 JSON 格式的图像中提取数据

PaliGemma2微调优化图像理解

PaliGemma2微调优化图像理解

通过使用自定义数据集（例如知名的 VQA）对 PalliGema2 进行微调，可以在高度特定的任务上实现最先进的性能，以连续且可扩展的方式弥合文本和视觉理解之间的差距。

StyleTTS 2和Tortoise-TTS

StyleTTS 2和Tortoise-TTS

本项目指南深入探讨了这场革命前沿的两个突出模型：StyleTTS 2 和 Tortoise-TTS。这两种模型都代表了语音克隆和语音合成的创新方法，每种方法都利用不同的技术来实现令人印象深刻的结果。

Phi-4 GGUF快速指南

本指南将引导你完成在自己的机器上设置和使用 Phi-4 GGUF 的过程，使你能够利用其功能执行各种自然语言处理任务。

MusicGen音乐生成AI模型

MusicGen音乐生成AI模型

Facebook的musicgen-small 开源预训练模型采用Transformer 的神经网络架构，擅长处理音乐等顺序数据。

10个最流行的FLUX LoRA模型

10个最流行的FLUX LoRA模型

如果想为你的项目增添光彩，尝试新的艺术风格，或者只是更深入地研究人工智能生成的艺术，那么这 10 个顶级 Flux LoRA 模型将让你大饱眼福。

34个编程大模型综合比较

本文对通过公共 API 提供的顶级 LLM 进行了深入分析。我专注于它们在编码任务中的表现，以 HumanEval 等基准为衡量标准，以及它们在各自的 Elo 分数中反映的实际表现。

Llama3微调优化关系提取

在 Llama3–70B 的帮助下，我们构建了一个旨在进行关系提取的监督微调数据集。然后，我们使用该数据集对 Llama3–8B 进行微调，以增强其关系提取能力。