MODEL-ZOO - Software 2.0 (Page 6) - 汇智网

Tagged

MODEL-ZOO

A collection of 185 posts

视觉语言模型LoRA微调指南

在本文中，我们将探讨如何使用Unsloth、WandB等强大的工具组合来微调 Meta AI 的 Llama-3.2–11B-Vision 模型，并使用vLLM进行模型服务和推理。

Marco-o1开源推理模型

OpenAI-o1 是一个革命性的版本，它使 LLM 能够对数学或物理问题等复杂任务进行详细推理，阿里巴巴的Marco-o1是其开源平替。

Gemini问答数据集微调

本文介绍如何通过构建一个基于斯坦福问答数据集 (SQuAD 1.1) 微调的强大问答系统来增强 Gemini 1.5 Flash 的功能。

IP-Adapter图像提示模型

IP-Adapter图像提示模型

图像提示与文本提示一起作为稳定扩散模型的附加输入。文本和图像提示都作为条对 AI 图像生成产生影响。

FLUX.1 Tools 图像工具包

FLUX.1 Tools 图像工具包

FLUX 背后的团队 Black Forest Labs 刚刚发布了 FLUX.1 Tools — 一套由四个强大的工具组成的套件，可增强 FLUX 的图像生成能力和可控性。

Llama 3.2 Vision医学图像微调

Llama 3.2 Vision医学图像微调

今天，我将带你了解一个令人兴奋的项目：微调 Meta 的 Llama 3.2 Vision 模型来分析放射图像。

LTXV开源实时视频生成模型

Lightricks 推出了 LTX Video (LTXV)，这是一种以前所未有的速度生成 AI 视频的开源模型。

10个令人惊叹的IC-LoRA用法

10个令人惊叹的IC-LoRA用法

上下文LoRA（IC-LoRA）对文本到图像模型进行微调，以生成具有可定制内在关系的图像集，可选择以另一组为条件，从而适应各种创作任务。

SAMURAI零样本视觉跟踪模型

SAMURAI零样本视觉跟踪模型

为了解决SAM 2的对象跟踪问题，出现了一个看起来很棒的新模型 SAMURAI。SAMURAI 改编自 SAM2 本身，用于零样本视觉跟踪。

LLaMa-Mesh：文本生成3D网格

LLaMa-Mesh：文本生成3D网格

NVIDIA 发表了一篇引人入胜的论文 LLaMA-Mesh：使用语言模型统一 3D 网格生成，该论文允许使用自然语言生成 3D 网格对象。

Gemma 2微调实现医学问答

Gemma 2微调实现医学问答

本文旨在对医学数据集上的 Gemma 2 模型进行微调，重点关注其在医疗保健相关 QA 任务中的应用。

Pixtral Large 124B多模态大模型

Pixtral Large 124B多模态大模型

Mistral 最近推出了 Pixtral Large，这是一款拥有 1240 亿个参数的最先进的多模态模型。

Gemini 批量生成

LLM 非常适合按需生成内容，但如果不加以控制，你最终可能会收到一大笔账单。批量生成是另一种可用于以折扣价节省时间的技术。

CoTracker3点跟踪模型综合指南

CoTracker3点跟踪模型综合指南

CoTracker3 是一种尖端的人工智能模型，专为跟踪视频中多个帧中的点而设计。它适用于 3D 重建、视频编辑甚至动作捕捉等应用。

Neo4j Text2Cypher 模型

Neo4j Text2Cypher 模型

Neo4j Text2Cypher模型演示了如何使用 Neo4j Text2Cypher(2024) 数据集微调基础模型来提高 Text2Cypher 任务的性能。

5个Whisper变体实现与比较

5个Whisper变体实现与比较

本文介绍OpenAI Whisper的5个变体以及如何在 Python 中实现它们，并给出性能测试的比较结果。

Qwen2-VL OCR能力微调与量化

Qwen2-VL OCR能力微调与量化

最近，我对 Qwen2-VL-2B 进行了微调，我的目标是使用此模型从车辆铭牌和底盘图像中提取所需的信息 (OCR)。

OOTDiffusion虚拟试穿模型

OOTDiffusion虚拟试穿模型

虚拟试穿技术是电子商务和时尚领域的一项前沿创新，它允许客户在不实际穿着的情况下尝试虚拟服装、配饰、化妆品或其他时尚元素。OTDiffusion是一种基于 LDM 的新方法。

Idefics-2微调实现视觉问答

Idefics-2微调实现视觉问答

本文介绍如何使用Transformers库微调Idefics-2视觉大模型，来应对视觉问答任务。

PuLID极速身份定制模型

PuLID是一种创新的非调整身份定制方法，提供对面部特征和身份特征的前所未有的控制。

MiniCPM-V端侧多模态大模型

MiniCPM-V端侧多模态大模型

MiniCPM-V 是一系列高效的 MLLM，旨在在手机和个人电脑等端侧设备上运行，使其成为各种 AI 应用程序的强大工具。

Ultravox实时语音多模态大模型

Ultravox实时语音多模态大模型

Ultravox 是一种新型多模态 LLM，可以理解文本和人类语音，而无需单独的音频语音识别 (ASR) 阶段。

OmniVision-968M 世界最小VLM

OmniVision-968M 世界最小VLM

Omnivision 是一个紧凑的、不到1B (968M)参数的多模态模型，用于处理视觉和文本输入，针对边缘设备进行了优化。

Qwen2.5-Coder 模型微调教程

Qwen2.5-Coder 模型微调教程

本文介绍如何在Continue代码助手的开发数据记录基础上，使用 Unsloth 微调Qwen2.5-Coder 7B模型，以完善其代码自动完成能力。

在VS Code中使用Qwen2.5-Coder

在VS Code中使用Qwen2.5-Coder

得益于通过 ollama 和 CodeGPT 的集成，Qwen2.5-Coder 模型现已可供直接下载并在 VS Code 中使用。