MODEL-ZOO - Software 2.0 (Page 10) - 汇智网

Tagged

MODEL-ZOO

A collection of 297 posts

Recraft V3 SVG徽标生成器

Recraft V3 SVG 是Replicate推出另一个值得尝试的 AI 图像模型——特别是如果你是平面设计师或想要制作徽标、图标和品牌资产，它与众不同之处在于能够创建 AI 矢量图像。

Llama 3.3-70B简明教程

Llama 3.3-70B简明教程

Meta 在其今年的最终版本中推出了 Llama3.3，这是一个 70B GenAI 模型，已经取得了一些出色的成果，并且已经在基准数据集上击败了一些 SOTA LLM。

Colab+Drive微调大模型

Colab+Drive微调大模型

Google Colab 慷慨地为你提供了一种访问免费GPU计算的方法，使用 Google Drive 保存任何中间结果或模型参数。

F5-TTS音频克隆和生成模型

F5-TTS音频克隆和生成模型

在这篇博客中，我们将探讨为什么 F5-TTS 是一款必试工具，它与 E2-TTS 相比如何，以及是什么让它成为当今最易用、最强大的音频克隆解决方案之一。

ShowUI-2B视觉语言动作模型

ShowUI-2B视觉语言动作模型

ShowUI-2B模型，通过整合视觉、语言和动作能力，带来了全新的交互方式，显著提高了图形界面操作的效率和智能化程度。

拯救量化LLM的准确性

使用量化 LoRA (QLoRA) 对大型语言模型进行微调可以有效更新原始模型权重，但在将 LoRA 权重与量化基础权重合并时，最初可能会降低准确性。

StarCoder私有代码库微调

StarCoder私有代码库微调

在本文中，我们将展示如何在私有代码库上微调StarCoder，以增强其上下文感知能力并提高模型对组织需求的实用性。

Whisper本地推理的4种方法

Whisper本地推理的4种方法

本文总结l了4种在本地CPU上进行推理的方法：HuggingFace管道、ONN运行时、OpenVino运行时和PyTorch。

Qwen2-VL 本地运行教程

Qwen2-VL 本地运行教程

Qwen2-VL 是阿里巴巴于 2024 年 10 月发布的视觉语言模型。它提供三种模型大小：2B、7B 和 72B，并允许用户使用文本询问有关图像的问题，类似于 GPT-4 视觉 API。

8个值得学习的SD 3.5提示

8个值得学习的SD 3.5提示

本文介绍的8个示例展示了 SD3.5 真正能做什么。你可以随意使用这些模板来创作自己的作品。

TimesLM时间序列预测基础模型

TimesLM时间序列预测基础模型

TimesLM 是一款用于时间序列预测的开创性大型语言模型 (LLM)，其灵感来自基于 NLP 的基础模型的进步。

SmolVLM 小型视觉语言模型

SmolVLM 小型视觉语言模型

本文介绍 SmolVLM，这是一款 2B VLM，内存占用率最低。SmolVLM 体积小、速度快、内存效率高，并且完全开源。

视觉语言模型LoRA微调指南

在本文中，我们将探讨如何使用Unsloth、WandB等强大的工具组合来微调 Meta AI 的 Llama-3.2–11B-Vision 模型，并使用vLLM进行模型服务和推理。

Marco-o1开源推理模型

OpenAI-o1 是一个革命性的版本，它使 LLM 能够对数学或物理问题等复杂任务进行详细推理，阿里巴巴的Marco-o1是其开源平替。

Gemini问答数据集微调

本文介绍如何通过构建一个基于斯坦福问答数据集 (SQuAD 1.1) 微调的强大问答系统来增强 Gemini 1.5 Flash 的功能。

IP-Adapter图像提示模型

IP-Adapter图像提示模型

图像提示与文本提示一起作为稳定扩散模型的附加输入。文本和图像提示都作为条对 AI 图像生成产生影响。

FLUX.1 Tools 图像工具包

FLUX.1 Tools 图像工具包

FLUX 背后的团队 Black Forest Labs 刚刚发布了 FLUX.1 Tools — 一套由四个强大的工具组成的套件，可增强 FLUX 的图像生成能力和可控性。

Llama 3.2 Vision医学图像微调

Llama 3.2 Vision医学图像微调

今天，我将带你了解一个令人兴奋的项目：微调 Meta 的 Llama 3.2 Vision 模型来分析放射图像。

LTXV开源实时视频生成模型

Lightricks 推出了 LTX Video (LTXV)，这是一种以前所未有的速度生成 AI 视频的开源模型。

10个令人惊叹的IC-LoRA用法

10个令人惊叹的IC-LoRA用法

上下文LoRA（IC-LoRA）对文本到图像模型进行微调，以生成具有可定制内在关系的图像集，可选择以另一组为条件，从而适应各种创作任务。

SAMURAI零样本视觉跟踪模型

SAMURAI零样本视觉跟踪模型

为了解决SAM 2的对象跟踪问题，出现了一个看起来很棒的新模型 SAMURAI。SAMURAI 改编自 SAM2 本身，用于零样本视觉跟踪。

LLaMa-Mesh：文本生成3D网格

LLaMa-Mesh：文本生成3D网格

NVIDIA 发表了一篇引人入胜的论文 LLaMA-Mesh：使用语言模型统一 3D 网格生成，该论文允许使用自然语言生成 3D 网格对象。

Gemma 2微调实现医学问答

Gemma 2微调实现医学问答

本文旨在对医学数据集上的 Gemma 2 模型进行微调，重点关注其在医疗保健相关 QA 任务中的应用。

Pixtral Large 124B多模态大模型

Pixtral Large 124B多模态大模型

Mistral 最近推出了 Pixtral Large，这是一款拥有 1240 亿个参数的最先进的多模态模型。

Gemini 批量生成

LLM 非常适合按需生成内容，但如果不加以控制，你最终可能会收到一大笔账单。批量生成是另一种可用于以折扣价节省时间的技术。