MODEL-ZOO Neo4j Text2Cypher 模型 Neo4j Text2Cypher模型演示了如何使用 Neo4j Text2Cypher(2024) 数据集微调基础模型来提高 Text2Cypher 任务的性能。
MODEL-ZOO OOTDiffusion虚拟试穿模型 虚拟试穿技术是电子商务和时尚领域的一项前沿创新,它允许客户在不实际穿着的情况下尝试虚拟服装、配饰、化妆品或其他时尚元素。OTDiffusion是一种基于 LDM 的新方法。
MODEL-ZOO Qwen2.5-Coder 模型微调教程 本文介绍如何在Continue代码助手的开发数据记录基础上,使用 Unsloth 微调Qwen2.5-Coder 7B模型,以完善其代码自动完成能力。
MODEL-ZOO 在VS Code中使用Qwen2.5-Coder 得益于通过 ollama 和 CodeGPT 的集成,Qwen2.5-Coder 模型现已可供直接下载并在 VS Code 中使用。
MODEL-ZOO Llama 3.2 Vision 评测 Llama 3.2-Vision 指令调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。这些模型在常见的行业基准上优于许多可用的开源和封闭多模式模型。
MODEL-ZOO TTS:MaskGCT & OuteTTS 在过去的一年中,seamless_communication、StyleTTS、VITS、DeepSpeech和Whisper 等项目都在 TTS(文本转语音)技术的进步中发挥了重要作用。但现在,回顾 GitHub,这些项目中的很多都已经沉寂了。 最初,我只对它们的功能有基本的了解,而没有深入研究它们背后的技术概念和机制。这次,受到最近发布的 MaskGCT 和 OutTTS 等开源项目的启发,我决定总结一下 TTS 的基础技术。总体而言,音频生成的质量自去年以来有了显着提高。以前,合成的声音听起来很机械;现在,多亏了 Hertz-dev 等模型,我们可以生成听起来更自然、更像人类的音频。 1、TTS 基础知识TTS 系统的主要目标是将输入的文本转换为听起来自然的语音。 1.1 传统TTS模型传统的 TTS 模型(例如 Tacotron 和 WaveNet)通常涉及三个主要步骤:
MODEL-ZOO SegFormer数据集制作及模型微调 本指南展示了如何微调 Segformer,这是一种最先进的语义分割模型。我们的目标是为披萨送货机器人建立一个模型,这样它就可以看到要行驶的方向并识别障碍物 🍕🤖。 我们将首先在 Segments.ai 上标记一组人行道图像。然后,我们将使用 🤗 transformers 微调预先训练的 SegFormer 模型,transformers 是一个开源库,提供最先进模型的易于使用的实现。在此过程中,我们将学习如何使用 Hugging Face Hub,这是最大的开源模型和数据集目录。 语义分割是对图像中的每个像素进行分类的任务。你可以将其视为对图像进行更精确分类的方法。它在医学成像和自动驾驶等领域有广泛的用例。例如,对于我们的披萨送货机器人来说,重要的是要确切地知道人行道在图像中的位置,而不仅仅是是否有人行道。 因为语义分割是一种分类,所以用于图像分类和语义分割的网络架构非常相似。 2014 年,Long 等人发表了一篇开创性的论文,使用卷积神经网络进行语义分割。 最近,Transformers 已用于图像分类(例如 ViT),现在它们也用于语义分割,进一步推动了最先进的技术。 SegFormer 是 Xie 等人于 2021
MODEL-ZOO Phi-3.5电商数据集微调 本文加载Phi-3.5-mini-instruct 模型并对其进行微调,以根据文本描述对电子商务产品进行分类,并将 LoRA(低秩自适应)微调模型与基础模型合后推送到 Hugging Face。