Tagged

MODEL-ZOO

A collection of 166 posts

GPT-4o mini微调医疗援助模型
MODEL-ZOO

GPT-4o mini微调医疗援助模型

在着手创建由生成式 AI 驱动的聊天解决方案时,效率应该是我们的指导方针。从利用 SaaS 解决方案到从头开始构建模型,选项多种多样。在本文中,我将介绍基于 Azure OpenAI 服务的模型微调,重点是在定制与效率之间取得平衡。 注意:本文中显示的输入数据包含与医学相关的一般问题和答案,目的是开发一个包含一些医学领域信息的模型。由于我不是医学专业人士,我仅将这些数据用于本文所讨论的数据科学工作,而不是建议或表明任何医疗状况或疾病的定义、预防、诊断或治疗。优先考虑效率意味着并不总是需要选择最大、最强大的模型。定制通常使我们能够使用更轻量的模型版本实现卓越的性能。出于这个原因,我选择了 GPT-4o mini,它是著名的 GPT-4o 模型的较小版本。 在下图中,我们可以在两个阶段使用它:提示工程和 AOAI 模型 FT。 1、为什么微调是一个明智的选择?你可能已经熟悉了少样本学习的概念,其中机器学习模型在极少量的标记示例上进行训练,从而提高效率。微调是另一种(尽管是独立的)优先考虑效率的方法,并且与少样本学习相比具有几个优势: 质量结果:微调可以在比单个提示更大的数据集上进行训练,从而产生更高质量的输出。

5个最流行的开源TTS模型
MODEL-ZOO

5个最流行的开源TTS模型

文本转语音 (TTS) 技术在无障碍、教育和虚拟助手等行业中应用广泛,因此过去一年对它的需求猛增。就像 LLM 和图像生成模型的进步一样,TTS 模型也不断发展,能够从文本输入生成更逼真、更像人类的语音。 如果你希望将 TTS 集成到你的系统中,开源模型是一个绝佳的选择。与专有替代方案相比,它们提供了更大的灵活性、控制力和定制性。在这篇文章中,我们将探讨当今一些最流行的开源 TTS 模型。我们将深入研究它们的优点和缺点,帮助您选择最适合您需求的模型。最后,我们将提供一些常见问题的答案。 1、XTTS-v2XTTS 是最流行的语音生成模型之一。其最新版本 XTTS-v2 能够仅通过 6 秒的快速音频样本将声音克隆成不同的语言。这种效率消除了对大量训练数据的需求,使其成为语音克隆和多语言语音生成的有吸引力的解决方案。 坏消息是,XTTS 背后的公司于 2024 年初关闭,将该项目留给了开源社区。 但是,源代码仍然在 GitHub 上可用,XTTS-v2 仍然是 Hugging

Gemini目标检测实测
MODEL-ZOO

Gemini目标检测实测

我们熟悉 Gemini 令人印象深刻的多模态能力,尤其是在推理图像数据时——无论是字幕、OCR、分类还是识别图像中的特定内容。 与其开放模型对手 PaliGemma 不同,Gemini 模型并未专门针对对象检测任务进行训练。这一事实促使我进行了一些实验并撰写了这篇博客。 注意:在这里,当我们谈论对象检测时,我们的意思是通过绘制边界框来识别和定位对象,就像 YOLO、DETR、EfficientDet、Florence-2 和 PaliGemma 等模型一样。所以,事不宜迟,让我们来看看 Gemini 是否可以执行对象检测和定位。如果是,在多大程度上? 1、代码实现我们只需要 Gemini API 密钥—不需要其他任何东西。我假设你已经熟悉 Gemini API。如果还不熟悉,请查看此博客以了解如何在 Google AI Studio 上创建 Gemini API 密钥。