Software 2.0

TTS:MaskGCT & OuteTTS
MODEL-ZOO

TTS:MaskGCT & OuteTTS

在过去的一年中,seamless_communication、StyleTTS、VITS、DeepSpeech和Whisper 等项目都在 TTS(文本转语音)技术的进步中发挥了重要作用。但现在,回顾 GitHub,这些项目中的很多都已经沉寂了。 最初,我只对它们的功能有基本的了解,而没有深入研究它们背后的技术概念和机制。这次,受到最近发布的 MaskGCT 和 OutTTS 等开源项目的启发,我决定总结一下 TTS 的基础技术。总体而言,音频生成的质量自去年以来有了显着提高。以前,合成的声音听起来很机械;现在,多亏了 Hertz-dev 等模型,我们可以生成听起来更自然、更像人类的音频。 1、TTS 基础知识TTS 系统的主要目标是将输入的文本转换为听起来自然的语音。 1.1 传统TTS模型传统的 TTS 模型(例如 Tacotron 和 WaveNet)通常涉及三个主要步骤:

SegFormer数据集制作及模型微调
MODEL-ZOO

SegFormer数据集制作及模型微调

本指南展示了如何微调 Segformer,这是一种最先进的语义分割模型。我们的目标是为披萨送货机器人建立一个模型,这样它就可以看到要行驶的方向并识别障碍物 🍕🤖。 我们将首先在 Segments.ai 上标记一组人行道图像。然后,我们将使用 🤗 transformers 微调预先训练的 SegFormer 模型,transformers 是一个开源库,提供最先进模型的易于使用的实现。在此过程中,我们将学习如何使用 Hugging Face Hub,这是最大的开源模型和数据集目录。 语义分割是对图像中的每个像素进行分类的任务。你可以将其视为对图像进行更精确分类的方法。它在医学成像和自动驾驶等领域有广泛的用例。例如,对于我们的披萨送货机器人来说,重要的是要确切地知道人行道在图像中的位置,而不仅仅是是否有人行道。 因为语义分割是一种分类,所以用于图像分类和语义分割的网络架构非常相似。 2014 年,Long 等人发表了一篇开创性的论文,使用卷积神经网络进行语义分割。 最近,Transformers 已用于图像分类(例如 ViT),现在它们也用于语义分割,进一步推动了最先进的技术。 SegFormer 是 Xie 等人于 2021

Oasis:AI生成游戏的新范式
APPLICATION

Oasis:AI生成游戏的新范式

大约 2 个月前,我们见证了 GameNGen 的发布,它能够在收到用户输入时逐帧生成 DOOM(1993)。现在,就在 2 天前,Decart 和 Etched 刚刚发布了一个名为“Oasis”的新开源模型,该模型以每秒 20 帧的速度生成 Minecraft。不仅如此,他们还提供了一个网站,人们可以使用他们的模型玩 Minecraft,每次运行近 3 分钟。 Oasis 生成的游戏快照在这篇短文中,我们将讨论有关 Oasis 的详细信息,包括它的功能、工作原理、局限性、公司的未来计划以及它对 AI 生成的游戏和游戏开发的影响。所以,事不宜迟,让我们开始吧。 1、什么是 Oasis?Oasis 是第一个可玩的实时开放世界 AI

12个数据可视化必备数据集
DATASET

12个数据可视化必备数据集

数据可视化不仅是一种强大的工具,可让数据科学家和分析师以易于理解的格式传达复杂的见解和发现,而且它也是希望进入该领域并展示新学到的技能的有抱负的数据科学家/分析师的第一步。 但还有另一件重要的事情需要考虑——数据集的选择。为数据可视化选择正确的数据集对于任何数据可视化项目的成功都至关重要——它可能意味着提供引人入胜的叙述或失败之间的区别。 但这就是我们来到 ODSC 的原因!让我们来看看各个领域的最佳数据可视化数据集列表,它们非常适合增强你的数据可视化项目并让你的数据故事栩栩如生,甚至只是帮助你丰富你的投资组合。 政府和开放数据源1、美国政府开放数据 作为最全面的政府数据存储库之一,data.gov 提供多个领域的数据集,包括农业、气候、教育和健康。该平台对于政策分析、经济可视化和公共部门项目特别有用,使用户能够探索美国政府格局中的趋势和见解。这些数据可视化数据集非常多样化,为新手和高级数据科学家提供了大量主题选择。 2、世界银行开放数据对于那些对全球发展感兴趣的人,世界银行开放数据平台提供了有关健康、教育和经济指标等主题的大量数据集。它是可视化全球趋势和金融数据的首选来源,非常适合专注于国际发展、经济比较和贫困分析的项目。 社交媒体和网络数据3、Google 趋势Google 趋势提供了人们随时间搜索内容的见解,使其成为时间序列可视化、流行度分析和趋势预测的绝佳工具。通过利用这些数据,你可以创建可视化效果,捕捉公众对从政治到娱乐等各种主题的兴趣脉搏。 4、Twitter API / Twitter 数据Twitter 庞大的实时和历史数据存储库是情绪分析、