电子发烧友网>人工智能> > 正文

绘声绘色:NVIDIA在Interspeech大会上分享情感语音合成研究成果

2021年09月01日 14:31 ? 次阅读

开发者和创作者可以使用最先进的对话式AI模型进行情感语音合成,为角色、虚拟助手和个性化形象生成声音。

AI已将合成语音从单调的机器人呼叫和传统GPS导航系统转变成智能手机和智能音箱中动听的虚拟助手。

但AI合成语音与我们在日常对话和媒体中听到的人类语音之间仍有差距。这是因为人在说话时会有复杂的节奏、音调和音色,而AI很难在这些方面进行模仿。

但这一差距正在迅速缩小。NVIDIA研究人员正在创建高质量、可控制的语音合成模型和工具,这些模型和工具能够捕捉人类语音的丰富性,并且不会出现音频杂音。NVIDIA研究人员目前正在INTERSPEECH 2021大会上展示他们的最新项目。本届大会将持续到9月3日。

这些模型有助于为银行和零售商的自动客户服务热线配音、使视频游戏和书籍中的人物变得栩栩如生,并为数字化身提供实时语音合成。

NVIDIA的内部创意团队甚至使用该技术为一个关于AI力量的系列视频制作了动人的解说。

情感语音合成只是NVIDIA 研究院在对话式 AI领域的重点工作之一。该领域还包括自然语言处理、自动语音识别、关键词检测、音频增强等。

这些前沿工作经过优化后可以在NVIDIA GPU上高效运行,其中的一些工作已经通过NVIDIA NeMo工具包开放源代码,可在NVIDIA NGC 容器和其他软件中心获得。

I AM AI幕后花絮

NVIDIA研究人员和专业创作人员并不是在针对对话式AI进行纸上谈兵。他们通过身体力行,将突破性的语音合成模型应用于I AM AI系列视频中。该系列视频介绍了重塑各个行业的全球 AI 创新者。

不久之前,这些视频还都是由人类配音的。以前的语音合成模型对合成声音节奏和音调的控制十分有限,因此AI配音无法唤起观众的情感反应,只有富有感情的人类声音才能做到这一点。

在过去的一年中,NVIDIA文本-语音研究团队开发出更强大、更可控的语音合成模型(如RAD-TTS),使得上述情况发生了变化。NVIDIA在SIGGRAPH Real-TIme Live比赛中的获奖演示就采用了这个模型。通过使用人类语音音频来训练文本-语音模型,RAD-TTS可以将任何文本转换成说话人的声音。

该模型的另一项功能是语音转换,即使用一名说话人的声音讲述另一名说话人的话语(甚至歌唱)。RAD-TTS界面的灵感来自于将人的声音作为一种乐器这一创意。用户可以使用它对合成声音的音调、持续时间和强度进行精细的帧级控制。

通过这个接口,视频制作者可以在录制中自行阅读视频文本,然后使用AI模型将他作为男叙述者的语音转换成女叙述者的声音。制作者可以使用这个基准叙述,像指导配音演员一样指示AI,比如通过调整合成语音来强调特定的词语、修改叙述节奏以更好地表达视频中的语气 等。

该AI模型的能力已超出了配音工作的范围:文本-语音转换可以用于游戏、为有声音障碍的人提供帮助、或帮助用户用自己的声音进行不同语言的叙述。它甚至可以重现标志性歌手的表演,不仅能够匹配歌曲的旋律,还能匹配人声背后的情感表达。

为AI开发者和研究者提供强大的语音功能

NVIDIA NeMo是一款用于GPU加速对话式AI的开源Python工具包。研究者、开发者和创作者通过使用该工具包,能够在自己的应用实验和和微调语音模型方面取得先机。

NeMo中易于使用的API和预训练模型能够帮助研究人员开发和自定义用于文本-语音转换、自然语言处理和实时自动语音识别的模型。其中几个模型是在NVIDIA DGX 系统上使用数万小时的音频数据训练而成。开发者可以根据自己的使用情况对任何模型进行微调,运用NVIDIA Tensor Core GPU上的混合精度计算加快训练速度。

NVIDIA NeMo还通过NGC提供在Mozilla Common Voice上训练的模型,该数据集拥有76种语言、近14000小时的众包语音数据。该项目的目标是在NVIDIA的支持下,通过全球最大的开源数据语音数据集实现语音技术的普及化。

语音技术的盛宴:NVIDIA研究人员展示AI语音技术的最新进展

INTERSPEECH汇聚了1000多名研究人员,他们展示了语音技术方面的突破性进展。在本周的会议上,NVIDIA研究院将展示对话式AI模型架构以及供开发者使用的完全格式化语音数据集。

请关注以下由NVIDIA 嘉宾带来的相关演讲:

● 兼容任何场景的多麦克风语音去混响 — 8月31日(周二)

● SPGISpeech:用于完全格式化端到端语音识别的5000小时转录金融音频 — 9月1日(周三)

● Hi-Fi多讲话者英语TTS数据集 — 9月1日(周三)

● TalkNet 2:用于语音合成(具有明确音高和持续时间预测)的非自回归深度可分离卷积模型 — 9月2日(周四)

● 使用稀疏随机三元矩阵压缩一维时间通道可分离卷积 — 9月3日(周五)

● NeMo逆向文本正则化:从开发到生产 — 9月3日(周五)

可在NGC目录中搜索NeMo模型并收听NVIDIA研究人员在 INTERSPEECH大会上的讲座。

NVIDIA 在Interspeech分享情感语音研究的视频链接:https://www.youtube.com/watch?v=RknIx6XmffA

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

AI落地盘古开天 跨越AI天堑时:行动代号“盘古...

我采访过一个案例,某工厂的IT负责人想要应用AI,咨询之后却发现开发成本过于高昂,人才、算力、算法等....
发表于 2021-09-01 16:07? 332次阅读
AI落地盘古开天 跨越AI天堑时:行动代号“盘古...

自动机器学习的优点与痛点

自动机器学习综述 自从计算机时代开始,科学家和工程师们就一直想知道如何像人类一样,给计算机注入学习的....
发表于 2021-09-01 14:29? 269次阅读
自动机器学习的优点与痛点

一文带你看懂3D视觉

从手机解锁、支付消费到工厂的生产应用,3D 视觉已经深入到生活的方方面面。那到底什么是3D 视觉。它....
发表于 2021-09-01 09:52? 528次阅读
一文带你看懂3D视觉

消费者年龄预测如何做?使用BI工具,数据分析也很...

最近朋友推荐Yonghong Desktop,号称既有BI,又有AI,而且还是免费的,于是二话不说,....
发表于 2021-08-31 17:31? 40次阅读
消费者年龄预测如何做?使用BI工具,数据分析也很...

Imagination公布2021年上半年财务业...

Imagination Technologies近日公布了2021年上半年初步未经审计的业绩,其总收....
发表于 2021-08-31 16:54? 1398次阅读
Imagination公布2021年上半年财务业...

世茂物联X神州云动CRM 缔造美好智慧生活

近日,世茂服务控股(00873.HK)旗下世茂物联携手神州云动CloudCC,双方依托CloudCC....
发表于 2021-08-31 16:04? 29次阅读
世茂物联X神州云动CRM 缔造美好智慧生活

高性能的机器学习让边缘计算更给力

在科技日新月异的当今社会,人工智能 (AI) 的研究工作已取得惊人进展,计算机的用途也在不断拓宽。
发表于 2021-08-31 11:09? 236次阅读
高性能的机器学习让边缘计算更给力

雷锋网「2021 AI 最佳成长榜」重磅揭晓

1905年,26岁的爱因斯坦,仿佛被上帝摸了他的头,突然一下连续抛出了六篇学术论文,而每一篇都成为现....
发表于 2021-08-31 10:31? 336次阅读
雷锋网「2021 AI 最佳成长榜」重磅揭晓

5G高算力智能模组助力智能网联汽车

如今,汽车行业正经历百年未有之大变局,随着智能网联、5G等技术快速发展,汽车也被认为是继个人电脑、手....
发表于 2021-08-30 15:55? 43次阅读
5G高算力智能模组助力智能网联汽车

超脑少年团持续热播,科大讯飞AI学习机助力孩子好...

8月27日,由科大讯飞AI学习机独家冠名播出的大型沉浸式烧脑真人秀《超脑少年团》如期而至。在往期节目....
发表于 2021-08-30 15:38? 49次阅读
超脑少年团持续热播,科大讯飞AI学习机助力孩子好...

驴迹科技公布2021年中期业绩:实现扭亏为盈,业...

驴迹科技持续巩固于电子导览行业的领导地位,积极把握复苏的机会,灵活应对市场需求的变化。
发表于 2021-08-30 10:10? 307次阅读
驴迹科技公布2021年中期业绩:实现扭亏为盈,业...

电话机器人怎么样,它有哪些功能

随着科技水平的不断提高,人们的生活也变得更加智能化,在电销行业,一款新型的智能语音电话机器人的出现,....
发表于 2021-08-28 17:20? 211次阅读
电话机器人怎么样,它有哪些功能

电话机器人的使用效果怎么样,它有什么优势

近些年,随着人工智能技术迅速崛起,各行各业都在努力地跟上科技发展的热潮,并不断寻找着契机,期望能够与....
发表于 2021-08-28 17:15? 126次阅读
电话机器人的使用效果怎么样,它有什么优势

智能电话机器人应用广泛,它有什么优势

电话营销是当今商业活动中不可或缺的销售工具,但目前它变得越来越难。首先,面对外来电话时,人们的警惕性....
发表于 2021-08-28 17:08? 36次阅读
智能电话机器人应用广泛,它有什么优势

科学家探索AI“选择性失忆”问题

在计算机科学中的新兴领域,机器学习研究者们已经开始探索在AI中诱发“选择性失忆”的方法,是为了在不影....
发表于 2021-08-27 15:28? 365次阅读
科学家探索AI“选择性失忆”问题

AI巨头们建造的新世界进展如何 小度的破圈四重奏...

请大家想象两个画面。 画面一:阳光遍地的加州某公寓内,一位硅谷精英坐在落地窗前,语音助手为他安排好一....
发表于 2021-08-26 19:15? 1625次阅读
AI巨头们建造的新世界进展如何 小度的破圈四重奏...

携手共治,推动发展 | 考拉悠然与紫光华智达成战...

8月24日,成都考拉悠然科技有限公司与重庆紫光华山智安科技有限公司正式签署战略合作协议。双方将在智慧....
发表于 2021-08-26 18:04? 138次阅读
携手共治,推动发展 | 考拉悠然与紫光华智达成战...

NVIDIA为阿贡国家实验室Polaris超级计...

美国能源部阿贡实验室最强GPU赋能的超级计算机将推动E 级AI时代科学突破
发表于 2021-08-26 16:20? 763次阅读
NVIDIA为阿贡国家实验室Polaris超级计...

云拿科技荣登铅笔道“2021真榜?人工智能应用?...

8月12日,国内著名创投垂直媒体铅笔道发布了“2021真榜?人工智能应用最具商业价值排行榜”,旨在用....
发表于 2021-08-26 12:21? 479次阅读
云拿科技荣登铅笔道“2021真榜?人工智能应用?...

我们该如何正确选择合适的电话机器人

近年来,许多企业已经嗅到了商机,并加入了研发营销机器人的行列。因此,到2022年,市场上将会出现越来....
发表于 2021-08-26 11:20? 21次阅读
我们该如何正确选择合适的电话机器人

奥朋医疗发力手术机器人 又获近亿B轮融资

现在医疗机器人的应用越加成熟,看到一个消息奥朋医疗血管腔内介入手术机器人ALLVA成功完成了全球首次....
发表于 2021-08-26 11:13? 1208次阅读
奥朋医疗发力手术机器人 又获近亿B轮融资

聚焦十月CPSE安博会:1263家企业参展,AI...

8月25日,第十八届中国国际社会公共安全博览会(以下简称CPSE安博会)组委会召开新闻发布会,宣布主....
发表于 2021-08-26 10:00? 2019次阅读
聚焦十月CPSE安博会:1263家企业参展,AI...

NVIDIA AI Enterprise软件全球...

NVIDIA软件使全球成千上万家企业能够在VMware vSphere和行业标准服务器上运行AI
发表于 2021-08-25 17:57? 907次阅读
NVIDIA AI Enterprise软件全球...

计算机视觉中识别出的类别有什么用途

在计算机视觉的应用中,“识别”只是一个相当入门的技术,相信很多人在执行深度学习推理应用中,经常产生的....
发表于 2021-08-25 16:57? 754次阅读
计算机视觉中识别出的类别有什么用途

Rambus推出支持HBM3的内存子系统,速率可...

高达8.4Gbps的数据速率,为人工智能/机器学习(AI/ML)和高性能计算(HPC)应用提供TB级....
发表于 2021-08-25 11:46? 364次阅读
Rambus推出支持HBM3的内存子系统,速率可...

如何用PHP做一个机器学习数据集

机器学习是一门通过数据来教计算机解决问题的科学,而不是编写序列算法,让指令逐个执行。 一般来说,数据....
发表于 2021-08-25 11:09? 152次阅读
如何用PHP做一个机器学习数据集

Maxim发布具有最高效率和最小方案尺寸的AI系...

MAX16602和MAX20790多相电源芯片组具有高于95%的工作效率,支持60A至800A或更大....
发表于 2021-08-25 09:01? 562次阅读
Maxim发布具有最高效率和最小方案尺寸的AI系...

2021代码集结号P-TECH挑战赛获奖者名单

P-TECH 全球挑战赛为参赛的所有青少年打开了未来的一扇窗,使他们有机会借助云计算和人工智能等前沿....
发表于 2021-08-24 10:55? 662次阅读
2021代码集结号P-TECH挑战赛获奖者名单

给内存加上AI?三星是这样做的

三星在Hot Chips 33会议上展示了其在内存内处理(PIM)技术方面的最新进展。Hot Chi....
发表于 2021-08-24 10:48? 146次阅读
给内存加上AI?三星是这样做的

探究小爱同学残障标注员的背后

“ 小爱同学 ” “ 我在 ” 四年来,小米的智能AI语音助手小爱同学陪伴了无数个家庭。从简单的语音....
发表于 2021-08-24 10:20? 837次阅读
探究小爱同学残障标注员的背后

Google遵循AI原则减少机器翻译的性别偏见

得益于神经机器翻译 (NMT) 的进步,译文更加自然流畅,但与此同时,这些译文也反映出训练数据存在社....
发表于 2021-08-24 10:14? 823次阅读
Google遵循AI原则减少机器翻译的性别偏见

IPv6专家委、信通院联合向华为颁发国内首张IP...

近日,推进IPv6规模部署专家委秘书处和中国信息通信研究院(以下简称“信通院”)联合向华为技术有限公....
发表于 2021-08-24 09:59? 1622次阅读
IPv6专家委、信通院联合向华为颁发国内首张IP...

科大讯飞亮相2021智博会:赋能数字经济,添彩智...

智汇八方,博采众长。8月23日,中国-上海合作组织数字经济产业论坛、2021中国国际智能产业博览会在....
发表于 2021-08-24 09:56? 1016次阅读
科大讯飞亮相2021智博会:赋能数字经济,添彩智...

观察AI如何找到出口 强化游戏体验

作为一名快乐的肥宅,玩游戏是居家必备,无论是王者荣耀、吃鸡、原神这些大热游戏,还是跳一跳、合成大西瓜....
发表于 2021-08-24 09:52? 813次阅读
观察AI如何找到出口 强化游戏体验

新一代 SAP ERP软件赋能企业转型

2021年是 IBM 与 SAP 合作的第 49个年头。在 SAP 刚刚举办的 2021年度大中华区....
发表于 2021-08-24 09:40? 188次阅读
新一代 SAP ERP软件赋能企业转型

意法半导体STM32Cube.AI生态系统加强对...

意法半导体STM32Cube.AI开发环境为用户提供各种机器学习技术,为他们尽可能高效地解决分类、聚....
发表于 2021-08-24 09:10? 267次阅读
意法半导体STM32Cube.AI生态系统加强对...

NVIDIA GPU助力提升模型训练和推理性价比

无量推荐系统承载着腾讯PCG(平台与内容事业群)的推荐场景,包括: 腾讯看点(浏览器、QQ看点、商业....
发表于 2021-08-23 17:09? 1965次阅读
NVIDIA GPU助力提升模型训练和推理性价比

Monterey项目正在引领混合云数据中心架构向...

戴尔科技、VMware 和 NVIDIA 共同助力企业提高数据中心的性能、可管理性和安全性。 如今,....
发表于 2021-08-23 16:47? 263次阅读
Monterey项目正在引领混合云数据中心架构向...

NVIDIA用HPC和AI来推动新一代测序工作

科学家和医疗研究人员曾受湿式实验室中的研究样本数量以及在观察细胞时被显微镜质量所限制。现在,他们正在....
发表于 2021-08-23 16:14? 272次阅读
NVIDIA用HPC和AI来推动新一代测序工作

FITLAB打造基于计算机视觉的智能健身解决方案

Fitlab(纷来智能)致力于打造基于计算机视觉的智能健身解决方案,在不改变健身房运营模式和用户运动....
发表于 2021-08-23 16:06? 404次阅读
FITLAB打造基于计算机视觉的智能健身解决方案

NVIDIA网卡助力分布式应用实现精确计时功能

NVIDIA ConnectX 网卡助力社交网络关键任务的分布式应用实现精确计时功能。 Facebo....
发表于 2021-08-23 16:05? 193次阅读
NVIDIA网卡助力分布式应用实现精确计时功能

NVIDIA全新的专业RTX GPU等亮点令人目...

在上周的SIGGRAPH专业图形图像大会上,各种获奖研究、精彩演示、对NVIDIA Omnivers....
发表于 2021-08-23 15:42? 201次阅读
NVIDIA全新的专业RTX GPU等亮点令人目...

RTX A6000加速大场景实时渲染

建筑、工程和施工(AEC)行业对实时可视化的需求与日俱增,NVIDIA RTX GPU让设计师和艺术....
发表于 2021-08-23 15:35? 231次阅读
RTX A6000加速大场景实时渲染

从零售与物流的角度出发展示AI是如何帮助人们获得...

在本系列文章中,我们将探索现实案例中如何利用运行在NVIDIA 的 EGX 平台上的NVIDIA M....
发表于 2021-08-23 15:12? 1178次阅读
从零售与物流的角度出发展示AI是如何帮助人们获得...

如何利用NVIDIA Metropolis应用框...

在本系列文章中,我们将探索现实案例中如何利用运行在NVIDIA的EGX平台上的NVIDIA Metr....
发表于 2021-08-23 15:03? 871次阅读
如何利用NVIDIA Metropolis应用框...

NVIDIA发布全新NVIDIA RTX A20...

在上周的SIGGRAPH专业图形图像大会上,各种获奖研究、精彩演示、对NVIDIA Omnivers....
发表于 2021-08-23 11:24? 884次阅读
NVIDIA发布全新NVIDIA RTX A20...

NVIDIA ConnectX网卡助力社交网络关...

NVIDIA ConnectX 网卡助力社交网络关键任务的分布式应用实现精确计时功能。 Facebo....
发表于 2021-08-23 11:18? 162次阅读
NVIDIA ConnectX网卡助力社交网络关...

华为智慧加油站解决方案实现对加油站的智慧管理

加油站的“变形记”源于数字化转型,为了把握时代新趋势,加油站携手华为引入数字技术,以科技创新升级消费....
发表于 2021-08-23 11:06? 1075次阅读
华为智慧加油站解决方案实现对加油站的智慧管理

ZLG致远电子基于不同形式接口开发高性能CAN接...

无人化行业迅速发展,CAN-bus在无人配送中发挥着重要的作用。ZLG致远电子针对目前无人行业存在的....
发表于 2021-08-23 10:49? 1432次阅读
ZLG致远电子基于不同形式接口开发高性能CAN接...

NVIDIA CloudXR拓展3DCAT应用场...

瑞云科技云平台成功集成NVIDIA CloudXR SDK,并部署了RTX 6000 GPU,极大增....
发表于 2021-08-23 10:39? 1900次阅读
NVIDIA CloudXR拓展3DCAT应用场...

Embark首个NVIDIA DRIVE平台实现...

为了实现商用半挂式卡车的大规模自动驾驶,自动卡车运输初创企业Embark正在开发一个适用于所有卡车的....
发表于 2021-08-23 10:28? 1322次阅读
Embark首个NVIDIA DRIVE平台实现...

智能扫地机器人哪个牌子好?2021榜单热销这5款...

作为硬科技的代表产品,扫地机器人在近年来大放异彩,无论是iRobot、科沃斯等持续深耕的老牌厂商,还....
发表于 2021-08-23 10:18? 490次阅读
智能扫地机器人哪个牌子好?2021榜单热销这5款...

基于语音合成技术的车载终端系统该怎样去设计?

什么是语音合成技术? 基于语音合成技术的车载终端系统该怎样去设计? ...
发表于 2021-05-12 07:25? 202次阅读
基于语音合成技术的车载终端系统该怎样去设计?

基于JetsoN Nano开发套件的开源智能车项目

JetBot 项目是NVIDIA(英伟达)基于JetsoN Nano开发套件而设计的一款开源智能车项目, 为初步上手Jetson ...
发表于 2020-11-04 07:40? 505次阅读
基于JetsoN Nano开发套件的开源智能车项目

JetsonNano?2GBDeveloperKit开箱测试

2020年10月5号,英伟达(Nvidia)发布了Jetson Nano? 2GB Developer Kit,Jeson平台再添一员,目前Jetson系列分...
发表于 2020-11-04 07:05? 303次阅读
JetsonNano?2GBDeveloperKit开箱测试

Nvidia/ARM交易,能怎样为下一个计算机时代创造主导的生态系统

在过去的几周中,有许多关于Nvidia收购Arm的提议的报道。有关该消息的消息大多困扰着阿姆的现有所有者软银以310亿美...
发表于 2020-09-07 09:49? 707次阅读
Nvidia/ARM交易,能怎样为下一个计算机时代创造主导的生态系统

G-SYNC有什么作用

  什么是G-SYNC技术?   G-SYNC是NVIDIA的技术,可将显示器的刷新率与显卡的帧速率同步,以提高...
发表于 2020-06-22 10:58? 1845次阅读
G-SYNC有什么作用

NVIDIA 在首个AI推理基准测试中大放异彩

Turing GPU、Xavier芯片系统在MLPerf基准测试中展现了巨大优势 加利福尼亚州圣克拉拉市 —— 2019年11月6日 —...
发表于 2019-11-08 19:44? 1301次阅读
NVIDIA 在首个AI推理基准测试中大放异彩

半导体厂商和互联网巨头选择什么AI计算平台?

不同厂商有不同的应用场景,而适合构架和解决方案也各不相同,如云侧和端侧处理构架的设计导向差别较大。对于半导体领...
发表于 2019-08-09 07:40? 1220次阅读
半导体厂商和互联网巨头选择什么AI计算平台?

Linux上的最新NVIDIA驱动安装

结果无论是用源安装,还是官网下载*.run文件都是安装失败,从源安装会发现显示安装成功,但是nvidia-smi运行失败,运行...
发表于 2019-07-17 08:26? 1472次阅读
Linux上的最新NVIDIA驱动安装

具有双核Denver2 +四核ARM Cortex-A57,8GB 128位LPDDR4和集成的256核Pascal GPU

...
发表于 2019-03-14 10:29? 3649次阅读
具有双核Denver2 +四核ARM Cortex-A57,8GB 128位LPDDR4和集成的256核Pascal GPU

语音合成芯片与语音芯片对比

目前市面上的可发声芯片分为两大类:语音合成芯片与语音芯片。在实际开发语音终端产品工作中,有很多的研发人员在这两...
发表于 2019-03-11 15:39? 1082次阅读
语音合成芯片与语音芯片对比
她的小梨涡完整版免费阅读