近年来随着深度学习技术的不断发展,语音合成技术也取得了突破性进展,也成为了很多设备的标配。比如siri通过手机跟我们讲冷笑话,车载音箱实时播报汽车的行进路线等等无不用到语音合成。
并且,深度神经网络在语音合成模型与声码器中的应用,使得端到端语音合成系统得到飞速进展。序列到序列(seq2seq)模型框架简洁,无需帧级对齐,声学时长联合建模,避免级联误差,也无需复杂文本特征。Google在2017年提出了一种新的端到端的语音合成系统Tacotron,借助深度学习模型的强表达能力,表现出惊人的合成效果。
目前国内的语音合成技术趋于成熟,但是企业对语音合成候选人的要求也极高。语音技术相较于AI其他方向而言,具有典型的跨学科特点。除了声学、语音语言学、信号处理等,还要会编程语言,并且要对常见的深度学习模型有深入了解,以及对语音合成本身的Tacotron、WaveNet等系统异常熟悉。内容涉及的越广泛,大家学习周期也就越长,企业的人才缺口也会相应的增加。
并且语音合成算法工程师的薪资也极为可观,基本是30k/月起步。(是不是很心动!)
而国内高校并没有培养对应人才的学习机制,并且,真正想学习的同学,在网络上都很难搜索到系统地学习语音合成的相关资料,更别说还需要相关项目来动手实践了,终究是“巧妇难为无米之炊”。
深蓝学院特邀西北工业大学教授、博导谢磊团队讲授《语音合成:基础与前沿》课程,既讲解传统语音合成算法(帧级+信号声码器),而且讲解端到端语音合成进阶算法,最后带大家实现语音合成应用,如风格化语音合成、多说话人建模与说话人自适应技术。
◐
1.讲师团队介绍
左右滑动查看更多
◐
2. 实践项目
01
实现基于CRF的分词
学习如何使用CRF实现中文分词,了解CRF的数据格式、训练流程以及测试客观指标。通过该实践能够快速搭建一套分词系统。
02
World vocoder参数提取与合成
基于World vocoder实现参数的提取与合成,旨在了解传统语音声码器中各个参数,包括基频、频谱包络以及非周期信号。同时尝试使用这些特征还原语音,并且对比各种采样率下的不同还原效果。
03
基于LSTM/GRU的声学与时长模型
在此实践中,我们将基于Tensorflow实现递归神经网络LTSM/GRU的语音合成时长与声学模型。从而将设计好的文本特征经过时长和声学模型,合成语音。
04
实现基于Tacotron的声学模型
基于Tensorflow构建Tacotron模型,包括特征处理、模型训练和解码等。旨在了解Tacotron各个模块的细节,以及如何基于注意力机制构建序列到序列声学模型。
05
实现基于LSA的注意力机制
基于Tensorflow实现Location-sensitive attention (LSA)机制。旨在进一步了解注意力机制的基础原理以及使用方法,并尝试寻找更符合语音特点的注意力机制。
06
实现基于Mel特征的WaveRNN
基于Tensorflow实现基于Mel特征的WaveRNN神经声码器,从而将谱特征转换为真实语音波形。同时可以考虑对原始模型进行扩展或改进以提高训练速度。
◐
3. 课程亮点
1.本课程全面覆盖当前主流算法和模型,学习省时省力;
2.授课团队为国内知名的语音团队——西北工业大学谢磊团队;
3.理论与实践相结合。每章节课程后的都会配有相应的作业,助教1V1批改;
4.班主任带班。督促学习(告别拖延~);
5.超优质的学习圈子。学习本课程的同学来自超牛的学校与企业。
◐
4. 课程收获
1.掌握传统语音合成系统中文本正则化、分词、注音、韵律预测等前端子模块的作用以及基于BLSTM+CRF的方法;
2.掌握传统语音合成系统中主流后端算法,包括基于HMM/NN的统计参数模型,以及基于单元拼接的方法;
3.领悟基于Attention的序列到序列算法的思想,掌握Tacotron模型的细节;
4.深入了解更适合语音任务的Attention机制及其应用;
5.熟悉基于WaveNet的神经网络声码器以及WaveRNN和LPCNet声码器的原理。
咨询更多
扫码添加深蓝学院-叶子
备注【130】,才会通过好友哦!
咨询课程可免费领取试听课哦~