语音合成方向论文需要学什么

语音合成方向论文需要学什么

问:人工智能:语音合成技术
  1. 答:近年来,国内巨头们也纷纷开始布局智能音箱(百度 Raven 、阿里天猫精灵、腾讯听听、京东叮咚、小米 AI 音箱等等),相信不少同学都已经入手;同时,越来越多读书 APP 提供“听书”的功能,甚至出现将小说转有声小说的软件;手机里的语音助手、电脑里的 Cortana、车载导航中说话越来越像真人,甚至感觉偶尔说话很有“感情”。这些应用背后都有用到了同一种技术——语音合成(TTS,即Text To Speech)。
    语音合成一般会经过文本与韵律分析、声学处理与声音合成三个步骤,分别依赖于文本与韵律分析模型、声学模型与声码器。其中文本与韵律分析模型一般被称为“前端”,声学模型和声码器被称为“后端”。
    文本与韵律分析中,首先对文本进行分词和标注:分词会将文本切成一个个词语,标注则会注明每个字的发音以及哪里是重音、哪里需要停顿等韵律信息;然后根据分词和标注的结果提取文本的特征,将文本变成一个个文本特征向量组成的序列。
    目前百度语音技术是JAVA IDE语音合成技术。
问:什么是语音合成技术
  1. 答:语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。
    文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。
问:语音信号处理方向的入门学习
  1. 答:专业面很窄,除非在研究所,或大学进行深入的研究,否则就业很困难。
    现在语音信号处理都发展很成熟,在研究生阶段不好发论文。语音识别,还有的一搞,但难度太大,就当前的技术来讲,存在着很大的技术瓶颈。
  2. 答:老实说,语音这方面这些年都没什么搞头,未来几年应该也好不到哪去。低端的都做成ASIC了,高端的都是跨国公司和国内大公司,中科院那些地方搞。语音这东西不同其他,不论是语音合成或是识别或是分离,不然就要求很低,不然就要求很高,不高不低的没法产品化,卖不出钱自然就没搞头,毕竟人都是要吃饭过日子的,很现实的问题。
    现在基本上还有些公司会找些语音编码方面的人,但是都少,待遇确实也不怎么样。像腾讯华为这些大公司都不过万把块钱一个月打发了,毕竟这个年头这点薪水算不得高了。
    你读研可以找师兄师姐了解情况的嘛,毕竟每个大学都有自己主打的出路,敢开研究生实验室手里自然还是会有一两张可以打的牌的。
语音合成方向论文需要学什么
下载Doc文档

猜你喜欢