基于声学统计模型的单元挑选语音合成方法

    公开(公告)号:CN101178896A

    公开(公告)日:2008-05-14

    申请号:CN200710191078.6

    申请日:2007-12-06

    IPC分类号: G10L13/02 G10L13/06 G10L13/08

    摘要: 本发明涉及基于声学统计模型的单元挑选语音合成方法,其方法包括提取训练语料库各声学特征;结合训练语料库中各句话的音段、韵律等标注信息,训练各种声学特征所对应的统计模型,在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的各种声学特征的统计模型。以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则,搜索最优的备选单元;使用声学统计模型间的KLD来实现合成单元的快速预挑选;最终通过对各个音素的最优备选单元的波形进行平滑和拼接,得到该句话的合成语音。本发明提高合成语音音质;同时提高传统拼接合成方法的合成效果,并且可以实现系统的自动构建和语种的无关性。

    一种语音识别解码效率优化方法

    公开(公告)号:CN103065633B

    公开(公告)日:2015-01-14

    申请号:CN201210580290.2

    申请日:2012-12-27

    IPC分类号: G10L15/34

    摘要: 本发明涉及一种语音识别解码效率优化方法,实现为:对于每三帧语音特征矢量,先在弧内进行Viterbi动态规划,每一条弧上最多能够输出三个得分和对应的路径,三个得分和路径分别对应三个连续不同帧的输出;根据Viterbi算法,该三个得分和对应的路径传递到该弧的后续节点上进行竞争;保留到节点上的优胜者,在下三帧到来时继续扩展到该节点的后续出弧上去;对于最后一帧语音特征矢量,传递到解码网络最后一个节点并胜出的路径即为最优路径;回溯最优路径,得到对应的词序列,即为识别结果。本发明通过[采用效率优化的帧半同步方法,节省了识别过程中的内存访问量,提升了整个系统的效率。

    一种分布式MRCP服务器负载均衡系统及其均衡方法

    公开(公告)号:CN101753558A

    公开(公告)日:2010-06-23

    申请号:CN200910185900.7

    申请日:2009-12-11

    IPC分类号: H04L29/06 H04L29/08 H04L12/24

    摘要: 本发明涉及一种分布式MRCP服务器负载均衡系统,包括至少一个MRCP资源管理服务器,MRCP资源管理服务器通过SIP协议与一个或多个的MRCP服务器进行通讯,MRCP服务器内设有负载均衡模块,MRCP资源管理服务器通过SIP协议对客户端提供MRCP负载均衡服务。本发明还公开了一种分布式MRCP服务器负载均衡系统的均衡方法。本发明通过引入MRCP资源管理服务器,使得系统在部署时,无需在添加或减少MRCP服务器数目后额外发布相关位置和MRCP服务器的容量信息。由于负载被分配到了多个MRCP服务器上,每个MRCP服务器负载相对较轻,显著增加了系统的吞吐量,扩展性能良好。

    一种基于支持向量机进行发音错误检测的方法

    公开(公告)号:CN101231848A

    公开(公告)日:2008-07-30

    申请号:CN200710135347.7

    申请日:2007-11-06

    摘要: 本发明涉及一种基于支持向量机进行发音错误检测的方法,包括有典型错误支持向量机检测方法、异常错误门限检测方法和异常混淆错误支持向量机检测方法,包括以下步骤实现:语音识别系统的搭建、发音错误检测特征提取、获取发音错误检测模型训练目标数据、训练发音错误支持向量机检测模型和发音错误的检测、训练异常发音错误检测器、设置发音错误检测门限、定义每个音素的易混淆错误对、生成训练特征文件和目标数据、训练支持向量机模型、设置发音错误检测门限、进行异常易混淆错误判决。本发明能有效解决人工标注稀疏问题,保证了训练得到的检错模型可以较好针对不同发音人,不同发音风格进行错误检测。

    句子模板自动提取的方法

    公开(公告)号:CN101221558A

    公开(公告)日:2008-07-16

    申请号:CN200810019527.3

    申请日:2008-01-22

    IPC分类号: G06F17/27

    摘要: 本发明涉及句子模板自动提取的方法,包括以下步骤:分句:按标点符号,将文本分成若干条句子;并按先后顺序在句子前标上序号;分词:运用分词技术,将分句所得的每条句子,切分成基于每个词的小块;分词完成后,按句子中词语个数由多到少或由少到多划分成若干组;模板提取:将同一组的句子应用LCS算法,得到最长公共子序列,即得到句子模板。本发明可以从大量文本信息中,自动、高效的统计常用字词、句式。

    一种基于网络动态负载均衡的声纹识别系统及其识别方法

    公开(公告)号:CN101740031B

    公开(公告)日:2013-01-02

    申请号:CN201010046573.X

    申请日:2010-01-21

    IPC分类号: G10L17/22 G10L15/30

    摘要: 本发明涉及一种基于网络动态负载均衡的声纹识别系统,包括用于对用户发出的声音进行采集的声纹客户端,声纹客户端与负载均衡服务器通讯,用于查找最优声纹识别服务器的负载均衡服务器与声纹识别服务器组通讯,声纹识别服务器组由至少两个声纹识别服务器组成,最优声纹识别服务器将识别结果反馈至声纹客户端。本发明还公开了一种基于网络动态负载均衡的声纹识别系统的识别方法。本发明利用负载均衡服务器查找最优声纹识别服务器,自动对流量和声纹识别服务器集群进行动态分配,解决大规模并发条件下说话人身份识别的实时响应和系统安全,完全可以满足各种规模和各种并发量的声纹识别需求。

    说话人识别方法及系统
    9.
    发明公开

    公开(公告)号:CN102270451A

    公开(公告)日:2011-12-07

    申请号:CN201110237852.9

    申请日:2011-08-18

    IPC分类号: G10L17/00

    摘要: 本发明涉及身份识别技术领域,公开了一种说话人识别方法及系统,该方法包括:采集不同信道下的用户注册语音信号;从采集的所述语音信号中分别提取声纹特征序列;利用所述声纹特征序列训练生成对应所述用户的说话人模型;根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。本发明说话人识别方法及系统,可以适应不同的信道环境,提高系统性能。

    语音模糊检索方法及装置

    公开(公告)号:CN101464896B

    公开(公告)日:2010-08-11

    申请号:CN200910001164.5

    申请日:2009-01-23

    IPC分类号: G06F17/30 G10L15/00

    摘要: 本发明公开了一种语音模糊检索方法及装置,其中方法包括以下步骤:利用预置的声学模型及语言模型对获取的语音信号进行语音识别,得到识别结果;利用预置的索引表根据所述识别结果在预置的文本条目库中进行检索,得到初选条目;将所述初选条目与所述识别结果进行字符串模糊匹配,选取匹配度在预置的匹配度阈值范围内的条目作为精选条目,同时记录各条目的匹配位置;计算精选条目匹配部分文本与所述语音信号间的后验概率,最终利用后验概率以及通过所述匹配位置得到的匹配比例选择若干个条目作为语音信号的检索结果。采用本发明,可实现基于语音信号在海量文本条目库上的快速准确检索到与语音信号相匹配的文本条目。