-
公开(公告)号:CN107610693B
公开(公告)日:2021-01-29
申请号:CN201610542952.5
申请日:2016-07-11
Applicant: 科大讯飞股份有限公司
IPC: G06F40/20
Abstract: 本申请提出一种文本语料库的构建方法和装置,该文本语料库的构建方法包括:收集文本语料作为收集语料;从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征;根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,并将搜索得到的语料加入文本语料库中。该方法能够构建以篇章为单位的文本语料库,从而提高对大段文本的处理能力,提高合成语音的自然度和可懂度。
-
公开(公告)号:CN107039034B
公开(公告)日:2020-05-01
申请号:CN201610084393.8
申请日:2016-02-04
Applicant: 科大讯飞股份有限公司
IPC: G10L13/10
Abstract: 本发明公开了一种韵律预测方法及系统,该方法包括:预先构建文本韵律模型,收集具有对应语音数据的文本数据,基于语音数据的韵律信息对对应的文本数据进行自动韵律标注,获取自动标注文本数据,利用所述自动标注文本数据训练文本韵律模型;接收待预测文本数据;然后提取待预测文本数据的文本特征;最终利用所述文本特征及所述文本韵律模型,对所述待预测文本数据进行韵律预测。由于本发明收集的文本数据都有对应的语音数据,该语音数据实际含有韵律信息,可以对所述文本数据进行自动韵律标注,能解决了现有技术需要人工标注所有训练文本数据的韵律边界来训练文本韵律模型,导致人工成本较高,耗时较长的问题。
-
公开(公告)号:CN105988978A
公开(公告)日:2016-10-05
申请号:CN201510096777.7
申请日:2015-03-04
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种确定文本焦点的方法及系统,该方法包括:接收待处理文本;对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注及字音转换;提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征;利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率;根据所述预测焦点概率确定文本焦点。利用本发明,可以提高焦点预测的准确性。
-
公开(公告)号:CN107844480A
公开(公告)日:2018-03-27
申请号:CN201710987858.5
申请日:2017-10-21
Applicant: 科大讯飞股份有限公司
CPC classification number: G06F17/28 , G06F17/2775
Abstract: 本发明公开了一种将书面文本转换为口语文本的方法,所述方法包括:接收待转换的源文本数据;对所述源文本数据进行分词及向量化处理,得到每句源文本数据的词向量序列;依次将每句源文本数据的词向量序列输入预先构建的文本转换模型,根据所述文本转换模型的输出得到所述源文本数据对应的目标文本数据;在所述目标文本数据中插入副语言信息,得到带有副语言信息的口语化文本数据。利用本发明,可以使转换后的口语文本更符合口语表达的习惯。
-
公开(公告)号:CN107844480B
公开(公告)日:2021-04-30
申请号:CN201710987858.5
申请日:2017-10-21
Applicant: 科大讯飞股份有限公司
IPC: G06F40/40 , G06F40/289
Abstract: 本发明公开了一种将书面文本转换为口语文本的方法,所述方法包括:接收待转换的源文本数据;对所述源文本数据进行分词及向量化处理,得到每句源文本数据的词向量序列;依次将每句源文本数据的词向量序列输入预先构建的文本转换模型,根据所述文本转换模型的输出得到所述源文本数据对应的目标文本数据;在所述目标文本数据中插入副语言信息,得到带有副语言信息的口语化文本数据。利用本发明,可以使转换后的口语文本更符合口语表达的习惯。
-
公开(公告)号:CN107039034A
公开(公告)日:2017-08-11
申请号:CN201610084393.8
申请日:2016-02-04
Applicant: 科大讯飞股份有限公司
IPC: G10L13/10
Abstract: 本发明公开了一种韵律预测方法及系统,该方法包括:预先构建文本韵律模型,收集具有对应语音数据的文本数据,基于语音数据的韵律信息对对应的文本数据进行自动韵律标注,获取自动标注文本数据,利用所述自动标注文本数据训练文本韵律模型;接收待预测文本数据;然后提取待预测文本数据的文本特征;最终利用所述文本特征及所述文本韵律模型,对所述待预测文本数据进行韵律预测。由于本发明收集的文本数据都有对应的语音数据,该语音数据实际含有韵律信息,可以对所述文本数据进行自动韵律标注,能解决了现有技术需要人工标注所有训练文本数据的韵律边界来训练文本韵律模型,导致人工成本较高,耗时较长的问题。
-
公开(公告)号:CN103474067B
公开(公告)日:2016-08-24
申请号:CN201310361783.1
申请日:2013-08-19
Applicant: 科大讯飞股份有限公司
IPC: G10L19/005 , G10L13/02
Abstract: 本发明公开了一种语音信号传输方法及系统,该方法包括:确定待发送的连续语音信号对应的文本内容;根据所述文本内容及所述连续语音信号确定各合成单元的语音合成参数模型;拼接各合成单元的语音合成参数模型得到语音合成参数模型序列;确定所述语音合成参数模型序列对应的序号串;将所述序号串发送给接收端,以使所述接收端根据所述序号串恢复所述连续语音信号。利用本发明,可以在保证语音恢复音质损失最小化的前提下实现极低码流率的信号传输。
-
公开(公告)号:CN105244022B
公开(公告)日:2019-10-18
申请号:CN201510629172.X
申请日:2015-09-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种音视频字幕生成方法及装置,该方法包括:接收待生成字幕的语音数据及文本数据;根据发音人韵律对所述语音数据进行切分,得到符合说话人习惯的各语音数据段;根据所述语音数据段对所述文本数据进行切分,得到与所述语音数据段对应的文本数据段;根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。本发明可以简单高效地实现文本数据的显示与语音数据的同步,使生成的字幕更完整。
-
公开(公告)号:CN105988978B
公开(公告)日:2019-05-28
申请号:CN201510096777.7
申请日:2015-03-04
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种确定文本焦点的方法及系统,该方法包括:接收待处理文本;对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注及字音转换;提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征;利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率;根据所述预测焦点概率确定文本焦点。利用本发明,可以提高焦点预测的准确性。
-
公开(公告)号:CN107610693A
公开(公告)日:2018-01-19
申请号:CN201610542952.5
申请日:2016-07-11
Applicant: 科大讯飞股份有限公司
IPC: G10L15/18 , G10L15/187 , G06F17/28 , G06F17/30
Abstract: 本申请提出一种文本语料库的构建方法和装置,该文本语料库的构建方法包括:收集文本语料作为收集语料;从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征;根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,并将搜索得到的语料加入文本语料库中。该方法能够构建以篇章为单位的文本语料库,从而提高对大段文本的处理能力,提高合成语音的自然度和可懂度。
-
-
-
-
-
-
-
-
-