-
公开(公告)号:CN101923854B
公开(公告)日:2012-03-28
申请号:CN201010269306.9
申请日:2010-08-31
Applicant: 中国科学院计算技术研究所
IPC: G10L15/00
Abstract: 本发明公开了一种交互式语音识别系统,包括:声学模型和语言模型选择模块,用于根据待识别对象信息,为其选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;语音语句提取模块,用于将整段语音信号切分成若干个语音语句并提取出来,送至语音识别模块;语音识别模块,用于对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;字候选生成和错误修正模块,用于对所述识别中间结果进行处理生成候选集,再根据选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;交互模块,用于将用户输入的数据发送给声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。
-
公开(公告)号:CN102324233B
公开(公告)日:2014-05-07
申请号:CN201110220842.4
申请日:2011-08-03
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种汉语语音识别中重复出现词识别错误的自动修正方法,包括:(1)对每句话经识别后得到的字混淆网络与词组库中的词组及中间识别结果进行相似性匹配,以查找重复出现词组;其中,字混淆网络是所有可能识别结果的集合,字混淆网络包括最优识别结果即原有最优识别结果和最优识别结果中的每个字对应的中间识别结果;词组库包括词组及其对应的中间识别结果;(2)根据查找得到的词组信息,重新计算相似概率值和字识别概率值;(3)根据新的概率值,对字混淆网络按照概率值大小排序;和(4)使用排序结果替换字混淆网络的最优识别结果以及中间识别结果。优点在于:利用之前已修正的识别结果中的经验知识,自动修正当前识别语句中重复出现词的识别错误,从而提高识别错误的修正效率,加快识别错误修正速度。
-
公开(公告)号:CN103024464B
公开(公告)日:2016-03-30
申请号:CN201210585960.X
申请日:2012-12-28
Applicant: 中国科学院计算技术研究所
IPC: H04N21/24 , H04N21/236 , H04N21/2662 , H04N21/434 , H04N21/438
Abstract: 本发明公开了提供与视频播放内容相关信息的系统和方法,该系统包括服务器端和客户端,其中所述服务器端用于监控视频播放内容,生成与所述视频的播放内容相关信息并推送至所述客户端;所述客户端用于接收并显示所述播放内容相关信息。本发明的系统与方法可以在用户收看电视和视频节目的同时,自动地为用户推送与当前收看内容直接相关的更为丰富的内容,由此,可大大提高用户的收视体验。
-
公开(公告)号:CN101576955A
公开(公告)日:2009-11-11
申请号:CN200910087428.3
申请日:2009-06-22
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及从音视频中检测广告的方法和系统,所述方法包括:步骤1,从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征;步骤2,根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部中的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告。本发明能够比现有技术更准确、高效地检测出视频音频中的广告片段。
-
公开(公告)号:CN103024464A
公开(公告)日:2013-04-03
申请号:CN201210585960.X
申请日:2012-12-28
Applicant: 中国科学院计算技术研究所
IPC: H04N21/24 , H04N21/236 , H04N21/2662 , H04N21/434 , H04N21/438
Abstract: 本发明公开了提供与视频播放内容相关信息的系统和方法,该系统包括服务器端和客户端,其中所述服务器端用于监控视频播放内容,生成与所述视频的播放内容相关信息并推送至所述客户端;所述客户端用于接收并显示所述播放内容相关信息。本发明的系统与方法可以在用户收看电视和视频节目的同时,自动地为用户推送与当前收看内容直接相关的更为丰富的内容,由此,可大大提高用户的收视体验。
-
公开(公告)号:CN102324233A
公开(公告)日:2012-01-18
申请号:CN201110220842.4
申请日:2011-08-03
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种汉语语音识别中重复出现词识别错误的自动修正方法,包括:(1)对每句话经识别后得到的字混淆网络与词组库中的词组及中间识别结果进行相似性匹配,以查找重复出现词组;其中,字混淆网络是所有可能识别结果的集合,字混淆网络包括最优识别结果即原有最优识别结果和最优识别结果中的每个字对应的中间识别结果;词组库包括词组及其对应的中间识别结果;(2)根据查找得到的词组信息,重新计算相似概率值和字识别概率值;(3)根据新的概率值,对字混淆网络按照概率值大小排序;和(4)使用排序结果替换字混淆网络的最优识别结果以及中间识别结果。优点在于:利用之前已修正的识别结果中的经验知识,自动修正当前识别语句中重复出现词的识别错误,从而提高识别错误的修正效率,加快识别错误修正速度。
-
公开(公告)号:CN101576955B
公开(公告)日:2011-10-05
申请号:CN200910087428.3
申请日:2009-06-22
Applicant: 中国科学院计算技术研究所
IPC: G06K9/00 , H04N21/236 , H04H60/63
Abstract: 本发明涉及从音视频中检测广告的方法和系统,所述方法包括:步骤1,从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征;步骤2,根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部中的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告。本发明能够比现有技术更准确、高效地检测出视频音频中的广告片段。
-
公开(公告)号:CN101923854A
公开(公告)日:2010-12-22
申请号:CN201010269306.9
申请日:2010-08-31
Applicant: 中国科学院计算技术研究所
IPC: G10L15/00
Abstract: 本发明公开了一种交互式语音识别系统,包括:声学模型和语言模型选择模块,用于根据待识别对象信息,为其选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;语音语句提取模块,用于将整段语音信号切分成若干个语音语句并提取出来,送至语音识别模块;语音识别模块,用于对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;字候选生成和错误修正模块,用于对所述识别中间结果进行处理生成候选集,再根据选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;交互模块,用于将用户输入的数据发送给声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。
-
-
-
-
-
-
-