-
公开(公告)号:CN100426376C
公开(公告)日:2008-10-15
申请号:CN200510011285.X
申请日:2005-01-28
Applicant: 中国科学院计算技术研究所
IPC: G10L15/00
Abstract: 本发明公开一种电话连续语音识别系统性能的评测方法及系统,该系统包括录音模块、被测的电话连续语音识别系统、语法库、语法展开模块、语料筛选模块、槽解析模块以及自动评测模块。先对电话查询的若干领域,按其语法定义若干槽;在各个领域按其语法展开,从生成的句子中选择出作为评测语料的句子并录制测试语音;将测试语音输入要评测的电话连续语音识别系统,将每个句子的语音识别结果解析为所包含的槽后输出;将系统输出的识别结果与标准答案对照,计算槽识别正确率,得到系统性能的评判指标。本发明方法比目前常用的听写机式的评测方法更符合电话连续语音识别系统的特点,能够更准确地评价电话连续语音识别系统性能。
-
公开(公告)号:CN101221622A
公开(公告)日:2008-07-16
申请号:CN200810057162.3
申请日:2008-01-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种广告检测识别方法,包括:对待检测的广播电视节目数据进行预处理,得到所述数据音频流的短时能量包络;根据音频的短时能量特征,将所得到的短时能量包络切分为能量包络单元,得到待检测的广播电视节目数据的能量包络单元图;利用跳单元的策略和基于能量包络单元的相似性度量方法,对所述待检测的广播电视节目数据的能量包络单元图与已知广告的能量包络单元图进行比较,根据比较结果实现对广告的检测识别。本发明以音频特征取代视频特征、音视频特征结合等进行广告检测,具有计算复杂度低,检测效率高的优点;通过将待测数据与已知广告的音频特征进行比较,可以实现对特定广告的识别;本发明还具有应用范围广的优点。
-
公开(公告)号:CN100337473C
公开(公告)日:2007-09-12
申请号:CN200410081023.6
申请日:2004-09-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种运动视频的全景图合成方法,用于将一段运动视频中的多个视频帧合成为一个全景图,所述运动视频中包含有运动前景和背景,每一个视频帧中都包含有运动前景和部分背景,所述全景图中包含有该运动视频中的背景全貌和一系列运动前景;该方法包括:用所述多个视频帧生成一描述运动视频中背景全貌的背景全景图;分别提取出所述多个视频帧中的运动前景;将提取出的运动前景叠加到背景全景图中。本发明所述方法的优点在于:本方法对于摄影机运动剧烈或前景运动剧烈的情况也同样有效;最后得到的结果中前景非常清晰,能很好的表现出运动对象动作的过程和细节。
-
公开(公告)号:CN1219403C
公开(公告)日:2005-09-14
申请号:CN02157889.3
申请日:2002-12-20
Applicant: 中国科学院计算技术研究所
Abstract: 一种引入视觉模型的MPEG视频码流码率转换方法,包括步骤:对输入的码流进行部分解码;DCT系数截断,去除高于截止频率的系数;码率控制,重新确定各宏块的量化因子;再编码。本发明在转换中巧妙地利用了Fovea视觉模型,有效地提高转换效率,产生主观质量相对更好低码率码流,并进一步减少了计算量。
-
公开(公告)号:CN1207915C
公开(公告)日:2005-06-22
申请号:CN03154836.9
申请日:2003-08-20
Applicant: 中国科学院计算技术研究所
Abstract: 一种压缩域视频半像素滤波方法,可以提高视频质量,降低视频操作的计算复杂度。本发明的特征是:根据提取块的位置选择采用的半像素滤波方法;用该半像素滤波方法对压缩域系数滤波,得到对应半像素位置压缩域系数。本发明作用在压缩域,能对压缩域系数进行滤波,且不依赖于视频压缩标准。
-
公开(公告)号:CN1482808A
公开(公告)日:2004-03-17
申请号:CN02143130.2
申请日:2002-09-13
Applicant: 中国科学院计算技术研究所
IPC: H04N7/26
Abstract: 一种MPEG-4视频并行编码中的形状自适应的启发式数据划分方法,包括步骤:根据处理器的互连方式,选择采用启发式的数据划分算法1或启发式的数据划分算法2;并根据相应算法确定的规则,启发式地将VOP数据划分成与处理器数目相同的多个子区域。本发明根据MPEG-4基于形状编码的特点,采用启发式的数据划分方法,优化VOP数据在各处理器的分配,使各个处理器间的负载相对平衡,且所需存储的重叠数据最少,降低数据传递的时间,以提高整个视频并行编码系统的效率。
-
公开(公告)号:CN1427618A
公开(公告)日:2003-07-02
申请号:CN01144709.5
申请日:2001-12-20
Applicant: 中国科学院计算技术研究所
Abstract: 一种基于多进程的多视角视频节目网络转播方法的方法,包括步骤:计算机接收由设置在节目现场且与之相连的摄像装置所采集的视频信息;对接收的视频信息进行压缩处理;对压缩处理的信息进行复合处理;通过网络传输后客户端用多进程的方法将复合信号分解播放。本发明所提供的多视角视频节目网络转播的方法,利用设置在现场的多路摄像装置及计算机对现场的视频信息进行数字化处理,并且将多路信号复合,并通过网络传输,最后客户端用多进程的方法将复合信号分解播放,实现了多视角视频节目的网络转播。服务端计算机根据网络情况和用户请求可动态调节多角度视频信号的复合方式。
-
公开(公告)号:CN102156693A
公开(公告)日:2011-08-17
申请号:CN201110070320.0
申请日:2011-03-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种盲文输入方法和系统。所述方法包括下列步骤:步骤根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;根据输入的盲文句子B,列出其对应的所有候选汉语句子S;利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B),取P(S|B)值最大的对应的汉语词串的序列S=s1s2...sm作为最终汉语句子输出。其能够有效利用汉语盲文自身特征,提高盲文转换为汉字的正确率。
-
公开(公告)号:CN101221760B
公开(公告)日:2010-12-22
申请号:CN200810057161.9
申请日:2008-01-30
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30758 , G06F17/30743 , G10L25/48
Abstract: 本发明提供一种音频匹配方法,用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段,包括:在待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点作为匹配操作的点;将每个音频样例以及待测音频流片段用切分点和概率对组成的数对形式表示;将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;采用相似性度量函数对匹配点以及对应的音频样例进行计算,得到两者的相似值;将相似值与一个预先设定的阈值进行比较,若所述的相似值大于该阈值,则认为与匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。本发明具有计算简便、运算速度快的优点。
-
公开(公告)号:CN100580693C
公开(公告)日:2010-01-13
申请号:CN200810057162.3
申请日:2008-01-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种广告检测识别方法,包括:对待检测的广播电视节目数据进行预处理,得到所述数据音频流的短时能量包络;根据音频的短时能量特征,将所得到的短时能量包络切分为能量包络单元,得到待检测的广播电视节目数据的能量包络单元图;利用跳单元的策略和基于能量包络单元的相似性度量方法,对所述待检测的广播电视节目数据的能量包络单元图与已知广告的能量包络单元图进行比较,根据比较结果实现对广告的检测识别。本发明以音频特征取代视频特征、音视频特征结合等进行广告检测,具有计算复杂度低,检测效率高的优点;通过将待测数据与已知广告的音频特征进行比较,可以实现对特定广告的识别;本发明还具有应用范围广的优点。
-
-
-
-
-
-
-
-
-