-
公开(公告)号:CN102156693B
公开(公告)日:2013-03-06
申请号:CN201110070320.0
申请日:2011-03-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种盲文输入方法和系统。所述方法包括下列步骤:步骤根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;根据输入的盲文句子B,列出其对应的所有候选汉语句子S;利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B),取P(S|B)值最大的对应的汉语词串的序列S=s1s2...sm作为最终汉语句子输出。其能够有效利用汉语盲文自身特征,提高盲文转换为汉字的正确率。
-
公开(公告)号:CN102324233A
公开(公告)日:2012-01-18
申请号:CN201110220842.4
申请日:2011-08-03
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种汉语语音识别中重复出现词识别错误的自动修正方法,包括:(1)对每句话经识别后得到的字混淆网络与词组库中的词组及中间识别结果进行相似性匹配,以查找重复出现词组;其中,字混淆网络是所有可能识别结果的集合,字混淆网络包括最优识别结果即原有最优识别结果和最优识别结果中的每个字对应的中间识别结果;词组库包括词组及其对应的中间识别结果;(2)根据查找得到的词组信息,重新计算相似概率值和字识别概率值;(3)根据新的概率值,对字混淆网络按照概率值大小排序;和(4)使用排序结果替换字混淆网络的最优识别结果以及中间识别结果。优点在于:利用之前已修正的识别结果中的经验知识,自动修正当前识别语句中重复出现词的识别错误,从而提高识别错误的修正效率,加快识别错误修正速度。
-
公开(公告)号:CN101576955B
公开(公告)日:2011-10-05
申请号:CN200910087428.3
申请日:2009-06-22
Applicant: 中国科学院计算技术研究所
IPC: G06K9/00 , H04N21/236 , H04H60/63
Abstract: 本发明涉及从音视频中检测广告的方法和系统,所述方法包括:步骤1,从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征;步骤2,根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部中的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告。本发明能够比现有技术更准确、高效地检测出视频音频中的广告片段。
-
-
公开(公告)号:CN102163213A
公开(公告)日:2011-08-24
申请号:CN201110046896.3
申请日:2011-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种语音浏览方法,包括:网页信息提取步骤:对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的网页;其中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择;语音推送步骤:基于voiceXML格式网页,向用户朗读网页内容。本发明还提供了相应的语音浏览器。发明能够使得网页内容的呈现更为合理和高效;发明能够使满足用户的实时请求。
-
公开(公告)号:CN102073710A
公开(公告)日:2011-05-25
申请号:CN201010617741.6
申请日:2010-12-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种网页分割方法,其特征在于,包括:步骤1)获取待分割网页的DOM树;步骤2)遍历所述DOM树,将其中每个只包含1个基本多行结点的结点作为一个基本分块,将每两个只包含1个基本多行结点的结点之间的零散叶结点分别合成一个基本分块;其中,当一个基本多行结点的父结点被作为一个基本分块时,该基本多行结点不再作为一个基本分块;步骤3)在所述基本分块中找出主题块,将主题块与其后面邻接的若干个非主题块合并。本发明能够在分块的同时很好地保持原有的网页结构,避免打散属于同一主题或分类的链接,避免主题或分类标签与其对应的链接分离。本发明的执行效率高,容易实现。
-
公开(公告)号:CN101923854A
公开(公告)日:2010-12-22
申请号:CN201010269306.9
申请日:2010-08-31
Applicant: 中国科学院计算技术研究所
IPC: G10L15/00
Abstract: 本发明公开了一种交互式语音识别系统,包括:声学模型和语言模型选择模块,用于根据待识别对象信息,为其选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;语音语句提取模块,用于将整段语音信号切分成若干个语音语句并提取出来,送至语音识别模块;语音识别模块,用于对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;字候选生成和错误修正模块,用于对所述识别中间结果进行处理生成候选集,再根据选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;交互模块,用于将用户输入的数据发送给声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。
-
公开(公告)号:CN100442307C
公开(公告)日:2008-12-10
申请号:CN200510135214.0
申请日:2005-12-27
Applicant: 中国科学院计算技术研究所
CPC classification number: G06K9/00711
Abstract: 本发明公开了一种球门检测和基于球门检测的足球视频精彩事件检测方法。球门检测的方法步骤包括:(1)提取一帧彩色足球视频图像;(2)对视频帧图像采用草帽变换提取边缘图像;(3)在边缘图像的基础上搜索竖直方向邻域符合一定阈值的线段;(4)在上一步骤得到的线段中,采用哈夫变换选取两根最长的线段作为候选球门柱;(5)采用第二启发式规则确定上一步骤中的候选球门柱是否是球门。基于球门检测的足球视频精彩事件检测方法步骤包括:1)球门检测;2)在检测到球门的基础上,结合第一启发式规则检测足球视频中的精彩事件。本发明具有准确、快速、误检率低的优点。
-
公开(公告)号:CN101221760A
公开(公告)日:2008-07-16
申请号:CN200810057161.9
申请日:2008-01-30
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30758 , G06F17/30743 , G10L25/48
Abstract: 本发明提供一种音频匹配方法,用于从待测音频流片段中检测出与标准音频库中音频样例相匹配的音频片段,包括:在待测音频流片段的能量包络单元图上,选择每个能量包络单元的起始点作为匹配操作的点;将每个音频样例以及待测音频流片段用切分点和概率对组成的数对形式表示;将待测音频流片段的数对依次与每个音频样例的数对进行比较,得到匹配点以及对应的匹配概率;采用相似性度量函数对匹配点以及对应的音频样例进行计算,得到两者的相似值;将相似值与一个预先设定的阈值进行比较,若所述的相似值大于该阈值,则认为与匹配点相对应的音频片段和与匹配点相对应的音频样例匹配。本发明具有计算简便、运算速度快的优点。
-
公开(公告)号:CN101211460A
公开(公告)日:2008-07-02
申请号:CN200610171524.2
申请日:2006-12-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种体育视频镜头自动分割和分类的方法。该方法将体育视频流分成连续的镜头采样单元(SSU),则不同的镜头对应于不同的SSU时序序列,用隐马尔可夫模型为不同的SSU序列建模,就得到不同镜头的隐马尔可夫模型。在此基础上,将所有可能的镜头模型组合串接起来就形成了镜头网络。对于镜头网络中的每条路径即一个镜头模型序列,计算其log概率,将概率最大的作为最佳路径,则该最佳路径上的所有镜头模型即为最终的分类结果,而相应的SSU序列的起始和终止SSU即为镜头的边界,从而实现了对体育视频镜头的分割。
-
-
-
-
-
-
-
-
-