-
公开(公告)号:CN100568282C
公开(公告)日:2009-12-09
申请号:CN200610171524.2
申请日:2006-12-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种体育视频镜头自动分割和分类的方法。该方法将体育视频流分成连续的镜头采样单元(SSU),则不同的镜头对应于不同的SSU时序序列,用隐马尔可夫模型为不同的SSU序列建模,就得到不同镜头的隐马尔可夫模型。在此基础上,将所有可能的镜头模型组合串接起来就形成了镜头网络。对于镜头网络中的每条路径即一个镜头模型序列,计算其log概率,将概率最大的作为最佳路径,则该最佳路径上的所有镜头模型即为最终的分类结果,而相应的SSU序列的起始和终止SSU即为镜头的边界,从而实现了对体育视频镜头的分割。
-
公开(公告)号:CN1992904A
公开(公告)日:2007-07-04
申请号:CN200510135213.6
申请日:2005-12-27
Applicant: 中国科学院计算技术研究所
IPC: H04N7/50
Abstract: 本发明公开了一种8×8离散余弦变换(DCT)系数块直接转换到4个4×4整数变换系数块的转换方法。该方法包括如下步骤:1)将缩放矩阵结合到MPEG-2反量化矩阵中去;2)根据置换矩阵对上一步骤1)的MPEG-2反量化过程获得的8×8DCT块进行位置调整;3)将调整后的8×8DCT块转换为4个4×4整数变换系数块。本发明的优点是保持视频质量、降低系数转换操作的计算复杂度。
-
公开(公告)号:CN1992903A
公开(公告)日:2007-07-04
申请号:CN200510135212.1
申请日:2005-12-27
Applicant: 中国科学院计算技术研究所
IPC: H04N7/50
Abstract: 本发明公开了一种MPEG-2到H.264压缩域视频转码过程中将解码输入的MPEG-2视频码流获得的离散余弦系数直接转换到H.264 4阶整数系数的转换方法,包括如下步骤:1)从输入MPEG-2码流中获取8×8DCT块系数分布信息;2)将上一步骤1)中的8×8DCT块进行分类;3)对上一步骤2)的8×8DCT块按照其分类来分别进行处理,获得H.264整数变换系数。本发明优点是保持视频质量,降低系数转换操作的计算复杂度。
-
公开(公告)号:CN1812582A
公开(公告)日:2006-08-02
申请号:CN200510002494.8
申请日:2005-01-25
Applicant: 中国科学院计算技术研究所
IPC: H04N7/32
Abstract: 本发明公开了一种帧内图像的亮度预测编码方法,包括建立待预测块的参考像素点步骤和根据参考像素点进行待预测块的亮度预测步骤;在所述建立待预测块的参考像素点步骤中:当待预测块的正上块参考像素点可用时,直接用所述正上块参考像素点的像素值扩展得到所述待预测块的右上块参考像素点的像素值;当待预测块的正左块参考像素点可用时,直接用所述正左块参考像素点的像素值扩展得到所述待预测块的左下块参考像素点的像素值。本发明的优点在于:有效降低了帧内预测的复杂度,且视频质量不会明显降低;省去了对待预测块的右上块和左下块的参考像素点的可用性判断,在用硬件实现亮度预测编码时,有效降低内存需求和硬件实现的复杂度。
-
公开(公告)号:CN1811915A
公开(公告)日:2006-08-02
申请号:CN200510011285.X
申请日:2005-01-28
Applicant: 中国科学院计算技术研究所
IPC: G10L15/00
Abstract: 本发明公开一种电话连续语音识别系统性能的评测方法及系统,该系统包括录音模块、被测的电话连续语音识别系统、语法库、语法展开模块、语料筛选模块、槽解析模块以及自动评测模块。先对电话查询的若干领域,按其语法定义若干槽;在各个领域按其语法展开,从生成的句子中选择出作为评测语料的句子并录制测试语音;将测试语音输入要评测的电话连续语音识别系统,将每个句子的语音识别结果解析为所包含的槽后输出;将系统输出的识别结果与标准答案对照,计算槽识别正确率,得到系统性能的评判指标。本发明方法比目前常用的听写机式的评测方法更符合电话连续语音识别系统的特点,能够更准确地评价电话连续语音识别系统性能。
-
公开(公告)号:CN1784015A
公开(公告)日:2006-06-07
申请号:CN200410096605.1
申请日:2004-12-02
Applicant: 中国科学院计算技术研究所
IPC: H04N7/32
Abstract: 本发明公开了一种帧内图像预测编码方法,包括对所述帧内图像进行亮度预测编码和色度预测编码,在进行色度预测编码时,根据亮度预测编码的预测模式对应得到一个色度预测模式,用该色度预测模式对所述帧内图像进行色度预测编码。本发明方法的优点:不必使用率失真优化方法来挑选预测模式,有效降低了色度分量帧内模式编码的复杂度;由帧内亮度预测模式可以映射一种唯一的帧内色度预测模式,只要在解码端采用同样的选择策略,就不必对色度分量的空域预测模式进行编码,进一步降低编解码的复杂度;在利用色度预测模式,实现对色度块像素值的预测过程中,4×4块预测使得4个4×4色度分量块的预测并行进行,提高了对色度块像素值进行预测时的效率。
-
公开(公告)号:CN1756313A
公开(公告)日:2006-04-05
申请号:CN200410081023.6
申请日:2004-09-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种运动视频的全景图合成方法,用于将一段运动视频中的多个视频帧合成为一个全景图,所述运动视频中包含有运动前景和背景,每一个视频帧中都包含有运动前景和部分背景,所述全景图中包含有该运动视频中的背景全貌和一系列运动前景;该方法包括:用所述多个视频帧生成一描述运动视频中背景全貌的背景全景图;分别提取出所述多个视频帧中的运动前景;将提取出的运动前景叠加到背景全景图中。本发明所述方法的优点在于:本方法对于摄影机运动剧烈或前景运动剧烈的情况也同样有效;最后得到的结果中前景非常清晰,能很好的表现出运动对象动作的过程和细节。
-
公开(公告)号:CN1224926C
公开(公告)日:2005-10-26
申请号:CN02154399.2
申请日:2002-12-04
Applicant: 中国科学院计算技术研究所
Abstract: 一种压缩域体育视频定位标题文字的方法,包括以下步骤:用8×8DCT块的高频系数能量检测出初步的文字区域;通过快速算法直接由8×8图像块的DCT系数得到其4个2×8子块的反映水平方向频率变化的高频DCT系数;由子块的高频系数的水平和垂直投影图将初检的文字区域分割成每块只含一行且水平方向相对独立的文字块;利用体育视频中文字的时间冗余特性过滤掉误检的文字块。本发明通过少量的运算在压缩域实现了文字的精确定位,具有很快的定位速度和较高的准确性,不仅可以用于体育视频,还可用于其他类视频如新闻视频中文字的定位。
-
公开(公告)号:CN1184815C
公开(公告)日:2005-01-12
申请号:CN01144709.5
申请日:2001-12-20
Applicant: 中国科学院计算技术研究所
Abstract: 一种基于多进程的多视角视频节目网络转播方法的方法,包括步骤:计算机接收由设置在节目现场且与之相连的摄像装置所采集的视频信息;对接收的视频信息进行压缩处理;对压缩处理的信息进行复合处理;通过网络传输后客户端用多进程的方法将复合信号分解播放。本发明所提供的多视角视频节目网络转播的方法,利用设置在现场的多路摄像装置及计算机对现场的视频信息进行数字化处理,并且将多路信号复合,并通过网络传输,最后客户端用多进程的方法将复合信号分解播放,实现了多视角视频节目的网络转播。服务端计算机根据网络情况和用户请求可动态调节多角度视频信号的复合方式。
-
公开(公告)号:CN102163213B
公开(公告)日:2015-06-24
申请号:CN201110046896.3
申请日:2011-02-25
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种语音浏览方法,包括:网页信息提取步骤:对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的网页;其中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择;语音推送步骤:基于voiceXML格式网页,向用户朗读网页内容。本发明还提供了相应的语音浏览器。发明能够使得网页内容的呈现更为合理和高效;发明能够使满足用户的实时请求。
-
-
-
-
-
-
-
-
-