字典学习、视觉词袋特征提取方法及检索系统

    公开(公告)号:CN104036012B

    公开(公告)日:2017-06-30

    申请号:CN201410287639.2

    申请日:2014-06-24

    Abstract: 本发明提供一种字典学习方法,包括:1)基于维度将图像的局部特征向量分为第一分段和第二分段;2)用多个局部特征向量的第一分段构造第一数据矩阵,用多个局部特征向量的第二分段构造第二数据矩阵;3)对第一数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第一分段进行稀疏编码的第一字典;对第二数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第二分段进行稀疏编码的第二字典。本发明还提供了基于上述两个字典对图像局部特征进行分段稀疏表示的视觉词袋特征提取方法和相应的检索系统。本发明能够大幅减少内存占用,降低词表训练时间和特征提取时间,特别适合应用于移动终端。

    面向排序测度特征的图像匹配方法及系统

    公开(公告)号:CN104484869B

    公开(公告)日:2017-02-22

    申请号:CN201410646014.0

    申请日:2014-11-14

    Abstract: 本发明提供一种面向排序测度特征的图像匹配方法,该方法首先获取待检测图像的排序测度特征和采样特征序列;对待检测图像的采样特征序列进行哈希,并基于哈希的结果来从图像库的哈希表中选择多个候选图像;然后通过计算该待检测图像的排序测度特征和各个候选图像的排序测度特征的相似度,来确定与该待检测图像匹配的图像。该方法对于图像的排序测度特征采用分级匹配的方法,提高了排序测度特征的匹配速度,使得该特征用于大规模图像匹配成为可能。而且可以通过控制采样分块的数目,调整排序测度特征哈希表的所需的内存开销,使之能用于不同内存大小的计算平台。

    一种微博信息采集方法及系统

    公开(公告)号:CN103399968B

    公开(公告)日:2016-08-10

    申请号:CN201310298119.7

    申请日:2013-07-16

    Abstract: 本发明提供一种微博信息采集方法及系统,所述方法包括:根据用户提交的查询确定信息类型以及页面链接参数;向微博服务器发送根据所述信息类型和所述页面链接参数构造的页面请求链接,抽取返回页面中的基础信息数据项。所述方法还包括:并行执行信息所在页面的相关信息采集。本发明提供的微博信息采集方法和系统在提高信息采集效率的同时,可以获取更完整的微博信息。

    一种基于代表性局部模式的图像指纹提取方法及系统

    公开(公告)号:CN104881668A

    公开(公告)日:2015-09-02

    申请号:CN201510241287.1

    申请日:2015-05-13

    CPC classification number: G06K9/4604 G06K9/4671

    Abstract: 本发明公开了一种基于代表性局部模式的图像指纹提取方法及系统,涉及图像处理领域,该方法包括将库图像进行图像攻击模拟处理,生成新库图像,并提取所述库图像与所述新库图像的关键点,根据所述关键点,获取局部区块,并根据所述局部区块,生成局部模式并建立局部模式库,从所述局部模式库中获取代表性局部模式;根据所述代表性局部模式,建立所述库图像与所述新库图像的图像指纹,并将所述图像指纹存入图像指纹库;获取新图像,提取所述新图像的新图像指纹,将所述新图像指纹与所述图像指纹库中的图像指纹进行比对,查找库图像中与所述新图像向对应的图像。本发明占用内存少,可以使用优化的机器指令进行加速匹配,适于大规模的图像拷贝检测。

    一种面向用户生成内容的分布式采集方法与系统

    公开(公告)号:CN104735138A

    公开(公告)日:2015-06-24

    申请号:CN201510102980.0

    申请日:2015-03-09

    CPC classification number: H04L67/02 G06F17/30861

    Abstract: 本发明提供一种面向用户生成内容的分布式采集方法,包括:1)根据采集页面的采集量和采集难度划分页面类型,基于页面类型构建采集任务并将其加入采集队列;其中,所述采集任务包括复合采集任务,所述复合采集任务根据采集量和采集难度将多个同类型的采集页面划入;2)并发地从所述采集任务队列取出采集任务,执行该采集任务并返回所采集的信息。本发明还提供了相应的分布式采集系统,包括主控节点和多个子节点,主控节点用于构建并维护采集任务队列;各个所述子节点用于并发地执行采集任务。本发明的采集速度快,显著地提高了UGC新闻采集的实时性;可以适用于各种不同类型页面的采集,执行多样化的采集任务;能够规避采集对象的监控措施。

    一种基于微博信息源的新闻认证方法及系统

    公开(公告)号:CN104572807A

    公开(公告)日:2015-04-29

    申请号:CN201410594515.9

    申请日:2014-10-29

    CPC classification number: G06F17/3089 G06Q50/01

    Abstract: 本发明涉及微博新闻可信度领域,特别涉及一种基于微博信息源的新闻认证方法及系统,该方法包括:提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并根据以上三个比例,获取所述用户的社交关系可信度值;获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值;获取微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;将以上三个可信度值进行线性加权求和作为综合可信度值。

    基于微博内容的关键词挖掘方法及系统

    公开(公告)号:CN104504024A

    公开(公告)日:2015-04-08

    申请号:CN201410768704.3

    申请日:2014-12-11

    CPC classification number: G06F17/30616

    Abstract: 本发明提供一种基于微博内容的关键词挖掘方法,对于所有微博文本经分词得到的所有词的集合中的每个词,基于该词在每个微博文本中出现的次数及该微博文本被转发的次数来计算该词的权重;并选取其权重大于预定阈值的词作为从该微博数据集中挖掘的关键词。该方法即考虑了词语在各个微博文本中出现的频率,又考虑了同一微博文本在微博数据集中转发情况对挖掘关键词的准确性的影响,因此提高了获取微博文本关键词的精确度。

    面向排序测度特征的图像匹配方法及系统

    公开(公告)号:CN104484869A

    公开(公告)日:2015-04-01

    申请号:CN201410646014.0

    申请日:2014-11-14

    CPC classification number: G06K9/66 G06F17/30047 G06F17/30247

    Abstract: 本发明提供一种面向排序测度特征的图像匹配方法,该方法首先获取待检测图像的排序测度特征和采样特征序列;对待检测图像的采样特征序列进行哈希,并基于哈希的结果来从图像库的哈希表中选择多个候选图像;然后通过计算该待检测图像的排序测度特征和各个候选图像的排序测度特征的相似度,来确定与该待检测图像匹配的图像。该方法对于图像的排序测度特征采用分级匹配的方法,提高了排序测度特征的匹配速度,使得该特征用于大规模图像匹配成为可能。而且可以通过控制采样分块的数目,调整排序测度特征哈希表的所需的内存开销,使之能用于不同内存大小的计算平台。

    字典学习、视觉词袋特征提取方法及检索系统

    公开(公告)号:CN104036012A

    公开(公告)日:2014-09-10

    申请号:CN201410287639.2

    申请日:2014-06-24

    CPC classification number: G06F17/30247

    Abstract: 本发明提供一种字典学习方法,包括:1)基于维度将图像的局部特征向量分为第一分段和第二分段;2)用多个局部特征向量的第一分段构造第一数据矩阵,用多个局部特征向量的第二分段构造第二数据矩阵;3)对第一数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第一分段进行稀疏编码的第一字典;对第二数据矩阵进行稀疏非负矩阵分解,得到用于对局部特征向量的第二分段进行稀疏编码的第二字典。本发明还提供了基于上述两个字典对图像局部特征进行分段稀疏表示的视觉词袋特征提取方法和相应的检索系统。本发明能够大幅减少内存占用,降低词表训练时间和特征提取时间,特别适合应用于移动终端。

    一种基于集成学习的模式训练和识别方法

    公开(公告)号:CN102521599A

    公开(公告)日:2012-06-27

    申请号:CN201110303362.4

    申请日:2011-09-30

    Abstract: 本发明提供一种基于集成学习的模式训练和识别方法,该模式训练方法包括:1)对训练样本进行词典学习,生成冗余词典;2)利用所述冗余词典对所述训练样本进行稀疏编码,获得每个训练样本的稀疏编码系数;3)根据所述稀疏编码系数对所有训练样本进行稀疏子空间划分;4)对于每个稀疏子空间内的训练样本进行子模型训练,获得用于分类的子模型。本发明的上述模式训练和识别方法可以取得更高的识别性能,同时能显著提高训练效率和检测效率。

Patent Agency Ranking