-
公开(公告)号:CN106294356A
公开(公告)日:2017-01-04
申请号:CN201510246678.2
申请日:2015-05-14
申请人: 北京大学 , 北大方正集团有限公司北京北大方正电子有限公司
IPC分类号: G06F17/30
CPC分类号: G06F16/9535
摘要: 本发明提供了一种基于动态聚类的微博时间线生成方法,包括:获取与给定话题相关的多条微博;获得所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图;根据所述微博关系图,采用聚类算法对所述微博进行分类,并从每类微博中选取代表微博;根据发布时间的先后对所有代表微博进行排序,生成微博时间线。本发明提供了一种基于动态聚类的微博时间线生成装置,包括获取单元、微博关系图构建单元、动态聚类单元及时间线生成单元。能够有效过滤冗余微博及噪音微博,建立一个鲁棒性较强、检索效果较好的微博检索系统。
-
公开(公告)号:CN106294418A
公开(公告)日:2017-01-04
申请号:CN201510272225.7
申请日:2015-05-25
申请人: 北京大学 , 北大方正集团有限公司北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明提出了一种检索方法和一种检索系统,其中,所述方法包括:在接收到对微博语料集合中的微博文档进行检索的查询语句时,根据所述查询语句创建与所述查询语句相应的原始查询模型;识别所述查询语句中的目标实体;根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型,对所述原始查询模型进行扩展,以得到扩展查询模型;统计所述扩展查询模型与所述微博文档语言模型之间的相似度,以根据所述相似度确定所述查询语句的目标检索结果。通过本发明的技术方案,使用户可以准确地在微博文档中检索得到目标检索结果,从而提高了准确率,同时还可以增强检索的鲁棒性。
-
公开(公告)号:CN106294358A
公开(公告)日:2017-01-04
申请号:CN201510246802.5
申请日:2015-05-14
申请人: 北京大学 , 北大方正集团有限公司北京北大方正电子有限公司
IPC分类号: G06F17/30
CPC分类号: G06F16/951
摘要: 本发明公开了一种信息的检索方法及系统,该方法包括:接收用户的输入指令,根据指令中的第一检索关键词信息在预设网络资源中获取与第一检索关键词信息对应的多条文本信息;识别多条文本信息中的关键词信息,获取与关键词信息对应的关键词类别,并将关键词信息对应的关键词类别以多个文本框的形式展示给用户,以使用户根据多个文本框选择与所述输入指令相对应的关键词信息;根据用户选择的关键词信息和第一检索关键词信息生成第二检索关键词信息;根据第二检索关键词信息,在预设语料库中选取符合预设条件的文本信息展示给用户。该方法通过多用户的原始查询指令进行扩展,并对检索结果进行优化,提高了信息检索的准确度,同时也提高了检索效率。
-
公开(公告)号:CN106294418B
公开(公告)日:2019-08-30
申请号:CN201510272225.7
申请日:2015-05-25
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F16/953
摘要: 本发明提出了一种检索方法和一种检索系统,其中,所述方法包括:在接收到对微博语料集合中的微博文档进行检索的查询语句时,根据所述查询语句创建与所述查询语句相应的原始查询模型;识别所述查询语句中的目标实体;根据与所述目标实体相应的目标实体主题模型、所述原始查询模型和根据所述微博文档集合中的每条微博文档建立的微博文档语言模型,对所述原始查询模型进行扩展,以得到扩展查询模型;统计所述扩展查询模型与所述微博文档语言模型之间的相似度,以根据所述相似度确定所述查询语句的目标检索结果。通过本发明的技术方案,使用户可以准确地在微博文档中检索得到目标检索结果,从而提高了准确率,同时还可以增强检索的鲁棒性。
-
公开(公告)号:CN103885985B
公开(公告)日:2018-05-18
申请号:CN201210564284.8
申请日:2012-12-24
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明提供了微博实时检索方法,包括:对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;获取来自用户的关键词;对关键词进行逻辑扩展得到以生成扩展检索逻辑式;以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明还提供了一种微博实时检索装置,包括:文档扩展模块,用于对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;关键词模块,用于获取来自用户的关键词;检索扩展模块,用于对关键词进行逻辑扩展得到以生成扩展检索逻辑式;匹配模块,用于以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明提高了微博检索的准确度。
-
公开(公告)号:CN105095270B
公开(公告)日:2019-02-26
申请号:CN201410197261.7
申请日:2014-05-12
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F16/9536
摘要: 本发明提供了一种检索装置和检索方法,其中,检索方法包括:在接收到查询语句和微博文档时,对查询语句和微博文档进行预处理,并创建原始查询模型和原始文档模型;从外部知识数据库中获取与原始查询模型相关联的知识条目,并根据原始查询模型和知识条目确定知识查询语句;根据知识查询语句创建知识查询模型,并根据知识查询模型和原始查询模型确定扩展查询模型;在微博文档中包含社交标签时,根据社交标签从语料集中查找出微博文档对应的社交邻居文档,并创建社交邻居文档模型;根据社交邻居文档模型、原始文档模型和语料集得到扩展文档模型,并确定目标检索结果。通过本发明的技术方案,可以使用户在微博上快速地查询到大量准确的实时性信息。
-
公开(公告)号:CN105095271A
公开(公告)日:2015-11-25
申请号:CN201410197262.1
申请日:2014-05-12
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明提供了一种微博检索方法,包括:预处理步骤,对查询语句和微博文档进行预处理;第一模型创建步骤,根据预处理结果创建原始查询模型和原始文档模型;第二模型创建步骤,创建伪相关文档模型;模型更新步骤,将所述伪相关文档模型和所述原始查询模型进行线性叠加,得到扩展查询模型;文档确定步骤,确定候选结果文档;排序步骤,根据分解机排序模型公式计算所述候选结果文档中的每个文档的得分,并根据所述得分对所述候选结果文档进行排序,以得到最终检索结果。相应地,本发明还提出了一种微博检索装置。通过本发明的技术方案,可以解决微博检索中的词汇匹配不精准的问题,同时可以辨别微博的质量,过滤掉低质量的微博。
-
公开(公告)号:CN105095271B
公开(公告)日:2019-04-05
申请号:CN201410197262.1
申请日:2014-05-12
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F16/332
摘要: 本发明提供了一种微博检索方法,包括:预处理步骤,对查询语句和微博文档进行预处理;第一模型创建步骤,根据预处理结果创建原始查询模型和原始文档模型;第二模型创建步骤,创建伪相关文档模型;模型更新步骤,将所述伪相关文档模型和所述原始查询模型进行线性叠加,得到扩展查询模型;文档确定步骤,确定候选结果文档;排序步骤,根据分解机排序模型公式计算所述候选结果文档中的每个文档的得分,并根据所述得分对所述候选结果文档进行排序,以得到最终检索结果。相应地,本发明还提出了一种微博检索装置。通过本发明的技术方案,可以解决微博检索中的词汇匹配不精准的问题,同时可以辨别微博的质量,过滤掉低质量的微博。
-
公开(公告)号:CN105095270A
公开(公告)日:2015-11-25
申请号:CN201410197261.7
申请日:2014-05-12
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明提供了一种检索装置和检索方法,其中,检索方法包括:在接收到查询语句和微博文档时,对查询语句和微博文档进行预处理,并创建原始查询模型和原始文档模型;从外部知识数据库中获取与原始查询模型相关联的知识条目,并根据原始查询模型和知识条目确定知识查询语句;根据知识查询语句创建知识查询模型,并根据知识查询模型和原始查询模型确定扩展查询模型;在微博文档中包含社交标签时,根据社交标签从语料集中查找出微博文档对应的社交邻居文档,并创建社交邻居文档模型;根据社交邻居文档模型、原始文档模型和语料集得到扩展文档模型,并确定目标检索结果。通过本发明的技术方案,可以使用户在微博上快速地查询到大量准确的实时性信息。
-
公开(公告)号:CN103885985A
公开(公告)日:2014-06-25
申请号:CN201210564284.8
申请日:2012-12-24
申请人: 北京大学 , 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30864 , G06F17/30654
摘要: 本发明提供了微博实时检索方法,包括:对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;获取来自用户的关键词;对关键词进行逻辑扩展得到以生成扩展检索逻辑式;以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明还提供了一种微博实时检索装置,包括:文档扩展模块,用于对微博空间中的各个微博进行文档扩展以生成文档扩展逻辑式;关键词模块,用于获取来自用户的关键词;检索扩展模块,用于对关键词进行逻辑扩展得到以生成扩展检索逻辑式;匹配模块,用于以扩展检索逻辑式检索各个文档扩展逻辑式以获得最终检索结果。本发明提高了微博检索的准确度。
-
-
-
-
-
-
-
-
-