知识库问答系统中的实体链接方法

    公开(公告)号:CN109271524A

    公开(公告)日:2019-01-25

    申请号:CN201810870053.7

    申请日:2018-08-02

    Abstract: 本发明提供一种知识库问答系统中的实体链接方法,包括:从问句中获取主题词集合;根据获取的主题词集合在知识库中进行搜索,得到初步候选实体集合;对于所述初步候选实体集合中的每个实体,从该实体、所述问句以及所述知识库提取相应的特征;以及,根据提取到的所述初步候选实体集合中的每个实体的特征,得到该实体的评分,并且根据评分得到候选实体集合;本发明提高了实体链接的准确性和效率。

    互联网金融项目信息抽取方法和系统

    公开(公告)号:CN108959204A

    公开(公告)日:2018-12-07

    申请号:CN201810653622.2

    申请日:2018-06-22

    Abstract: 本发明涉及一种互联网金融项目信息抽取方法和系统,包括:获取包含金融项目信息的训练网页,为训练网页划分目标项目区域,并为目标项目区域中的DOM树节点标注属性标签,根据训练网页的二维图像、HTML代码、DOM树,抽取DOM树节点的特征向量作为训练数据,训练属性标注模型;获取金融项目信息的待抽取网页,将待抽取网页的DOM树,确定待抽取网页的目标项目区域,根据待抽取网页的目标项目区域中项目列表是否为表格,执行相应的抽取步骤。本发明通过将两种不同特点的互联网金融项目列表分开并对应使用不同的抽取方法,极大的提高了抽取的效率和准确率。

    一种面向分布式顺序表的缓存方法及系统

    公开(公告)号:CN105045894B

    公开(公告)日:2018-12-04

    申请号:CN201510463230.6

    申请日:2015-07-31

    Abstract: 本发明涉及分布式信息处理技术领域,特别涉及一种面向分布式顺序表的缓存方法及系统,该方法包括为所有数据块设置基础分值,当进行数据查询操作时,通过分布式顺序表,获取数据查询操作所涉及的数据范围,统计数据范围中各数据块将要被访问的访问次数,将访问次数累加到相应的数据块;当数据块被缓存命中时,被命中的数据块的分值减去固定值,当缓存空间已满时,则触发缓存的换出操作,在换出操作开始时,根据数据块的分值进行排序,从分值最小的数据块开始淘汰,直到缓存空间能够增加数据块。

    一种社交网络账号映射模型训练方法及映射方法和系统

    公开(公告)号:CN104866558B

    公开(公告)日:2018-08-10

    申请号:CN201510252840.1

    申请日:2015-05-18

    Abstract: 本发明提供一种社交网络账号映射模型训练方法,包括:1)将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集;2)对每一个账号组合提取账号组合特征向量,包括:该账号组合中两个账号各自的文本特征,两个账号在各自所属微博中的社交关系特征,以及两个账号的扩展共同邻居特征,扩展共同邻居是两个账号各自的邻居账号中,那些已知属于同一个自然人的邻居账号对;3)基于机器学习技术进行训练得到社交网络账号映射模型。本发明还提供了相应的社交网络账号映射方法及系统。本发明能够减少关系数据稀疏性对映射结果的不利影响,有效地提高社交网络账号映射的准确率。

    一种社交网络用户身份虚实映射的方法及装置

    公开(公告)号:CN104933139B

    公开(公告)日:2018-06-01

    申请号:CN201510337334.2

    申请日:2015-06-17

    Abstract: 本发明提供一种社交网络用户身份虚实映射的方法及装置,涉及网络数据挖掘技术,能够较准确地推测出社交网络中个体用户的真实身份。所述方法包括:获取身份待定用户的三度好友并生成相应的社交网络拓扑结构图,所述三度好友包括所述身份待定用户的好友、好友的好友以及好友的好友的好友;在所述社交网络拓扑结构图中查找完全子图;根据所述完全子图中各身份已知的好友的身份特征属性,确定所述身份待定用户的身份特征属性。

    一种报文信息源抽取方法及其系统

    公开(公告)号:CN103778200B

    公开(公告)日:2017-08-08

    申请号:CN201410010836.X

    申请日:2014-01-09

    Abstract: 本发明公开了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。

    用于识别论坛用户马甲账号的方法和系统

    公开(公告)号:CN103729474B

    公开(公告)日:2017-07-21

    申请号:CN201410032746.0

    申请日:2014-01-23

    Abstract: 本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。

Patent Agency Ranking