一种学者重名的消歧方法及其系统

    公开(公告)号:CN104111973A

    公开(公告)日:2014-10-22

    申请号:CN201410269979.2

    申请日:2014-06-17

    CPC classification number: G06F17/3071 G06F17/30699

    Abstract: 本发明公开了一种学者重名的消歧方法,包括:分类模型建立步骤和迭代消歧步骤;其中,分类模型建立步骤为基于异质学术网络数据,通过标注获取标注数据集,并基于标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;迭代消歧步骤为基于二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。本发明还公开了一种学者重名的消歧系统。

    基于关键句的多语言情感数据处理分类方法及系统

    公开(公告)号:CN103995853A

    公开(公告)日:2014-08-20

    申请号:CN201410198519.5

    申请日:2014-05-12

    CPC classification number: G06F17/30705

    Abstract: 本发明公开了一种基于关键句的多语言情感数据处理分类方法及系统,方法包括:步骤1,从未标注的情感数据集中自动抽取一部情感词典数据包,通过K近邻算法和投票规则来最终判定情感词的极性;步骤2,用抽取出的情感词典数据包计算情感属性的得分,然后再综合考虑位置属性和关键词属性,自动为每一篇文本抽取若干句情感关键句;步骤3,把抽取出的情感关键句直接应用于有监督情感数据分类和无监督情感数据分类中。由此解决多语言翻译时语言迁移和情感数据分析的双重难点问题,以提高情感数据分析的准确性。

    一种网页信息的抽取方法和系统

    公开(公告)号:CN103870506A

    公开(公告)日:2014-06-18

    申请号:CN201210548678.4

    申请日:2012-12-17

    CPC classification number: G06F17/30864 G06F17/30929

    Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。

    微博搜索排名方法及微博搜索引擎

    公开(公告)号:CN102426610B

    公开(公告)日:2014-05-07

    申请号:CN201210010315.5

    申请日:2012-01-13

    Abstract: 本发明提供一种微博排名方法,该方法首先计算消息的实时性权值和消息作者影响力权值,然后将二者的加权平均值作为该消息的排名值,并基于所计算的排名值对消息进行排序。该方法通过将微博作者权威性和消息实时性相结合来进行排名,提高了当前微博检索结果的精确度。而且计算微博作者的影响力计算的方法简单高效,还适用于对微博系统中得用户进行权威性或者影响力排名。

    一种社交网络中用户属性的预测方法及系统

    公开(公告)号:CN103745105A

    公开(公告)日:2014-04-23

    申请号:CN201410005723.0

    申请日:2014-01-06

    Abstract: 本发明提供一种社交网络中用户属性的预测方法及系统,所述方法包括:统计一段时间内每个时刻对用户影响力最大的N个好友,其中N为正整数;以及根据每个时刻对用户影响力最大的N个好友在每个时刻的属性来预测将来时刻所述用户的属性。在地理位置社交网络数据集上的实验数据表明,本发明提供的社交网络中用户属性的预测方法及系统可提高用户属性预测的准确性。

    一种社交网络用户虚实映射方法和系统

    公开(公告)号:CN103745014A

    公开(公告)日:2014-04-23

    申请号:CN201410042782.5

    申请日:2014-01-29

    CPC classification number: G06Q50/01 G06F17/3087

    Abstract: 本发明提供一种社交网络用户虚实映射方法和系统,所述方法包括:根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;以及将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。本发明可根据社交网络用户的唯一标识将该用户映射到一个或多个工作单位,提高了社交网络用户虚实映射的精确度。

    用于识别论坛用户马甲账号的方法和系统

    公开(公告)号:CN103729474A

    公开(公告)日:2014-04-16

    申请号:CN201410032746.0

    申请日:2014-01-23

    CPC classification number: G06F17/30705 G06F17/30861

    Abstract: 本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。

    一种社交网络数据采集方法及系统

    公开(公告)号:CN103631949A

    公开(公告)日:2014-03-12

    申请号:CN201310674521.0

    申请日:2013-12-11

    CPC classification number: G06F17/30964

    Abstract: 本发明提供一种社交网络数据采集方法和系统,所述方法包括根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量。其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。所述方法还包括根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。本发明可针对不同的用户制定不同的实时数据采集策略,提高了社交网络数据采集的实时性和效率。

Patent Agency Ranking