一种热点事件检测方法和系统

    公开(公告)号:CN110232149B

    公开(公告)日:2022-03-01

    申请号:CN201910385776.2

    申请日:2019-05-09

    Abstract: 本申请公开了一种热点事件检测方法和系统,包括:对文本进行预处理、分词和向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本分类器。通过提取聚类结果的关键词,使用词向量对聚类关键词进行向量化表示,判断关键词向量之间的距离,对同一事件的多方向讨论进行归并,提高语义识别程度。使用分类器对融合结果集进行分类,能够在包含固有话题的数据中检测热点事件,提高热点事件的识别准确率。

    一种基于改进层次聚类的多源网络舆情主题挖掘方法

    公开(公告)号:CN110222172B

    公开(公告)日:2021-03-16

    申请号:CN201910403573.1

    申请日:2019-05-15

    Abstract: 本发明公开了一种基于改进层次聚类的多源网络舆情主题挖掘方法,涉及主题挖掘领域。具体包括以下步骤:步骤一、获取词向量;步骤二、对所有数据进行预处理;步骤三、对步骤二预处理后总的样本数据句向量化;步骤四、进行句向量半监督层次主题挖掘;步骤五、输出树状图Dendrogram。本发明利用层次聚类算法包含层次信息的优点,并在此基础上从先验知识使用、模型输入向量化、优质主题筛选等角度进行优化,最终使得本文提出的方法能有效适用于主题广泛、文本噪声多、语法缺少规范的多源网络平台短文本的主题挖掘。

    一种基于领域语义关系图的文本领域确定方法与系统

    公开(公告)号:CN110413989B

    公开(公告)日:2020-11-20

    申请号:CN201910533898.1

    申请日:2019-06-19

    Abstract: 本申请公开了一种领域语义关系图的文本领域确定方法与系统,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要针对特殊领域对文本进行分析。通过设置语义关联关系、权重系数和专属属性,提高灵活性和针对性。

    一种网络社区用户识别方法、装置和可读存储介质

    公开(公告)号:CN109783805B

    公开(公告)日:2020-04-24

    申请号:CN201811544400.3

    申请日:2018-12-17

    Abstract: 本申请公开一种网络社区用户识别方法及装置,涉及机器学习及用户识别技术领域。所述方法包括:提取预先收集的网络社区文本数据的第一N‑gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对第一词向量进行训练,得到文本内容分析模型;使用文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析待识别用户的行为数据,得到行为属性;根据内容属性和行为属性识别待识别用户。本申请中,引入N‑gram特征,并结合用户内容以及用户行为两个维度的数据进行目标用户的识别,相较于现有的单一维度数据的用户识别,大大提升了识别性能及准确度。

    一种用户间亲密关系的识别方法及装置

    公开(公告)号:CN109740069A

    公开(公告)日:2019-05-10

    申请号:CN201811385178.7

    申请日:2018-11-20

    Abstract: 本申请提出一种用户间亲密关系的识别方法及装置,涉及数据处理技术领域。所述方法包括:根据预先收集的用户数据构建二分网络,根据二分网络中用户节点和时空节点对应的连边,统计特征数据;根据特征数据,计算不同用户相遇的偶然概率;根据偶然概率,识别具有亲密关系的用户,并计算亲密度。本申请中,基于用户数据并结合时空属性维度构建二分网络,实现了用户之间亲密关系的有效识别,对于相关机构而言,不仅能够更好的对相应的用户进行管理和分配,而且对于机构的决策制定具有一定的指导意义。

    一种可信的知识生态系统

    公开(公告)号:CN109582858A

    公开(公告)日:2019-04-05

    申请号:CN201811207431.X

    申请日:2018-10-17

    Abstract: 本发明公开了一种可信的知识生态系统,包括:学习资源自动收集模块,按需从互联网开放资源中采集特定主题的学习资料,进行数据清洗、数据归约,将结构化或半结构化数据可信地存储在内部学习资源库中;资源学习模块,对资源进行学习形成个人知识库,其中个人知识库以可信的方式存储于平台上;知识管理模块,对所述个人知识库中的知识要素进行组织并与融合、更新到已有的知识体系;知识分享模块,将知识可信地分享给特定用户(群);知识创新模块,结合已有知识体系,生产个人成果,并形成个人成果库;成果提交模块,将所述个人成果提交到平台上。在本发明中,知识的流动过程促进知识库的不断自我更新,形成不断循环、自生长的知识生态系统。

    移动终端上eID身份认证的方法及系统

    公开(公告)号:CN103259667A

    公开(公告)日:2013-08-21

    申请号:CN201310226357.7

    申请日:2013-06-07

    Abstract: 本发明涉及无线通信技术领域,提供了一种移动终端上eID身份认证的方法及系统,包括:eID终端载体,eID客户端和eID统一认证服务系统,eID客户端从eID终端载体获取相关的eID信息;eID客户端与eID统一认证服务系统进行信息交互,进行用户身份验证。本发明传递的信息不包含个人信息,不会造成个人信息的泄漏;采用NFC技术,拓展了eID身份认证的适用场合;整个认证过程中需要两次访问eID统一认证服务系统,增加了系统的安全性,防止了由于浏览器cookies被他人窃取利用所造成的风险。

    一种通用的网络社区可信分布式采集存储系统

    公开(公告)号:CN109446441A

    公开(公告)日:2019-03-08

    申请号:CN201811126541.3

    申请日:2018-09-26

    Abstract: 一种通用的网络社区可信分布式采集存储系统,包括:分布式数据采集框架、快速开发框架、可信框架以及数据存储框架,其中,所述分布式数据采集框架采用了多元异构的形式,用于分布式并行的数据采集;所述快速开发框架包括多种快速开发模块,用于实现对系统的快速开发;所述可信框架包括多种性质验证模块,用于实现对数据采集过程中的多种性能的保证以及对存储数据的多种性能进行验证;所述数据存储框架包括多种数据存储模块,用于对多种复杂结构数据进行存储。本发明不但解决了现有爬虫框架中缺乏对数据可信性验证的问题,还针对结构复杂的数据设计了多种存储模块用于实现对其的有效存储;通过快速开发框架,使得开发过程更加方便和快速。

    一种通用的网络社区可信分布式采集存储系统

    公开(公告)号:CN109446441B

    公开(公告)日:2020-11-03

    申请号:CN201811126541.3

    申请日:2018-09-26

    Abstract: 一种通用的网络社区可信分布式采集存储系统,包括:分布式数据采集框架、快速开发框架、可信框架以及数据存储框架,其中,所述分布式数据采集框架采用了多元异构的形式,用于分布式并行的数据采集;所述快速开发框架包括多种快速开发模块,用于实现对系统的快速开发;所述可信框架包括多种性质验证模块,用于实现对数据采集过程中的多种性能的保证以及对存储数据的多种性能进行验证;所述数据存储框架包括多种数据存储模块,用于对多种复杂结构数据进行存储。本发明不但解决了现有爬虫框架中缺乏对数据可信性验证的问题,还针对结构复杂的数据设计了多种存储模块用于实现对其的有效存储;通过快速开发框架,使得开发过程更加方便和快速。

    一种网络社区用户识别方法及装置

    公开(公告)号:CN109783805A

    公开(公告)日:2019-05-21

    申请号:CN201811544400.3

    申请日:2018-12-17

    Abstract: 本申请公开一种网络社区用户识别方法及装置,涉及机器学习及用户识别技术领域。所述方法包括:提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对第一词向量进行训练,得到文本内容分析模型;使用文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析待识别用户的行为数据,得到行为属性;根据内容属性和行为属性识别待识别用户。本申请中,引入N-gram特征,并结合用户内容以及用户行为两个维度的数据进行目标用户的识别,相较于现有的单一维度数据的用户识别,大大提升了识别性能及准确度。

Patent Agency Ranking