基于逐点互信息技术的诈骗信息特征词提取方法及系统

    公开(公告)号:CN107992473B

    公开(公告)日:2021-04-27

    申请号:CN201711190871.4

    申请日:2017-11-24

    Abstract: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。

    中文篇章关系的分类方法及装置

    公开(公告)号:CN108959351A

    公开(公告)日:2018-12-07

    申请号:CN201810377825.3

    申请日:2018-04-25

    CPC classification number: G06F17/2785 G06N3/0481

    Abstract: 本发明属于自然语言处理技术领域,具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示,得到第一句对分布式表示向量;计算记忆单元与第一句对分布式表示向量的相似度和权重,得到第一句对分布式表示向量的记忆信息;将第一句对分布式表示向量与记忆信息进行线性组合生成第二句对分布式表示向量;对第二句对分布式表示向量进行分类,得到中文篇章的关系分类结果。本发明的方法通过深度学习网络得到句子内部的语义和结构抽象特征,可以获得优越性能的篇章分类效果。

    基于逐点互信息技术的诈骗信息特征词提取方法及系统

    公开(公告)号:CN107992473A

    公开(公告)日:2018-05-04

    申请号:CN201711190871.4

    申请日:2017-11-24

    Abstract: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。

    一种融合多源信息的人名消歧方法及装置

    公开(公告)号:CN117149949B

    公开(公告)日:2024-12-17

    申请号:CN202311059658.5

    申请日:2023-08-22

    Abstract: 本发明公开了一种融合多源信息的人名消歧方法及装置,所述方法包括:将所有文本划分为若干个类;基于同名作者对应的机构名称、文本共同作者和文本主题内容,分别对每一类文本进行聚类,以得到该类文本的机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果;基于簇内机构信息及文本的共现信息,对机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果进行融合,得到该类文本的初步聚类结果;提取初步聚类结果中的单簇文本,并基于所述单簇文本与该类文本中其他文本的相似度进行单簇文本的融合后,得到人名消歧结果。本发明可以实现了更好的消歧准确率。

Patent Agency Ranking