基于逐点互信息技术的诈骗信息特征词提取方法及系统

    公开(公告)号:CN107992473A

    公开(公告)日:2018-05-04

    申请号:CN201711190871.4

    申请日:2017-11-24

    Abstract: 本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。

    一种基于多语义特征融合的文本分类方法和装置

    公开(公告)号:CN117271765A

    公开(公告)日:2023-12-22

    申请号:CN202311059507.X

    申请日:2023-08-22

    Abstract: 本发明公开了一种基于多语义特征融合的文本分类方法及装置,所述方法包括:获取待分类的文本,将所述待分类的文本进行预处理,得到处理后的文本;将词级粒度向量输入训练完毕的词级语义特征提取模型,得到词级语义特征;将句子级粒度向量输入训练完毕的句子级语义特征提取模型,得到句子级语义特征;基于文章级向量对所述处理后的文本进行特征提取,得到文本级语义特征;将所述词级语义特征、句子级语义特征以及文本级语义特征进行特征拼接融合,得到融合后特征,使用分类器对所述融合后特征进行分类。本方法从词粒度、句子粒度和文章粒度等多个层面对文本进行精细语义建模,利用文本的多语义融合特征进行文本分类,提高了文本分类的准确率。

    基于表示学习的相似移动应用计算方法及装置

    公开(公告)号:CN110879861A

    公开(公告)日:2020-03-13

    申请号:CN201910834941.8

    申请日:2019-09-05

    Abstract: 本发明公开了一种基于表示学习的相似移动应用计算方法,所述方法包括:读取移动应用相关的文档、网页以及图数据库中的三元组,获取与文档、网页以及图数据库中与所述移动应用相关的实体,构建表示学习算法-网络嵌入模型LINE网络;基于LINE负采样技术优化Skip-gram模型,通过所述Skip-gram模型训练所述LINE网络,得到每个实体以及移动应用自身的向量表示;根据每个实体以及移动应用自身的向量表示,对移动应用进行相似度计算。

    一种跨域传输的方法
    19.
    发明授权

    公开(公告)号:CN105846982B

    公开(公告)日:2019-03-15

    申请号:CN201610285419.5

    申请日:2016-04-29

    Abstract: 本发明提出了一种跨域传输的方法,该方法包括:在发送终端,按顺序对每个待发送信息进行编号,并对经过编号的每个待发送信息进行分解得到多个数据包,并按顺序为每个数据包编号;为任一待发送信息中的首个数据包添加包头信息,为所述任一待发送信息中的其他数据包添加编号信息;将经过编号的待发送信息中的数据包通过用户数据报协议UDP传输至接收终端。在接收终端,接收发送终端传输来的数据包,并按照所述数据包的包头信息或编号信息对所述数据包进行重组,形成接收信息。该方法能够减少数据反馈量、提高传输速率、增强可靠性。

Patent Agency Ranking