一种虚开发票行为检测方法、装置、电子设备及存储介质

    公开(公告)号:CN112308638A

    公开(公告)日:2021-02-02

    申请号:CN202011187087.X

    申请日:2020-10-29

    Abstract: 本申请实施例提供一种虚开发票行为检测方法、装置、电子设备及存储介质,方法包括:确定目标纳税实体的涉税数据,涉税数据包含开票数据,从涉税数据中提取目标纳税实体的虚开发票行为特征向量,将虚开发票行为特征向量输入预先训练好的随机森林模型,以使随机森林模型输出目标纳税实体的虚开发票数据,若虚开发票数据满足预设条件,则确定目标纳税实体是虚开发票纳税实体。本方案充分考虑了涉税数据中蕴含的纳税实体的虚开发票行为特征,更加精细的刻画纳税实体的特点,采用预先训练好的随机森林模型,基于纳税实体的虚开发票行为特征对纳税实体进行虚开发票检测,避免了以往基于指标评价体系的方案中指标阈值难以科学合理确定的局限和不足。

    词向量模型的构建方法、关键词匹配方法及装置

    公开(公告)号:CN109614478B

    公开(公告)日:2020-12-08

    申请号:CN201811552104.8

    申请日:2018-12-18

    Abstract: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置,所述方法包括:选取目标关键词,以及与所述目标关键词对应的一个或多个目标文档数据;基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据;将所述目标文档数据和符合训练条件的关联文档数据作为训练文本,采用Gensim的Word2vec API对所述训练文本进行训练,得到词向量模型,其中,所述符合训练条件的关联文档数据为:与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中,结合选定的目标文档数据,以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据,提高了该模型的准确性。

    一种新闻流行度预测方法、设备和存储介质

    公开(公告)号:CN110334275B

    公开(公告)日:2020-12-04

    申请号:CN201910471730.2

    申请日:2019-05-31

    Abstract: 本发明公开了一种新闻流行度预测方法、设备和存储介质。该方法包括:获取待预测信息;按照预先确定的流行度影响特征类别,提取所述待预测信息的流行度影响特征;将所述流行度影响特征输入预先训练的集成了多个预测模型的多模型预测器中,获得所述多模型预测器输出的所述待预测信息的流行度。本发明使用集成了多个预测模型的多模型预测器对待预测信息进行信息流行度预测,采用多模型预测器预测信息流行度不仅可以提高预测模型预测结果的稳定性,还可以显著提高预测模型的预测性能,使得流行度预测更加稳定,预测结果更加精准。

    一种品牌综合影响度评估方法、系统及存储介质

    公开(公告)号:CN109800960A

    公开(公告)日:2019-05-24

    申请号:CN201811602925.8

    申请日:2018-12-26

    Abstract: 本发明涉及一种品牌综合影响度评估方法、系统及存储介质。解决了现有的品牌综合影响度评估方法误差大,效率低的问题,本发明实施例包括获取品牌的传播力、影响力和转换力,并跟别获取传播力预设权重、影响力预设权重和转换力预设权重,根据所述品牌的传播力、影响力、转换力和传播力预设权重、影响力预设权重和转换力预设权重计算品牌综合影响度;本发明将网络舆情影响程度定量评价指标体系与品牌综合评价指标体系相结合,提出了一个新的品牌指数评估体系,使用方便,结合融媒体传播的时效性,灵活智能地运用品牌指数的统计算法,有效提升了评估的准确性和智能性,实现了融媒体平台品牌指数的智能性量化评估。

    一种数据抽取方法、设备及计算机可存储介质

    公开(公告)号:CN108874870A

    公开(公告)日:2018-11-23

    申请号:CN201810375770.2

    申请日:2018-04-24

    Abstract: 本发明公开了一种数据抽取方法、设备及计算机可存储介质。所述方法包括:获取HTML文本;根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据;根据在所述HTML文本中抽取的预设类型的数据,生成结构化数据。本发明预先设置内容抽取规则,利用该内容抽取规则,可以对HTML文本进行细粒度的结构化抽取,进而可以获得各种类型的数据,得到包含各种类型数据的结构化数据,抽取速度快,抽取精度高。

    一种引用识别方法、设备和计算机可存储介质

    公开(公告)号:CN108829659A

    公开(公告)日:2018-11-16

    申请号:CN201810418503.9

    申请日:2018-05-04

    Abstract: 本发明公开了一种引用识别方法、设备和计算机可存储介质。所述方法,包括:获取原创语料和候选语料;利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值;根据所述原创语料和所述候选语料的ROUGE值的大小,确定所述候选语料引用所述原创语料的程度。本发明解决了通过相似度比较算法不能识别部分引用的问题,本发明利用ROUGE算法,计算两个语料之间的ROUGE值,根据该ROUGE值可以识别出两个语料直接是否存在全部引用关系或者部分引用关系。

Patent Agency Ranking