-
公开(公告)号:CN113536802A
公开(公告)日:2021-10-22
申请号:CN202010319243.7
申请日:2020-04-21
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本申请涉及一种小语种文本数据的情感判别方法、装置、设备和存储介质。所述方法包括:获取文本数据;提取文本数据的多个文本特征;将文本特征输入支持向量机模型,得到文本数据的第一评价特征;将文本数据输入mBERT模型,得到文本数据的第二评价特征;输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。支持向量机模型所采用的语言本身的特征进行判别时,可以提高对不同语言的情感判别准确度,采用mBERT学习不同语言深度语义向量进行的不同语言情感判别,可以很好的提升模型判别的泛化能力。
-
公开(公告)号:CN113536763A
公开(公告)日:2021-10-22
申请号:CN202110821206.0
申请日:2021-07-20
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/194 , G06F16/335
Abstract: 本公开涉及一种信息处理方法、装置、设备及存储介质。其中,信息处理方法包括:获取待处理文本;确定待处理文本与已存储文本之间的文本相似度;基于待处理文本的发布时间和已存储文本的发布时间,对文本相似度进行修正,得到修正后的文本相似度;在修正后的文本相似度大于或等于预设相似度阈值的情况下,将已存储文本作为待处理文本的相似文本。根据本公开实施例,可以提高重复信息的查找精度和效率且节约设备资源,以进一步提高重复信息的处理效果和效率,降低文本内容的重复性,进而使得用户快速且准确的从网络平台中查找感兴趣信息的需求,提高用户查看信息的体验且节约设备资源。
-
公开(公告)号:CN113496780A
公开(公告)日:2021-10-12
申请号:CN202010197391.6
申请日:2020-03-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: G16H50/80
Abstract: 本发明实施例提供了一种传染病确诊者数量预测方法、装置、服务器及存储介质,该方法包括:确定传染病预测天数、基本传染数、传染病潜伏周期,基于以下步骤进行迭代,直至传染病预测天数归零输出传染病第二累计确诊者数量:获取第一易感者数量、第一现存疑似者数量、第一累计确诊者数量、第一累计痊愈者数量;基于第一累计痊愈者数量、第一累计确诊者数量、基本传染数、传染病潜伏周期更新预设传染病预测模型中系数;基于第一易感者数量、第一现存疑似者数量、第一累计确诊者数量、第一累计痊愈者数量、经过更新的传染病预测模型,输出第二易感者数量、第二现存疑似者数量、第二累计确诊者数量、第二累计痊愈者数量;对传染病预测天数进行递减。
-
公开(公告)号:CN113379169A
公开(公告)日:2021-09-10
申请号:CN202110924546.6
申请日:2021-08-12
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司
Abstract: 本公开涉及一种信息处理方法、装置、设备及介质。其中,信息处理方法包括:获取目标社会实体的目标社会实体信息;从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量;将目标特征向量输入预先训练好的梯度提升树模型,得到预先训练好的梯度提升树模型输出的目标社会实体的预测信用评分;若目标社会实体的预测信用评分符合预设的空壳实体检测条件,则确定目标社会实体为空壳实体。根据本公开实施例,能够提高对目标社会实体进行空壳实体检测的准确性,以满足税务稽查、风控预警等部门的实际业务需求。
-
公开(公告)号:CN113220823A
公开(公告)日:2021-08-06
申请号:CN202010072425.9
申请日:2020-01-21
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/33 , G06F16/31 , G06F40/30 , G06F40/242 , G06F40/289 , G06F40/205 , G06Q50/00 , G06Q50/26
Abstract: 本申请涉及一种面向社交媒体公共言论的情感、话题及观点分析方法,该方法包括:获取与公共事件对应的媒体报道信息以及公众舆论内容;按照第一预设策略分析所述媒体报道信息得到第一分析结果,按照第二预设策略分析所述公众舆论内容得到第二分析结果;对比所述第一分析结果和第二分析结果确定所述媒体报道信息与所述公众舆论内容的差异程度;根据所述差异程度规划所述公共事件的报道议程。该技术方案通过对网络公共事件的媒体报道信息以及公众舆论进行对比分析,能够得到公众对公众事件的观点以及情感倾向,并根据公众的观点以及情感倾向规划公共事件的报道议程,以此不仅可以更好了解公众的意愿,还能促进社交媒体平台的健康发展。
-
公开(公告)号:CN113139116A
公开(公告)日:2021-07-20
申请号:CN202010060445.4
申请日:2020-01-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/9535 , G06F16/28
Abstract: 本发明公开了一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质。该方法包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息;其中,观点抽取模型根据命名实体和语料信息,生成命名实体对应的字符序列;观点抽取模型的BERT模型根据命名实体对应的字符序列,生成命名实体对应的字符向量序列;观点抽取模型的softmax层根据命名实体对应的字符向量序列以及训练观点抽取模型时得到的片段开始向量和片段结束向量,确定命名实体对应的观点信息。本发明可以减轻人工抽取观点信息的工作量,提升观点信息抽取的准确性。
-
公开(公告)号:CN112613324A
公开(公告)日:2021-04-06
申请号:CN202011596697.5
申请日:2020-12-29
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司
Abstract: 本申请涉及一种语义情绪识别方法、装置、设备及存储介质,所述方法包括:获取待识别文本,然后对待识别文本的全局语义信息进行提取,得到第一语义向量,再利用预训练的词向量模型确定待识别文本的词向量矩阵,之后根据词向量矩阵确定第二语义向量,根据词向量矩阵计算待识别文本中每个词的词向量与预设情绪词语的词向量的相似度,并将计算得到的所有相似度确定为第三语义向量,最后根据第一语义向量、第二语义向量和第三语义向量确定待识别文本所属的情绪类别,如此,便可以根据待识别文本的全局语义信息以及待识别文本的词向量矩阵确定待识别文本的情绪类别,考虑了待识别文本的词语义、词组语义以及句子语义信息,提高了情绪识别的准确性。
-
公开(公告)号:CN112364641A
公开(公告)日:2021-02-12
申请号:CN202011259475.4
申请日:2020-11-12
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司
IPC: G06F40/284 , G06F40/166
Abstract: 本申请涉及一种面向文本审核的中文对抗样本生成方法及装置,其中方法包括:获取待处理语句信息;对待处理语句信息进行分词,得到多个词语;确定词语的第一重要性信息;获取各个词语对应的扰动词语;根据第一重要性信息,依次得到将待处理语句信息中各个词语替换为对应的扰动词语后的扰动语句信息;在确定扰动语句信息满足预设条件时,根据扰动语句信息得到对待处理语句信息攻击成功后的对抗样本。通过本实施例中的方法可以实现对待处理语句进行词语替换的方式得到对抗样本,进而可以增加用于对预测模型进行训练的样本的多样性,同时可以通过自动生成对抗样本,提升训练数据获取的便利性,提升模型训练的效率。
-
公开(公告)号:CN108829659B
公开(公告)日:2021-02-09
申请号:CN201810418503.9
申请日:2018-05-04
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/211 , G06F40/30 , G06F40/205
Abstract: 本发明公开了一种引用识别方法、设备和计算机可存储介质。所述方法,包括:获取原创语料和候选语料;利用预设的ROUGE算法计算所述原创语料和所述候选语料的ROUGE值;根据所述原创语料和所述候选语料的ROUGE值的大小,确定所述候选语料引用所述原创语料的程度。本发明解决了通过相似度比较算法不能识别部分引用的问题,本发明利用ROUGE算法,计算两个语料之间的ROUGE值,根据该ROUGE值可以识别出两个语料直接是否存在全部引用关系或者部分引用关系。
-
公开(公告)号:CN109783778B
公开(公告)日:2020-10-23
申请号:CN201811577909.8
申请日:2018-12-20
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/194 , G06F40/289
Abstract: 本发明实施例涉及一种文本溯源方法、设备及存储介质,所述方法包括:根据待判定文本和源文本生成词袋模型,所述源文本包括多个文本;利用多种预设的相似度算法,分别对所述词袋模型进行相似度计算,确定在不同相似度算法的情况下,所述源文本中多个文本与所述待判定文本的多个第一相似度排序;基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序;基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本,采用多种相似度的算法,可以弥补单一算法的不足,减少因计算方式不同带来的偶然性,提升计算结果的全面性和准确性。
-
-
-
-
-
-
-
-
-