-
公开(公告)号:CN115248857A
公开(公告)日:2022-10-28
申请号:CN202211026146.4
申请日:2022-08-25
Applicant: 北京中科闻歌科技股份有限公司 , 航空工业信息中心 , 中国科学院自动化研究所
Abstract: 本公开涉及一种多语言观点摘要生成方法、装置、设备、系统及存储介质。该方法包括:获取待处理的多个目标文本;对多个目标文本进行跨语言文本表征处理,得到各个目标文本对应的多个通用表征向量;基于多个通用表征向量,提取各个目标文本中的至少一个观点句;基于观点句,生成多个目标文本对应的多个观点摘要。根据本公开实施例,无需依赖机器翻译工具对不同的语言对应的多媒体内容先进行翻译再生成观点摘要,对于海量的多语言目标文本,降低了观点摘要的生成成本,同时,生成的观点摘要不受机器翻译准确性的影响,因此,提高了多语言观点摘要生成的准确性,有利于推广应用。
-
公开(公告)号:CN114691866A
公开(公告)日:2022-07-01
申请号:CN202210225366.3
申请日:2022-03-09
Applicant: 航空工业信息中心 , 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所
Abstract: 本公开实施例涉及一种面向多级标签的文本分类方法、装置、设备及存储介质。本公开实施例通过获取文本以及文本中关键词对应的标签;基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;分别计算文本的特征向量与每个标签的向量之间的余弦相似度;将余弦相似度大于预设阈值的标签确定为文本的标签。通过对文本和现有类别标签进行编码处理和余弦相似度计算处理,选择出文本内容相匹配的标签,可减轻对人工标注标签的依赖,降低人工标注和标签体系的维护成本,提高标签标注的准确率,使文本分类结果更准确。
-
公开(公告)号:CN113536802A
公开(公告)日:2021-10-22
申请号:CN202010319243.7
申请日:2020-04-21
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本申请涉及一种小语种文本数据的情感判别方法、装置、设备和存储介质。所述方法包括:获取文本数据;提取文本数据的多个文本特征;将文本特征输入支持向量机模型,得到文本数据的第一评价特征;将文本数据输入mBERT模型,得到文本数据的第二评价特征;输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。支持向量机模型所采用的语言本身的特征进行判别时,可以提高对不同语言的情感判别准确度,采用mBERT学习不同语言深度语义向量进行的不同语言情感判别,可以很好的提升模型判别的泛化能力。
-
公开(公告)号:CN113496780A
公开(公告)日:2021-10-12
申请号:CN202010197391.6
申请日:2020-03-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: G16H50/80
Abstract: 本发明实施例提供了一种传染病确诊者数量预测方法、装置、服务器及存储介质,该方法包括:确定传染病预测天数、基本传染数、传染病潜伏周期,基于以下步骤进行迭代,直至传染病预测天数归零输出传染病第二累计确诊者数量:获取第一易感者数量、第一现存疑似者数量、第一累计确诊者数量、第一累计痊愈者数量;基于第一累计痊愈者数量、第一累计确诊者数量、基本传染数、传染病潜伏周期更新预设传染病预测模型中系数;基于第一易感者数量、第一现存疑似者数量、第一累计确诊者数量、第一累计痊愈者数量、经过更新的传染病预测模型,输出第二易感者数量、第二现存疑似者数量、第二累计确诊者数量、第二累计痊愈者数量;对传染病预测天数进行递减。
-
公开(公告)号:CN113139116A
公开(公告)日:2021-07-20
申请号:CN202010060445.4
申请日:2020-01-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/9535 , G06F16/28
Abstract: 本发明公开了一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质。该方法包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息;其中,观点抽取模型根据命名实体和语料信息,生成命名实体对应的字符序列;观点抽取模型的BERT模型根据命名实体对应的字符序列,生成命名实体对应的字符向量序列;观点抽取模型的softmax层根据命名实体对应的字符向量序列以及训练观点抽取模型时得到的片段开始向量和片段结束向量,确定命名实体对应的观点信息。本发明可以减轻人工抽取观点信息的工作量,提升观点信息抽取的准确性。
-
公开(公告)号:CN112364641A
公开(公告)日:2021-02-12
申请号:CN202011259475.4
申请日:2020-11-12
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司
IPC: G06F40/284 , G06F40/166
Abstract: 本申请涉及一种面向文本审核的中文对抗样本生成方法及装置,其中方法包括:获取待处理语句信息;对待处理语句信息进行分词,得到多个词语;确定词语的第一重要性信息;获取各个词语对应的扰动词语;根据第一重要性信息,依次得到将待处理语句信息中各个词语替换为对应的扰动词语后的扰动语句信息;在确定扰动语句信息满足预设条件时,根据扰动语句信息得到对待处理语句信息攻击成功后的对抗样本。通过本实施例中的方法可以实现对待处理语句进行词语替换的方式得到对抗样本,进而可以增加用于对预测模型进行训练的样本的多样性,同时可以通过自动生成对抗样本,提升训练数据获取的便利性,提升模型训练的效率。
-
公开(公告)号:CN119783663A
公开(公告)日:2025-04-08
申请号:CN202411861891.X
申请日:2024-12-17
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F40/258 , G06N3/0455 , G06N3/08
Abstract: 本发明提供了一种基于大语言模型的事件名生成方法、设备及介质,涉及事件名生成技术领域,所述方法包括:获取目标文章集合A;将A中的每一篇目标文章输入至预设的预训练语言模型,以得到标题摘要组列表B;获取B中每一标题摘要组对应的token长度,以得到B对应的token长度列表NB;确定B对应的分批处理的初始批次数量NUM;若NUM>1,则将B划分为若干批次,以得到B对应的批次列表C;根据C和预设的大语言模型,得到目标事件对应的事件名称;本发明中的方法,在生成事件的名称的过程中,结合目标事件的多篇目标文章,所参考的信息较多,从而使得生成的目标事件的名称更加准确。
-
公开(公告)号:CN119782889A
公开(公告)日:2025-04-08
申请号:CN202411952956.1
申请日:2024-12-27
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/24 , G06F18/213 , G06V10/44 , G06N3/0455 , G06F18/22 , G06N3/048
Abstract: 本申请涉及一种基于大模型的多模态假新闻检测方法、装置、及设备,尤其涉及信息处理技术领域。包括:将多模态待测新闻分别输入大模型gte‑Qwen2‑1.5B‑instruct、预训练视觉模型SwinT和预训练图文对比模型Clip,得到文本特征、图像特征以及文本对比特征和图像对比特征;计算归一化后的文本对比特征与图像对比特征之间的余弦相似度,得到图文相似度;将图文相似度作为注意力矩阵阈值来增强文本特征和图像特征,以提取局部异同特征;将图文相似度作为权重来增强文本特征和图像特征,以提取全局异同特征;将局部异同特征和全局异同特征输入假新闻分类器,得到假新闻分类器输出的多模态待测新闻的真实性预测值。
-
公开(公告)号:CN118940826A
公开(公告)日:2024-11-12
申请号:CN202411434591.3
申请日:2024-10-15
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06N5/02
Abstract: 本发明涉及自然语言处理领域,提供一种事件知识图谱构建方法、装置和电子设备,包括:基于源文本数据集构建事件图谱;基于所述事件图谱和开源知识图谱之间的共同实体,对所述事件图谱和所述开源知识图谱进行融合,得到融合了事件图谱和开源知识图谱的事件知识图谱;获取所述事件知识图谱中的节点和有向边的特征向量,得到进行了知识表示的事件知识图谱,作为目标事件知识图谱。本发明通过将事件图谱与知识图谱深度融合得到具有丰富知识表示的事件知识图谱。
-
公开(公告)号:CN113496118B
公开(公告)日:2024-05-31
申请号:CN202010266045.9
申请日:2020-04-07
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/242 , G06F40/279 , G06N20/10
Abstract: 本发明公开了一种新闻主体识别方法、设备和计算机可读存储介质。该方法包括:获取待识别新闻文本,并对新闻文本进行预处理;利用预设的分词词典,对预处理后的新闻文本执行带词性标注的分词处理,得到多个被标注词性的分词;在词性被标注为主体的分词中查询预设的目标主体,并在新闻文本中提取目标主体对应的多种主体特征;将目标主体对应的多种主体特征输入预先训练的主体识别模型中,获取主体识别模型输出的识别结果。在本发明中,将目标主体对应的多种主体特征作为主体识别模型的输入,使主体识别模型根据目标主体对应的多种主体特征识别新闻文本的主体是否为目标主体,弥补了新闻主体识别的技术空白。
-
-
-
-
-
-
-
-
-