-
公开(公告)号:CN112287684B
公开(公告)日:2024-06-11
申请号:CN202011192254.X
申请日:2020-10-30
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/30
Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。
-
公开(公告)号:CN112287684A
公开(公告)日:2021-01-29
申请号:CN202011192254.X
申请日:2020-10-30
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/30
Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。
-
公开(公告)号:CN115248857A
公开(公告)日:2022-10-28
申请号:CN202211026146.4
申请日:2022-08-25
Applicant: 北京中科闻歌科技股份有限公司 , 航空工业信息中心 , 中国科学院自动化研究所
Abstract: 本公开涉及一种多语言观点摘要生成方法、装置、设备、系统及存储介质。该方法包括:获取待处理的多个目标文本;对多个目标文本进行跨语言文本表征处理,得到各个目标文本对应的多个通用表征向量;基于多个通用表征向量,提取各个目标文本中的至少一个观点句;基于观点句,生成多个目标文本对应的多个观点摘要。根据本公开实施例,无需依赖机器翻译工具对不同的语言对应的多媒体内容先进行翻译再生成观点摘要,对于海量的多语言目标文本,降低了观点摘要的生成成本,同时,生成的观点摘要不受机器翻译准确性的影响,因此,提高了多语言观点摘要生成的准确性,有利于推广应用。
-
公开(公告)号:CN114691866A
公开(公告)日:2022-07-01
申请号:CN202210225366.3
申请日:2022-03-09
Applicant: 航空工业信息中心 , 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所
Abstract: 本公开实施例涉及一种面向多级标签的文本分类方法、装置、设备及存储介质。本公开实施例通过获取文本以及文本中关键词对应的标签;基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;分别计算文本的特征向量与每个标签的向量之间的余弦相似度;将余弦相似度大于预设阈值的标签确定为文本的标签。通过对文本和现有类别标签进行编码处理和余弦相似度计算处理,选择出文本内容相匹配的标签,可减轻对人工标注标签的依赖,降低人工标注和标签体系的维护成本,提高标签标注的准确率,使文本分类结果更准确。
-
公开(公告)号:CN115828917A
公开(公告)日:2023-03-21
申请号:CN202211505312.9
申请日:2022-11-28
Applicant: 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所 , 航空工业信息中心
IPC: G06F40/295 , G06N3/045 , G06N3/042 , G06N3/096 , G06N5/02
Abstract: 本发明提供了一种融合知识的低资源语种实体抽取系统,包括:目标语种知识库、关联语种知识库、处理器和存储有计算机程序的存储器,当处理器执行计算机程序时,实现如下步骤:获取无标注语料目标语句中的目标实体,将目标实体与目标语种知识库、关联语种知识库进行实体链接,以预测掩码实体为目标获取第一损失函数,以预测实体的上下文为目标获取第二损失函数,以预测实体类型为目标获取第三损失函数,通过最小化三个损失函数的加权求和函数,获取XLM‑RK模型;从而根据XLM‑RK模型在预训练阶段获得的跨语言实体对齐能力,提升目标语种实体识别效果。
-
-
-
-