-
公开(公告)号:CN118551764A
公开(公告)日:2024-08-27
申请号:CN202411028372.5
申请日:2024-07-30
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F16/35 , G06F16/33 , G06F18/24 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种针对非连续实体的实体关系联合抽取方法及装置。该方法属于信息抽取和自然语言处理技术领域,包括:利用实体关系抽取模型预测待处理文本中每两个字符间的关系;对实体关系抽取模型的训练,首先将训练文本中的每两个字符作为字符组合存储在表格中,并对表格中的字符组合进行字符间关系的标注;利用该模型中的空洞卷积层和联合分类器对字符组合进行字符间关系标签的预测;基于真实标签信息和预测标签信息计算损失来训练该模型。本发明提供的针对非连续实体的实体关系联合抽取方法及装置,利用空洞卷积和联合分类器对字符组合构成的表格进行标签预测,实现了对非连续实体关系的联合抽取,提高了模型在复杂场景的适应能力。
-
公开(公告)号:CN111859979A
公开(公告)日:2020-10-30
申请号:CN202010549940.1
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/953 , G06N3/04
Abstract: 本申请涉及一种讽刺文本协同识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;提取待处理文本的语义特征信息和主题特征信息,语义特征信息用于表征待处理文本与讽刺类型的关联关系,主题特征信息用于表征待处理文本体现的讽刺主题;根据第一神经网络模型对语义特征信息和主题特征信息的识别结果确定待处理文本的文本类型,并确定待处理文本的主题标签。本申请利用表征语义情感的特征和表征讽刺主题的特征对待处理文本进行协同识别,既确定是否带有讽刺含义,在具备讽刺含义的情况下还同时识别出体现讽刺的主题,实现有主题区分度的文本语义表示,有效提高了讽刺识别的准确率和解释性。
-
公开(公告)号:CN110083699A
公开(公告)日:2019-08-02
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN115358233A
公开(公告)日:2022-11-18
申请号:CN202210798992.1
申请日:2022-07-06
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06N20/00
Abstract: 本发明提供一种语言命名实体识别方法、语言识别装置、电子设备及介质,该方法包括:获取目标语言对应的待标注数据集;根据所述待标注数据集,基于语言预测模型,得到目标预测数据;根据预设的已标注数据集及所述目标预测数据,得到目标数据集;根据所述目标数据集,基于语言识别模型,得到所述目标语言对应的实体识别结果。该方法用以解决现有技术中由于一些目标语言及这些目标语言对应的样本数据集具有一定的局限性,易导致电子设备无法对上述这些目标语言进行准确识别的缺陷,实现电子设备可对这些目标语言进行准确识别,得到准确性较高的实体识别结果。
-
公开(公告)号:CN111859980A
公开(公告)日:2020-10-30
申请号:CN202010549951.X
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/9536 , G06N3/04 , G06N3/08
Abstract: 本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。
-
公开(公告)号:CN118471545B
公开(公告)日:2024-11-19
申请号:CN202410927599.7
申请日:2024-07-11
Applicant: 中国科学院自动化研究所
IPC: G16H50/80 , G16H50/70 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/084 , G06F18/213 , G06F18/25 , G06N3/0442
Abstract: 本发明提供一种基于数据解耦的传染病传播预测方法、装置及电子设备,涉及医疗保健信息学技术领域,方法包括:获取待预测传染病数据并进行编码,得到传染病编码数据;对传染病编码数据进行数据解耦,分别得到风险外溢信号数据和本地演变信号数据;通过图卷积神经网络对风险外溢信号数据进行特征提取,得到风险外溢特征,并通过长短期记忆网络对本地演变信号数据进行特征提取,得到本地演变特征;将风险外溢特征与本地演变特征进行特征融合,得到传染病数据融合特征,并通过多层感知机对传染病数据融合特征进行预测得到传播预测结果。通过本申请,在预测时结合传染病传播性质和演变规律,来提取特征进行传染病传播预测,提高了预测准确性。
-
公开(公告)号:CN115345181A
公开(公告)日:2022-11-15
申请号:CN202210786892.7
申请日:2022-07-04
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/58 , G06F16/36 , G06F40/211 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种神经机器翻译模型的训练方法、翻译方法及装置,所述训练方法包括:构建神经机器翻译模型;将双语平行句对中的源语言句子和目标语言句子,以及知识图谱中每个三元组中的头实体和尾实体进行细粒度切分,得到标准源语言句子序列、标准目标语言句子序列以及知识图谱中每个三元组中的标准头实体‑关系序列和标准尾实体序列;将其输入编解码模块中预测得到目标语言句子序列以及尾实体序列;基于标准目标语言句子序列和预测的目标语言句子序列之间的交叉熵,以及知识图谱中每个三元组中的标准尾实体序列与预测的尾实体序列之间的交叉熵,共同训练该模型。本发明能够有效融合细粒度知识推断,提升神经机器翻译对于实体的翻译质量。
-
公开(公告)号:CN118471545A
公开(公告)日:2024-08-09
申请号:CN202410927599.7
申请日:2024-07-11
Applicant: 中国科学院自动化研究所
IPC: G16H50/80 , G16H50/70 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/084 , G06F18/213 , G06F18/25 , G06N3/0442
Abstract: 本发明提供一种基于数据解耦的传染病传播预测方法、装置及电子设备,涉及医疗保健信息学技术领域,方法包括:获取待预测传染病数据并进行编码,得到传染病编码数据;对传染病编码数据进行数据解耦,分别得到风险外溢信号数据和本地演变信号数据;通过图卷积神经网络对风险外溢信号数据进行特征提取,得到风险外溢特征,并通过长短期记忆网络对本地演变信号数据进行特征提取,得到本地演变特征;将风险外溢特征与本地演变特征进行特征融合,得到传染病数据融合特征,并通过多层感知机对传染病数据融合特征进行预测得到传播预测结果。通过本申请,在预测时结合传染病传播性质和演变规律,来提取特征进行传染病传播预测,提高了预测准确性。
-
公开(公告)号:CN111859980B
公开(公告)日:2024-04-09
申请号:CN202010549951.X
申请日:2020-06-16
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/289 , G06F16/9536 , G06N3/0442 , G06N3/0464 , G06N3/084
Abstract: 本申请涉及一种讽刺类型的文本识别方法、装置、设备及计算机可读介质。该方法包括:获取待处理文本,待处理文本来自于社交媒体网络平台;采用多种方式提取待处理文本的目标特征信息,目标特征信息为从特征集合中选择出来的多个特征信息的加权和表示;根据第一神经网络模型对目标特征信息的识别结果确定待处理文本的文本类型,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行训练后得到的,标记信息用于标记训练数据是否为目标类型。本申请从多个维度捕获词间关联特征,并从讽刺文本的情感倾向转换出发,挖掘词语间的冲突性,进而充分体现句子中地所蕴含的讽刺含义,最终准确、合理地识别讽刺文本。
-
公开(公告)号:CN110083699B
公开(公告)日:2021-01-12
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
-
-
-
-
-
-
-
-