-
公开(公告)号:CN119250156B
公开(公告)日:2025-03-21
申请号:CN202411758866.9
申请日:2024-12-03
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/0455 , G06N3/0985 , G06F18/22
Abstract: 本发明提供一种离线元强化学习模型训练方法、装置、设备、介质及产品,涉及人工智能技术领域,方法包括:基于不同训练任务之间的相似度对上下文编码器进行训练,以最小化相似度高于阈值的训练任务的表示向量之间的距离,最大化相似度低于阈值的训练任务的表示向量之间的距离;基于保守Q学习对Q函数网络进行训练,以最小化标准贝尔曼误差,和最小化训练策略对应的Q值与行为策略对应的Q值之间的差距;基于行为正则化演员评判家对策略网络进行训练,以限制训练策略与行为策略之间的差异;根据训练好的上下文编码器、Q函数网络和策略网络,得到训练好的离线元强化学习模型。本发明实现增强离线元强化学习模型的性能表现、鲁棒性和泛化能力。
-
公开(公告)号:CN119250156A
公开(公告)日:2025-01-03
申请号:CN202411758866.9
申请日:2024-12-03
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/0455 , G06N3/0985 , G06F18/22
Abstract: 本发明提供一种离线元强化学习模型训练方法、装置、设备、介质及产品,涉及人工智能技术领域,方法包括:基于不同训练任务之间的相似度对上下文编码器进行训练,以最小化相似度高于阈值的训练任务的表示向量之间的距离,最大化相似度低于阈值的训练任务的表示向量之间的距离;基于保守Q学习对Q函数网络进行训练,以最小化标准贝尔曼误差,和最小化训练策略对应的Q值与行为策略对应的Q值之间的差距;基于行为正则化演员评判家对策略网络进行训练,以限制训练策略与行为策略之间的差异;根据训练好的上下文编码器、Q函数网络和策略网络,得到训练好的离线元强化学习模型。本发明实现增强离线元强化学习模型的性能表现、鲁棒性和泛化能力。
-
公开(公告)号:CN118471545B
公开(公告)日:2024-11-19
申请号:CN202410927599.7
申请日:2024-07-11
Applicant: 中国科学院自动化研究所
IPC: G16H50/80 , G16H50/70 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/084 , G06F18/213 , G06F18/25 , G06N3/0442
Abstract: 本发明提供一种基于数据解耦的传染病传播预测方法、装置及电子设备,涉及医疗保健信息学技术领域,方法包括:获取待预测传染病数据并进行编码,得到传染病编码数据;对传染病编码数据进行数据解耦,分别得到风险外溢信号数据和本地演变信号数据;通过图卷积神经网络对风险外溢信号数据进行特征提取,得到风险外溢特征,并通过长短期记忆网络对本地演变信号数据进行特征提取,得到本地演变特征;将风险外溢特征与本地演变特征进行特征融合,得到传染病数据融合特征,并通过多层感知机对传染病数据融合特征进行预测得到传播预测结果。通过本申请,在预测时结合传染病传播性质和演变规律,来提取特征进行传染病传播预测,提高了预测准确性。
-
公开(公告)号:CN118607532A
公开(公告)日:2024-09-06
申请号:CN202410691440.X
申请日:2024-05-30
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/279 , G06F18/214
Abstract: 本申请提供一种基于词表扩充的语种间语义对齐方法、装置及电子设备。该方法包括:从目标语言的语料中提取所述目标语言的token;将目标语言的token作为扩充token对原语言模型进行词表扩充;通过微调词表扩充后的原语言模型将所述扩充token嵌入到预训练语言的语义空间中。本申请提供的基于词表扩充的语种间语义对齐方法、装置及电子设备,将目标语言以新添加的token形式嵌入到预训练语言的语义空间中,增强模型处理多语言任务的能力的同时,提升了模型对目标语言的文本理解和生成能力。
-
公开(公告)号:CN116306649A
公开(公告)日:2023-06-23
申请号:CN202310181570.4
申请日:2023-02-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F40/284 , G06F40/242
Abstract: 本发明提供一种词向量的生成方法、装置、电子设备及存储介质,该方法包括:获取至少一个目标词,所述目标词包括所述词典中的至少一个第一词汇,和/或,所述知识库中的至少一个头实体,所述知识库中包括至少两个用于表示知识的三元组数据;确定各所述目标词对应的至少一个释义词,所述释义词包括用于解释所述第一词汇的第二词汇,和/或,所述头实体对应的关系和尾实体;基于所述目标词和所述释义词,确定词向量矩阵,所述词向量矩阵的每一行表示一个词向量,所述词向量用于表征所述目标词或所述释义词的语义信息。本发明提供的词向量的生成方法、装置、电子设备及存储介质可以增强词向量的可解释性。
-
公开(公告)号:CN115238068A
公开(公告)日:2022-10-25
申请号:CN202210709135.X
申请日:2022-06-21
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音转录文本聚类方法、装置、电子设备和存储介质,所述方法包括:提取各语音转录文本的向量表示;将各语音转录文本的向量表示输入至文本聚类模型,得到文本聚类模型输出的各语音转录文本的聚类结果;本发明以最小化相同样本语音转录文本的向量表示之间的距离,最大化不同样本语音转录文本的向量表示之间的距离,最小化样本语音转录文本的向量表示与其所属类别的语义向量之间的距离以及最大化样本语音转录文本的向量表示与其它类别的语义向量之间的距离为目标迭代更新训练得到文本聚类模型,最终使得文本聚类模型能够从文本层面和类别层面对各语音转录文本进行聚类,进而准确得到聚类结果。
-
公开(公告)号:CN114818733A
公开(公告)日:2022-07-29
申请号:CN202210555613.6
申请日:2022-05-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/253 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种媒体转引类型的识别方法、装置、电子设备及存储介质,属于自然语言处理领域。其中,该方法包括:将源媒体发布的源信息和转引媒体发布的转引信息输入预训练语言模型,分别得到源信息和转引信息的篇章表示向量以及句子表示向量;对源信息和转引信息的各句子表示向量进行双向交互式语义信息学习,得到双向的交互语义篇章表示向量;将基于预训练语言模型得到篇章表示向量和交互语义篇章表示向量进行融合,得到增强语义表示向量;根据所述增强语义表示向量进行媒体转引类型识别,得到媒体转引类型。通过本发明,实现了多层级、细粒度地增强篇章的语义表征能力,有效提升媒体转引类型的识别性能。
-
公开(公告)号:CN109325524A
公开(公告)日:2019-02-12
申请号:CN201811014739.2
申请日:2018-08-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及机器学习领域,具体涉及一种事件追踪与变化阶段划分方法、系统及相关设备,旨在提高计算效率。本发明的方法包括:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;然后进行话题聚类,选择待追踪事件对应的新闻集合,并查找出待追踪事件的起始发布时间;以起始发布时间为起点,绘制待追踪事件在单位时间内的信息量随时间变化的曲线,再进行等时间间隔采样,绘制出平滑后的演化包络线;求出极大值点的个数,进而计算出变化阶段的个数;计算出极大值点和极小值点;在每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。本发明提升了算法的效率,降低了时间复杂度、阈值依赖和形状依赖。
-
公开(公告)号:CN103455638A
公开(公告)日:2013-12-18
申请号:CN201310452292.8
申请日:2013-09-26
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明提出一种结合推理和半自动学习的行为知识提取方法和装置。本发明针对海量的开源文本,使用少量行为知识提取模板并利用行为知识间的语义关联,增量地从文本中获取行为前提、行为结果和行为间的时序关系三种主要的行为知识。本发明基于Bootstrapping分别获取上述三种行为知识,并基于行为知识间的语义关联,在Bootstrapping步骤中结合知识推理进行行为知识提取。本发明能够有效提高了行为知识提取的效率和质量,可在不同应用领域支持面向海量文本的行为自动建模和分析。
-
公开(公告)号:CN102867224A
公开(公告)日:2013-01-09
申请号:CN201210322641.X
申请日:2012-09-03
Applicant: 中国科学院自动化研究所
IPC: G06Q10/04
Abstract: 本发明公开了一种预测行为规划的期望效用的方法,所述规划是指为达到一个目标的行为的集合,该方法根据所观察到的证据获得行为规划的期望效用值,所述方法包括:步骤S1.根据证据计算状态出现的概率,所述证据指的是对行为和状态的观察结果,所述状态指的是行为的前提和结果的出现情况;步骤S2.根据状态出现的概率计算行为发生的概率;步骤S3.根据行为出现的概率计算行为结果出现的概率和行为的期望效用值;步骤S4.根据行为结果出现的概率和行为的期望效用值计算行为规划结果本。出现的概率和行为规划的期望效用值。本发明能够用于分析行为意图。
-
-
-
-
-
-
-
-
-