-
公开(公告)号:CN110083699B
公开(公告)日:2021-01-12
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN109977227B
公开(公告)日:2021-06-22
申请号:CN201910205999.6
申请日:2019-03-19
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/289 , G06F40/12 , G06N3/00 , G06N3/12
Abstract: 本发明属于信息分类领域,具体涉及了一种基于特征编码的文本特征提取方法、系统、装置,旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括:对获取的文本预处理,获得词候选特征序列;基于词候选特征序列,生成多个二进制编码;采用基因遗传算法筛选二进制编码,获得最优二进制编码;解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列,并使用基因遗传算法的自动筛选功能,对特征进行最大化的全局最优挑选,能够有效地筛选出最小有效特征集。
-
公开(公告)号:CN110083699A
公开(公告)日:2019-08-02
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN109977227A
公开(公告)日:2019-07-05
申请号:CN201910205999.6
申请日:2019-03-19
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于信息分类领域,具体涉及了一种基于特征编码的文本特征提取方法、系统、装置,旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括:对获取的文本预处理,获得词候选特征序列;基于词候选特征序列,生成多个二进制编码;采用基因遗传算法筛选二进制编码,获得最优二进制编码;解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列,并使用基因遗传算法的自动筛选功能,对特征进行最大化的全局最优挑选,能够有效地筛选出最小有效特征集。
-
公开(公告)号:CN116306649A
公开(公告)日:2023-06-23
申请号:CN202310181570.4
申请日:2023-02-20
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F40/284 , G06F40/242
Abstract: 本发明提供一种词向量的生成方法、装置、电子设备及存储介质,该方法包括:获取至少一个目标词,所述目标词包括所述词典中的至少一个第一词汇,和/或,所述知识库中的至少一个头实体,所述知识库中包括至少两个用于表示知识的三元组数据;确定各所述目标词对应的至少一个释义词,所述释义词包括用于解释所述第一词汇的第二词汇,和/或,所述头实体对应的关系和尾实体;基于所述目标词和所述释义词,确定词向量矩阵,所述词向量矩阵的每一行表示一个词向量,所述词向量用于表征所述目标词或所述释义词的语义信息。本发明提供的词向量的生成方法、装置、电子设备及存储介质可以增强词向量的可解释性。
-
公开(公告)号:CN109325524A
公开(公告)日:2019-02-12
申请号:CN201811014739.2
申请日:2018-08-31
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及机器学习领域,具体涉及一种事件追踪与变化阶段划分方法、系统及相关设备,旨在提高计算效率。本发明的方法包括:从多个不同的新闻传播通道中采集新闻数据并存入数据库中;然后进行话题聚类,选择待追踪事件对应的新闻集合,并查找出待追踪事件的起始发布时间;以起始发布时间为起点,绘制待追踪事件在单位时间内的信息量随时间变化的曲线,再进行等时间间隔采样,绘制出平滑后的演化包络线;求出极大值点的个数,进而计算出变化阶段的个数;计算出极大值点和极小值点;在每个极大值点的前后,分别根据预设的信息量百分比选择分割点,从而划分出不同的变化阶段。本发明提升了算法的效率,降低了时间复杂度、阈值依赖和形状依赖。
-
公开(公告)号:CN112417102A
公开(公告)日:2021-02-26
申请号:CN202011348511.4
申请日:2020-11-26
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
Abstract: 本发明实施例提供了一种语音查询方法、装置、服务器和可读存储介质,其中方法包括:获取待处理音频,对所述待处理音频进行语音识别,得到目标字符文本;将所述目标字符文本转换为第一拼音文本,根据字典和所述第一拼音文本,确定所述目标字符文本的目标关键词,所述字典中包含多个关键词以及与每个关键词对应的词组拼音;生成包含所述目标关键词的查询语句,在知识图谱中根据所述查询语句获取所述待处理音频的答案文本;输出所述答案文本,可以有效提高语义解析的准确率,进而提高了语音查询的有效性和准确性。
-
公开(公告)号:CN108804412A
公开(公告)日:2018-11-13
申请号:CN201810331227.2
申请日:2018-04-13
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/2785 , G06F17/2715 , G06F17/2735 , G06Q50/01
Abstract: 本发明涉及自然语言处理领域,提出了一种基于社会媒体的多层级情感分析方法,旨在解决社会媒体中文章灵活多变,训练数据缺失,难以在有限数据集上取得满意的情感分类效果的问题。该方法包括:获取待进行情感分析的社会媒体的文本信息;对上述文本信息进行情感特征分析,根据情感特征分析结果确定上述文本信息的情感。对于来自社会媒体的文章,从词语和篇章两个层级进行优化处理。在词语层级上,进行泛化情感词抽取,以自动化扩充领域词典;在篇章层级上,设计自学习机制,以自动扩充训练样本。本发明实现了对从词和篇章两个层级切入,对社会媒体情感分析中的情感词典和分析模型进行优化。
-
公开(公告)号:CN116187443B
公开(公告)日:2024-05-24
申请号:CN202310149607.5
申请日:2023-02-10
Applicant: 中国科学院自动化研究所
IPC: G06N5/022
Abstract: 本发明涉及数据处理技术领域,尤其涉及一种基于多维符号动力学的因果强度检测方法和检测装置。其中,因果强度检测方法包括,首先根据时间序列构建相空间中的吸引子,然后针对吸引子中的每个元素点,基于曼哈顿距离计算方法计算元素点的最近邻点,计算每个最近邻点对应的第一模式,对每个元素点的所有最近邻点的第一模式进行平均处理,得到每个元素点的平均模式,根据平均模式得到每个元素点的真实平均模式和预测平均模式,根据真实平均模式和预测平均模式计算因果强度值。依据本发明的因果强度检测方法可以提高因果强度值的检测效率。
-
公开(公告)号:CN116562299A
公开(公告)日:2023-08-08
申请号:CN202310143177.6
申请日:2023-02-08
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F40/211 , G06F40/295 , G06N3/0442
Abstract: 本发明提供一种文本信息的论元抽取方法、装置、设备及存储介质,方法包括:分析待处理的文本信息,得到文本信息对应的句法图;将句法图输入至预先设置的语义图生成模型中,得到语义图生成模型输出的文本信息对应的语义图;其中,语义图生成模型用于基于句法图中的向量特征构建语义图;将语义图和在文本信息中预先设置的触发词输入至预先设置的游走模型中,得到游走模型输出的目标路径和目标路径对应的论元抽取结果;其中,游走模型用于:以触发词对应的节点为起点,基于游走路径确定目标路径,并确定通过目标路径抽取的目标论元及其对应的类型,作为论元抽取结果。本发明实施例有效提高了模型的可解释性。
-
-
-
-
-
-
-
-
-