-
公开(公告)号:CN109977227B
公开(公告)日:2021-06-22
申请号:CN201910205999.6
申请日:2019-03-19
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/289 , G06F40/12 , G06N3/00 , G06N3/12
Abstract: 本发明属于信息分类领域,具体涉及了一种基于特征编码的文本特征提取方法、系统、装置,旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括:对获取的文本预处理,获得词候选特征序列;基于词候选特征序列,生成多个二进制编码;采用基因遗传算法筛选二进制编码,获得最优二进制编码;解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列,并使用基因遗传算法的自动筛选功能,对特征进行最大化的全局最优挑选,能够有效地筛选出最小有效特征集。
-
公开(公告)号:CN110083699A
公开(公告)日:2019-08-02
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN110083699B
公开(公告)日:2021-01-12
申请号:CN201910202638.6
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。
-
公开(公告)号:CN109977227A
公开(公告)日:2019-07-05
申请号:CN201910205999.6
申请日:2019-03-19
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于信息分类领域,具体涉及了一种基于特征编码的文本特征提取方法、系统、装置,旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括:对获取的文本预处理,获得词候选特征序列;基于词候选特征序列,生成多个二进制编码;采用基因遗传算法筛选二进制编码,获得最优二进制编码;解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列,并使用基因遗传算法的自动筛选功能,对特征进行最大化的全局最优挑选,能够有效地筛选出最小有效特征集。
-
公开(公告)号:CN119227127A
公开(公告)日:2024-12-31
申请号:CN202411186071.5
申请日:2024-08-27
Applicant: 中国科学院自动化研究所
IPC: G06F21/62 , G06F16/583 , G06F16/58 , G06F16/51
Abstract: 本发明提供一种针对检索模型的在线隐私保护方法、装置及存储介质。该针对检索模型的在线隐私保护方法包括:获取第一相似矩阵;所述第一相似矩阵指查询图像集中的图像样本之间的语义相似矩阵;所述查询图像集中包含多个图像样本;基于所述第一相似矩阵确定所述查询图像集的干扰。本发明提供的针对检索模型的在线隐私保护方法、装置及存储介质,基于图像样本间的语义相似性来指导生成干扰,来提供可靠的图像保护,绕过了检索模型的检测和识别,提高了信息的安全性。
-
公开(公告)号:CN118643191A
公开(公告)日:2024-09-13
申请号:CN202410681252.9
申请日:2024-05-29
Applicant: 中国科学院自动化研究所
IPC: G06F16/903 , G06F16/901 , G06F16/907 , G06F16/35 , G06F18/213
Abstract: 本发明提供一种跨模态检索方法、装置、设备、存储介质及程序产品,应用于数据处理技术领域。该方法包括:获取训练数据,所述训练数据包括第一数据和第二数据,所述第一数据为第一模态数据,所述第二数据为第二模态数据;确定所述第一数据的第一特征编码和所述第二数据的第二特征编码;基于所述第一特征编码确定第一模态哈希编码,基于所述第二特征编码确定第二模态哈希编码;将所述第一模态哈希编码和所述第二模态哈希编码对应存储到检索数据库;其中,所述检索数据库用于实现数据的跨模态检索。
-
公开(公告)号:CN112417102B
公开(公告)日:2024-03-22
申请号:CN202011348511.4
申请日:2020-11-26
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
Abstract: 本发明实施例提供了一种语音查询方法、装置、服务器和可读存储介质,其中方法包括:获取待处理音频,对所述待处理音频进行语音识别,得到目标字符文本;将所述目标字符文本转换为第一拼音文本,根据字典和所述第一拼音文本,确定所述目标字符文本的目标关键词,所述字典中包含多个关键词以及与每个关键词对应的词组拼音;生成包含所述目标关键词的查询语句,在知识图谱中根据所述查询语句获取所述待处理音频的答案文本;输出所述答案文本,可以有效提高语义解析的准确率,进而提高了语音查询的有效性和准确性。
-
公开(公告)号:CN108304502B
公开(公告)日:2020-10-02
申请号:CN201810044908.0
申请日:2018-01-17
Applicant: 中国科学院自动化研究所
IPC: G06F16/9535 , G06K9/62
Abstract: 本发明涉及一种基于海量新闻数据的快速热点检测方法及系统,所述快速热点检测方法包括:对多个待处理新闻文本进行链式聚类,得到粗聚类集合;基于快速搜索和寻找密度峰值方法,对所述粗聚类集合进行搜索,得到细聚类集合;提取所述细聚类集合中的代表性短语,所述代表性短语为热点词语。本发明可直接对多个待处理新闻文本进行链式聚类,得到粗聚类集合;进一步基于快速搜索和寻找密度峰值方法,进行聚类,从而得到细聚类集合,并从中提取代表性短语,从而可快速捕捉到新闻文本中的热点词语,可提高计算效率和准确性。
-
公开(公告)号:CN110413787A
公开(公告)日:2019-11-05
申请号:CN201910687147.5
申请日:2019-07-26
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
Abstract: 本发明实施例公开了一种文本聚类方法、装置、终端和存储介质,其中,方法包括,获取媒体中的文本数据,并对文本数据进行标签分析处理,得到N个标签,根据N个标签中各个标签之间的相似度对N个标签进行聚类处理,得到M个标签集合,在检测到可视化事件时,显示M个标签集合中每一个标签集合对应的显示标识信息,通过实施上述方法,可以基于文本中标签的相似度对文本进行聚类,提升了对文本的聚类效率。
-
公开(公告)号:CN109948047A
公开(公告)日:2019-06-28
申请号:CN201910047874.5
申请日:2019-01-18
Applicant: 中国科学院自动化研究所
IPC: G06F16/9535 , G06Q50/00
Abstract: 本发明涉及信息检索领域,具体涉及一种基于转移熵的文化基因排序方法与系统及相关设备,目的在于降低计算的复杂度,并提高排序准确度。本发明的文化基因排序方法包括:针对待排序的每种文化基因,在参与该文化基因传播的所有用户中,根据预设的关联用户数量阈值,筛选出传播该文化基因的关键用户;针对每个关键用户,分别计算该关键用户的每个关联用户到该关键用户的转移熵,进而计算该关键用户的影响力值;根据关键用户的影响力值,分别计算每种文化基因的流行度值;根据每种文化基因的流行度值,分别计算每种文化基因的得分,并根据得分进行排序。本发明提供了一种对文化基因流行度自动排序的方法,降低了计算复杂度,具有较高的排序准确度。
-
-
-
-
-
-
-
-
-