-
公开(公告)号:CN112069310B
公开(公告)日:2023-05-02
申请号:CN202010560046.4
申请日:2020-06-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于主动学习策略的文本分类方法,包括:获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;重复训练直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。
-
公开(公告)号:CN107291823A
公开(公告)日:2017-10-24
申请号:CN201710380223.9
申请日:2017-05-25
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及一种基于不一致窗口的索引表与主文件一致性强度的度量方法,该方法包括有:向存在的数据库索引软件读取主文件中记录的步骤;对记录进行不同进程下的读或写操作得到度量操作的步骤;多进程下的并发执行串行化获得执行序列的步骤;对执行序列按照度量操作结束时间先后排序获得结果序列的步骤;最后是根据不一致窗口度量方法计算索引技术的不一致窗口大小的步骤。本发明的方法解决了现有数据库索引技术的缺陷,即没有一种定量去度量索引表与主文件之间的一致性强度的方法,也无法比较在属于同一种一致性模型下数据库索引技术的一致性强度。
-
公开(公告)号:CN104951672A
公开(公告)日:2015-09-30
申请号:CN201510346970.1
申请日:2015-06-19
Applicant: 中国科学院计算技术研究所
IPC: G06F19/22
Abstract: 本发明涉及生物信息技术和计算生物学领域,特别涉及一种第二代、三代基因组测序数据联用的拼接方法及系统,该方法包括获取第二代基因组测序数据,通过所述第二代基因组测序数据中部分碱基序列reads的质量信息,对所述第二代基因组测序数据进行预处理,构建de Brui jn图;对所述de Brui jn图进行测序错误处理,生成新的de Brui jn图,对所述新的de Brui jn图进行压缩,生成压缩de Brui jn图,获取所述压缩de Brui jn图中压缩边的序列重数;获取第三代基因组测序数据,将所述第三代基因组测序数据回帖到所述第二代基因组测序数据的单分子图gapped fragments上,通过最优排布拆解压缩de Brui jn图,并填充最优排布之间的空隙,以完成基因组测序数据的拼接。
-
公开(公告)号:CN112069310A
公开(公告)日:2020-12-11
申请号:CN202010560046.4
申请日:2020-06-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于主动学习策略的文本分类方法,包括:获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;重复训练直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。
-
公开(公告)号:CN107291823B
公开(公告)日:2020-02-28
申请号:CN201710380223.9
申请日:2017-05-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于不一致窗口的索引表与主文件一致性强度的度量方法,该方法包括有:向存在的数据库索引软件读取主文件中记录的步骤;对记录进行不同进程下的读或写操作得到度量操作的步骤;多进程下的并发执行串行化获得执行序列的步骤;对执行序列按照度量操作结束时间先后排序获得结果序列的步骤;最后是根据不一致窗口度量方法计算索引技术的不一致窗口大小的步骤。本发明的方法解决了现有数据库索引技术的缺陷,即没有一种定量去度量索引表与主文件之间的一致性强度的方法,也无法比较在属于同一种一致性模型下数据库索引技术的一致性强度。
-
公开(公告)号:CN104951673B
公开(公告)日:2018-03-30
申请号:CN201510346396.X
申请日:2015-06-19
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及分子生物学领域的基因组序列拼接领域,本发明提出一种基因组酶切图谱拼接方法及系统,该方法包括对所述基因组酶切图谱中基因序列分子进行预处理操作,获取新基因序列分子,将所述新基因序列分子切成FLES片段,其中所述FLES片段为片段总长固定且无需具有相同酶切位点数目的基因片段;对所述FLES片段进行聚类,生成代表FLES集合,根据所述代表FLES集合对所述基因序列分子进行纠错;根据所述代表FLES集合与纠错后的所述基因序列分子,构建FLES图,对所述FLES图进行路径搜索,获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点序列,以完成基因组酶切图谱拼接。本发明能够快速、准确地构建基因组的酶切位点图谱。
-
公开(公告)号:CN104951672B
公开(公告)日:2017-08-29
申请号:CN201510346970.1
申请日:2015-06-19
Applicant: 中国科学院计算技术研究所
IPC: G06F19/22
Abstract: 本发明涉及生物信息技术和计算生物学领域,特别涉及一种第二代、三代基因组测序数据联用的拼接方法及系统,该方法包括获取第二代基因组测序数据,通过所述第二代基因组测序数据中部分碱基序列reads的质量信息,对所述第二代基因组测序数据进行预处理,构建de Brui jn图;对所述de Brui jn图进行测序错误处理,生成新的de Brui jn图,对所述新的de Brui jn图进行压缩,生成压缩de Brui jn图,获取所述压缩de Brui jn图中压缩边的序列重数;获取第三代基因组测序数据,将所述第三代基因组测序数据回帖到所述第二代基因组测序数据的单分子图gapped fragments上,通过最优排布拆解压缩de Brui jn图,并填充最优排布之间的空隙,以完成基因组测序数据的拼接。
-
公开(公告)号:CN104951673A
公开(公告)日:2015-09-30
申请号:CN201510346396.X
申请日:2015-06-19
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及分子生物学领域的基因组序列拼接领域,本发明提出一种基因组酶切图谱拼接方法及系统,该方法包括对所述基因组酶切图谱中基因序列分子进行预处理操作,获取新基因序列分子,将所述新基因序列分子切成FLES片段,其中所述FLES片段为片段总长固定且无需具有相同酶切位点数目的基因片段;对所述FLES片段进行聚类,生成代表FLES集合,根据所述代表FLES集合对所述基因序列分子进行纠错;根据所述代表FLES集合与纠错后的所述基因序列分子,构建FLES图,对所述FLES图进行路径搜索,获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点序列,以完成基因组酶切图谱拼接。本发明能够快速、准确地构建基因组的酶切位点图谱。
-
-
-
-
-
-
-