-
公开(公告)号:CN119272087A
公开(公告)日:2025-01-07
申请号:CN202411263584.1
申请日:2024-09-10
Applicant: 中国科学院软件研究所
Abstract: 本发明公开一种基于深度学习的空间数据索引智能选择方法及系统,属于空间大数据技术领域。所述方法包括:生成包含不同空间分布的合成空间数据集,所述合成空间数据集具有的特征还包括:数据倾斜特征和/或数据重叠特征;计算所述合成空间数据集的特征降维表示;在所述合成空间数据集上进行不同空间索引组合的空间查询,并根据空间索引组合所对应的性能表现得到标记数据;使用空间数据集的降维特征表示和标记数据进行有监督的机器学习训练,得到空间索引智能选择模型;基于所述空间索引智能选择模型获取空间数据的最优空间数据索引。本发明不仅可以提升空间大数据处理框架的空间查询效率,还可以应用于Apache Sedona这一空间大数据处理框架的典型代表中。
-
公开(公告)号:CN118312187A
公开(公告)日:2024-07-09
申请号:CN202410538112.6
申请日:2024-04-30
Applicant: 中国科学院软件研究所
Abstract: 本发明公开了一种基于转换语义的互操作接口自动生成方法及装置,属于软件技术领域。本发明根据应用领域互操作中的语义转换需求,定义参数知识图谱的数据模式;基于定义的参数知识图谱的数据模式,构建参数知识图谱的数据层;基于参数知识图谱检索参数实体间的连通路径,生成最优转换链;基于最优转换链得到原子函数,基于原子函数生成转换链代码;基于原子函数间的组合关系,利用测试来优化转换链代码;将转换链代码编译并封装为互操作接口。本发明有效降低了海量异构系统在语义互操作时存在的开发工作量和复杂性问题,能够在语义层面有效支持海量异构系统的动态协同需求。
-
公开(公告)号:CN115408517A
公开(公告)日:2022-11-29
申请号:CN202210863424.5
申请日:2022-07-21
Applicant: 中国科学院软件研究所
Abstract: 本发明提供了一种基于知识注入的双注意力网络的多模态讽刺意图识别方法,该方法包括:获取待识别数据内容,所述待识别数据内容包括若干 对;对文本中的词和图片中的对象进行编码,得到原始表示;基于待识别数据内容的隐性上下文信息对原始表示进行扩展,得到上下文感知表示;获取原始表示与上下文感知表示的注意力计算结果;根据注意力计算结果,计算原始跨模态对比表示和上下文感知跨模态对比表示;基于所述原始跨模态对比表示和所述上下文感知跨模态对比表示,计算讽刺意图识别结果。本发明有助于提高讽刺识别的整体性能,方便模型的实际应用,并对预测结果提供可解释性。
-
公开(公告)号:CN113961785A
公开(公告)日:2022-01-21
申请号:CN202111232572.9
申请日:2021-10-22
Applicant: 中国科学院软件研究所
IPC: G06F16/951 , H04L9/40 , H04L67/06
Abstract: 本发明公开一种互联网开源软件数据动态索引和存储的方法,涉及开源软件数据领域,针对互联网开源软件数据创建数据项,每个数据项由一个或多个数据单元组成,并添加如下数据描述:数据源HTTP链接、时效信息和身份认证信息;进行数据项的初始化操作;当收到数据项下载请求时,验证数据源的可访问性和估算数据规模,然后将下载的数据发送给请求方,标记数据状态;根据时效信息确定是否逾期,对于逾期的进行重新可访问性验证和估算数据规模,将下载的数据发送给请求方,更新数据状态;根据请求计数周期内的计数结果更新数据项的数据状态。本发明实现互联网开源软件数据的快速按需获取和较少的本地存储空间要求,提高存储利用率。
-
公开(公告)号:CN113064628A
公开(公告)日:2021-07-02
申请号:CN202110367226.5
申请日:2021-04-06
Applicant: 中国科学院软件研究所
Abstract: 本发明提供一种可追溯可验证的软件工程数据归档方法,涉及软件工程数据领域,基于数据单元和数据卷组织软件工程数据,保存数据单元间的衍生关系及衍生环境构建脚本和数据衍生脚本,提供自动化的数据再衍生和一致性验证机制。本发明实现了对准备归档和已归档的软件工程数据的自动化追溯和验证,能够帮助相关开发者、研究者获得高可靠的软件工程数据。
-
公开(公告)号:CN112527388A
公开(公告)日:2021-03-19
申请号:CN201910875960.5
申请日:2019-09-17
Applicant: 中国科学院软件研究所
IPC: G06F8/75 , G06F16/903
Abstract: 本发明提供一种面向GitHub大规模开源代码的快速代码文件溯源方法和装置。该方法包括:读取需要溯源的文件,构造符合GitHub代码搜索API标准的初始查询;执行查询并获取GitHub返回的查询结果;提取查询结果中的文件路径及所在的代码仓库;通过GitHub的代码仓库API获取代码仓库的属性;根据代码仓库的属性对代码仓库排序,并返回排序后的结果,与文件路径一起作为代码文件溯源结果。进一步地,对代码文件溯源结果进行人工验证,如果人工验证后认为准确性不符合要求,则重新构造代码搜索查询,并迭代溯源。本发明能够使用较小的代价辅助大规模代码仓库中的代码溯源。
-
公开(公告)号:CN107122443B
公开(公告)日:2019-09-17
申请号:CN201710269870.2
申请日:2017-04-24
Applicant: 中国科学院软件研究所
IPC: G06F16/33
Abstract: 本发明涉及一种基于Spark SQL的分布式全文检索系统及方法,包括SQL翻译层、数据源管理层、并行计算层、分布式存储层,在SQL翻译层中提出了基于SQL的全文检索文法以及全文检索SQL语句在SQL翻译层各模块间的翻译过程;在数据源管理模块设计了全文检索过程的并行化方法;检索优化模块中,设计了两种索引存储模型和相应的查询时原表数据还原策略,其中基于索引指定列存储模型设计了一种用于在查询时还原原表数据、复杂度为O(n)的分区对齐连接算法。在两种存储模型下,索引构建时间缩短为传统数据库的0.6%/0.5%,查询时间缩短为传统数据库的1%/10%,索引存储量减少为传统数据库的55.0%。增强了Spark SQL数据分析功能,能够满足传统业务迁移和现有业务对海量数据进行全文检索的需求。
-
公开(公告)号:CN105069560A
公开(公告)日:2015-11-18
申请号:CN201510457976.6
申请日:2015-07-30
Applicant: 中国科学院软件研究所
Abstract: 本发明涉及一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法,通过知识匹配和语义推理方法来实现对履历信息提取,得出履历中所隐含的工作时间、工作地点、工作单位、工作职位等信息;并可在此基础上对提取结果按照一定规则进行特征标识,支持基于领域特征进行履历的语义搜索。本发明提高了信息提取的正确率,实现对履历的自动化特征标识。
-
公开(公告)号:CN103761111A
公开(公告)日:2014-04-30
申请号:CN201410056681.3
申请日:2014-02-19
Applicant: 中国科学院软件研究所
Abstract: 一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统,包括建立基于规则的模型转换框架;建立部署执行层面的转换框架;根据Hadoop工作流模型生成BPEL流程模型,部署到BPEL引擎执行。本发明支持采用BPEL语言定义复杂的Hadoop工作流;方便企业将Hadoop工作流集成入企业内部系统或者将企业内部服务集成入Hadoop工作流,可以满足企业在业务流程中处理海量数据的需求。
-
公开(公告)号:CN101533407A
公开(公告)日:2009-09-16
申请号:CN200910081511.X
申请日:2009-04-10
Applicant: 中国科学院软件研究所
IPC: G06F17/30
Abstract: 本发明公开了一种ETL流程中异常数据检测方法,属于数据仓库构建领域。本发明的方法为:1)将ETL工具设计的ETL流程转换为ETL抽象图;ETL抽象图包括关系结点和转换结点,各结点通过有向边连接,记录数据流向;关系结点包括数据源、目的端数据库及各操作的输出记录集;转换结点包含输入记录集模式与输出记录集模式的属性映射关系及元组选择条件;2)将目的端的数据约束转换为统一形式的数据约束;3)以目的端数据库为起点,将目的端的数据约束反向投影到数据源端;4)使用得到的数据源端的数据约束集合进行数据检测。本发明将目的端的数据约束需求投影到数据源端,来检测数据源端中的非法数据,大大提高ETL过程的效率。
-
-
-
-
-
-
-
-
-