基于半监督学习的软件工程知识库的自动化构建实现方法

    公开(公告)号:CN106875014A

    公开(公告)日:2017-06-20

    申请号:CN201710120880.X

    申请日:2017-03-02

    Inventor: 董翔 沈备军 陈凯

    CPC classification number: G06N5/022 G06F17/30289

    Abstract: 一种基于半监督学习的软件工程知识库的自动化构建实现方法,解决软件工程领域知识库现阶段较为匮乏、概念数目难以达到大规模程度、概念间的关系较为稀疏、同时需要投入大量人工精力的问题,本发明通过:一、根据标签传播,采用维基百科和StackOverflow数据源扩充软件工程领域的概念集合;二、构建对软件工程领域概念进行上下位关系抽取的机器学习特征;三、分别采用模版匹配和规则匹配的方法自动化标注关系抽取的正例和反例训练数据;四、根据迭代的半监督的学习方法进行概念间关系的抽取工作,并结合评估规则优化每次迭代的抽取结果;五、采用RDF语言对知识库进行标准化构建得以实现。

    N-Gram的检测字节码相似度的方法

    公开(公告)号:CN110362343A

    公开(公告)日:2019-10-22

    申请号:CN201910653076.7

    申请日:2019-07-19

    Abstract: 一种基于N-Gram的检测字节码相似度的方法,通过将待比较的可执行二进制文件用N元语法模型转化为字节码,采用N-Gram hash算法分析字节码并得到对应的hash值,最后通过winnowing算法从中提取特征后计算得到相似度。本发明能够对Java可执行文件进行字节码层面的相似度判断,并且使用了hash算法分析提高了方法执行的效率,从而能够广泛应用在Java字节码混淆程度评估,代码克隆检测等方面。

    基于开发人员社交网络的软件众包任务推荐系统及方法

    公开(公告)号:CN108647216A

    公开(公告)日:2018-10-12

    申请号:CN201710156008.0

    申请日:2017-03-16

    Abstract: 一种信息过滤技术领域的基于开发人员社交网络的软件众包任务推荐方法和系统,将软件众包平台上的开发人员分为报名过任务的活跃人员和从未报名过任务的非活跃人员;然后以活跃人员为节点、好友关系为线建立社交网络,并根据社交网络内互为好友的开发人员浏览和报名历史任务的重合度,优化社交网络;在建立和优化社交网络的同时对活跃人员报名后未获得或完成任务的情况给予评分,得到历史任务评分;最后根据优化的社交网络和历史任务评分建立推荐模型为活跃人员推荐目标任务,对于非活跃人员根据优化的社交网络找到与之关联的活跃好友,在修正推荐模型后为该非活跃人员推荐目标任务。本发明能够解决推荐目标任务的冷启动问题并提高推荐准确度。

    构建调用链转换图及引导生成X.509证书变种方法

    公开(公告)号:CN113704078A

    公开(公告)日:2021-11-26

    申请号:CN202010434699.8

    申请日:2020-05-21

    Abstract: 一种构建调用链转换图及引导生成X.509证书变种方法,通过构建测试种子集并输入目标测试程序,得到动态执行中的函数调用链信息并映射为调用链转换图中的初始节点;循环对调用链转换图中的取样节点通过变种算子生成新的变种测试用例并根据变种测试用例对应更新调用链转换图,直至生成目标数量的测试用例。本发明充分利用了测试用例集生成过程中的函数调用链信息,通过调用链转换图有效快速的生成多样化的测试用例,从而提升测试的效率。

    基于文本编辑和语法纠错的多轮对话改写方法及系统

    公开(公告)号:CN113609824A

    公开(公告)日:2021-11-05

    申请号:CN202110912343.5

    申请日:2021-08-10

    Abstract: 一种基于文本编辑和语法纠错的多轮对话改写方法及系统,首先利用文本标注算法对收集到的对话数据文本进行单词级别的标注生成文本标注数据,用于对基于变形的双向编码表征模型进行微调得到序列标注模型,并根据该模型的预测序列中每个单词的分类标签对对话历史和不完整语句进行编辑,最后对改写后的文本进行语法纠错建模提高语句的流畅度。本发明能够提高多轮对话改写的准确度,在对话中利用文本编辑和语法纠错的方法,有效解决对话系统中指代和省略的问题,提高对话语句的完整度。

    跨社区的程序员编程能力兴趣评估系统及方法

    公开(公告)号:CN108629466A

    公开(公告)日:2018-10-09

    申请号:CN201710156026.9

    申请日:2017-03-16

    Abstract: 一种跨社区的程序员编程能力兴趣评估系统及方法,包括:数据解析模块、身份关联模块、编程词条集合构建模块、能力建模模块和兴趣建模模块,其中:数据解析模块提取问答社区和开源软件社区中的信息并传输至编程词条集合构建模块、身份关联模块、能力建模模块和兴趣建模模块,身份关联模块对同一程序员的在两个社区的不同账号进行身份关联得到身份关联信息,编程词条集合构建模块构建编程词条集合,能力建模模块根据编程词条集合和身份关联信息计算程序员的综合能力分数,兴趣建模模块根据编程词条集合和身份关联信息计算程序员的综合兴趣分数,本发明对程序员编程能力和兴趣评分结果的准确度高,同时避免了繁琐的人为参与过程,提高了评估效率。

    基于库源码和客户源码挖掘的API误用检测方法及系统

    公开(公告)号:CN115705290A

    公开(公告)日:2023-02-17

    申请号:CN202110916755.6

    申请日:2021-08-11

    Abstract: 一种基于库源码和客户源码挖掘的API误用检测方法,分别通过频繁子图挖掘算法挖掘客户代码中频繁出现的API使用模式作为API使用模式约束、通过收集库源码中每个目标API类及其父类的所有方法进行代码解析构建出抽象语法树,然后使用推导策略从中抽取出API库源码约束;再将两种约束表示成API使用图后进行约束合并和约束优化,并采用图匹配算法进行API误用检测,根据得到的候选API误用计算其误用可疑程度,实现API误用检测。本发明利用第三方库源码来挖掘到更全面和精确的API约束,有效解决来自客户代码的API约束缺乏全面性和充足信息的问题,显著提高API误用检测的召回率和精确度。

    自动生成编程规范问题答案的系统及方法

    公开(公告)号:CN112328800A

    公开(公告)日:2021-02-05

    申请号:CN201910717702.4

    申请日:2019-08-05

    Abstract: 一种自动生成编程规范问题答案的系统及方法,包括:子图匹配模块、机器阅读理解模块和学习排序模块,本发明通过构建编程规范知识图谱,通过子图匹配模块将自然语言问题转换为符合SPARQL协议的语句,利用编程规范知识图谱中结构化的信息查询得到候选答案。再通过机器阅读理解模块从自然语言问题中选取所有的名词、名词短语和主语,将这些词标记为关键词,使用Apache Solr引擎搜索得到最相关的10个自然段,并且使用基于TF‑IDF的算法对搜索得到的自然段进行打分,再对每个自然段使用训练好的深度学习模型得到候选答案,最后通过学习排序模块对候选答案进行合并生成新的候选答案,然后使用逻辑回归分类器按照正确的概率对新的候选答案进行排序。

    软件众包的任务型对话系统及方法

    公开(公告)号:CN111078844A

    公开(公告)日:2020-04-28

    申请号:CN201811211909.6

    申请日:2018-10-18

    Abstract: 一种软件众包的任务型对话系统及方法,包括:意图提取模块、槽填充模块、对话管理模块,任务执行模块和答案生成模块,其中:意图提取模块从用户的自然语言对话中提取出用户意图,槽填充模块根据用户意图填充关键槽位信息,对话管理模块管理多轮对话的上下文关系以及维护空缺的槽位信息,任务执行模块根据完整的槽位信息调用软件众包平台提供的API来执行具体任务,答案生成模块通过模板生成最终的答案或者发起新一轮的提问,要求用户对确实的槽位信息进行补充回答。本发明通过知识图谱利用软件工程领域的知识来更准确地提取用户的意图,从而帮助用户更高效地寻找到目标结果,提高对话系统回答的准确度。

    构建调用链转换图及引导生成X.509证书变种方法

    公开(公告)号:CN113704078B

    公开(公告)日:2024-02-06

    申请号:CN202010434699.8

    申请日:2020-05-21

    Abstract: 一种构建调用链转换图及引导生成X.509证书变种方法,通过构建测试种子集并输入目标测试程序,得到动态执行中的函数调用链信息并映射为调用链转换图中的初始节点;循环对调用链转换图中的取样节点通过变种算子生成新的变种测试用例并根据变种测试用例对应更新调用链转换图,直至生成目标数量的测试用例。本发明充分利用了测试用例集生成过程中的函数调用链信息,通过调用链转换图有效快速的生成多样化的测试用例,从而提升测试的效率。

Patent Agency Ranking