-
公开(公告)号:CN113035303A
公开(公告)日:2021-06-25
申请号:CN202110179056.8
申请日:2021-02-09
Applicant: 北京工业大学
Abstract: 本发明公开了一种中文电子病历的命名实体类别标注方法与系统,本发明主要解决如何基于联合神经网络模型在多分类问题下更准确地对中文电子病历中的命名实体进行识别和标注。主要包括:获取中文词语的词向量表示、基于HmapCNN模型对实体的结构化特征进行预提取、基于双向LSTM模型提取实体的上下文序列特征、基于CRF进行实体的序列标注,得到最终标注结果。本发明对模型进行进一步封装,设计开发基于B/S架构的交互系统,提供了对用户友好的图形化展示界面,便于对模型的使用和对结果的展示和导出等处理。
-
公开(公告)号:CN111309906A
公开(公告)日:2020-06-19
申请号:CN202010083328.X
申请日:2020-02-09
Applicant: 北京工业大学
Abstract: 一种基于集成神经网络的长短混合型文本分类优化方法,属于自然语言处理领域,包括初始化、预处理、构建长文本分类算法、构建短文本分类算法、构建集成分类算法与迭代中止六个步骤。该方法首先使用基于预测的预训练词向量与基于统计的预训练词向量构建文本数据的双通道表示;其次在双通道文本表示基础上,提出融合通道特征的卷积优化算法,提高了传统卷积算法在文本数据上的空间特征提取能力;然后基于优化后的卷积算法分别设计了适用于长文本分类与短文本分类的独立算法;最后使用集成策略对独立算法进行自动评估与加权融合,集成后的算法在混合文本数据分类场景中表现出优异的性能,相比于已有经典算法具有更高的分类准确率与分类稳定性。
-
公开(公告)号:CN109977113A
公开(公告)日:2019-07-05
申请号:CN201910070748.1
申请日:2019-01-25
Applicant: 北京工业大学
Abstract: 本发明公开一种用于医疗影像数据的基于布隆过滤器的HBase多级索引设计方法,采用为每个随机函数都单独分配一组位向量的方式减小了布隆过滤器的假阳性误判率,并且将其作为判断待检索数据是否在集合中的第一步。之后对现有的HBase二级索引提出改进方法,将减少数据的网络IO次数作为主要优化点,独特的行键设计保证了数据表和索引表能够分布在同一个Region上,并且设计了一种抽样散列法解决了Region的写热点问题,从而即利用了负载均衡的特性,又在一定程度上加快了检索效率。
-
公开(公告)号:CN109816010A
公开(公告)日:2019-05-28
申请号:CN201910052118.1
申请日:2019-01-21
Applicant: 北京工业大学
Abstract: 本发明公开一种用于航班延误预测的基于选择性集成的CART增量学习分类方法。针对航班延误预测模型面对新的航班数据不能有效更新模型问题,以及集成分类器规模庞大影响预测性能的弊端。将CART决策树算法与Learn++增量学习框架结合,提出了I-CART方法,实现了对于新数据的增量学习,高效更新预测模型;采用kappa系数作为基分类器投票权重,进一步降低分类错误率;探究基分类器间差异性与准确率关系,设计了两种针对集成分类器的选择方案VS(纵向划线法)与HS(横向划线法),减小集成分类器规模。本发明能够提高航班延误预测模型对于新数据的学习效率及分类性能,提出的选择性集成方案能显著减小最终集成分类器的规模,提高航班延误预测分类器性能。
-
公开(公告)号:CN109800437A
公开(公告)日:2019-05-24
申请号:CN201910099671.0
申请日:2019-01-31
Applicant: 北京工业大学
IPC: G06F17/27
Abstract: 一种基于特征融合的命名实体识别方法属于计算机领域,通过两个方面来提取和融合不同粒度的文本特征,概念特征和非概念词特征,从而来提高命名实体识别的准确率并降低计算量。方法包括:数据预处理模块、特征构建模块、训练命名实体网络模型模块和命名实体分类器模块,其中特征模块包括语义特征提取、词特征提取、字符特征提取、特征融合四个子模块。在本方法中结合神经网络模型LSTM(Long Short-Term Memory)或GRU(Gated Recurrent Unit)的时序记忆特点来考虑命名实体任务的上下文信息,最后使用softmax预测实体类别标签。在模型构建过程中,可以利用稀疏数据作为训练集并对LSTM和GRU两种神经网络模型进行对比,确保本发明在实体识别任务上能取得令人满意的效果。
-
公开(公告)号:CN104536977B
公开(公告)日:2017-12-08
申请号:CN201410736156.6
申请日:2014-12-04
Applicant: 北京工业大学
IPC: G06F17/30
Abstract: 一种基于查询状态机的XML流数据查询方法,属于数据库技术领域,针对各个查询步中采用路径表达式方式表示的筛选条件,在预处理后,采用相同方法构造筛选状态机,合并到整体的查询状态机中。路径表达式中各查询步的状态机上配置了缓冲队列,根据查询需求将入队动作,清空动作,上传动作和输出动作附加在不同的状态转移上。XML流数据的查询过程从查询状态机的初始状态开始,当输入的XML标签和转移标记匹配时,执行附加的处理动作,完成状态转移:在末端查询步的状态机中,将输入的XML元素加入到缓冲队列;这种查询方法支持采用多重查询步所组成的路径表达式描述的查询模式,能够有效地实现XML格式等复杂类型数据的流数据查询。
-
公开(公告)号:CN103714290B
公开(公告)日:2016-08-17
申请号:CN201310730756.7
申请日:2013-12-26
Applicant: 北京工业大学
IPC: G06F21/56
Abstract: 本发明涉及一种软件行为获取、监控与验证方法,包括:获取软件行为;监控软件行为;验证软件行为。针对现有软件行为监测、分析和验证方法中存在的不仅需要修改程序源码,而且编程负担较重,缺乏监控与分析粒度调控等问题,本发明从基于Java的面向对象编程语言的行为和属性的分析出发,结合UML和OCL技术,提供一种较为通用的软件行为获取、监控与验证方法,可以自动生成监控所需的AOP方面类,减少编码人员工作量;在不修改待验证系统源代码的情况下进行监控与验证;大量使用接口和动态链接库,易于维护和修改。使用本发明对软件系统进行监控和验证,可以对软件系统的可信性进行度量,并且保护软件系统正常运行。
-
公开(公告)号:CN104881608A
公开(公告)日:2015-09-02
申请号:CN201510262308.8
申请日:2015-05-21
Applicant: 北京工业大学
CPC classification number: G06F21/577 , G06F21/562
Abstract: 一种基于模拟浏览器行为的XSS漏洞动态检测方法,爬虫模块含有浏览器的内核,可以模拟浏览器行为来解析JavaScript和加载Ajax以得到页面中隐藏式注入点,相比传统而言,该系统大大增加了对注入点的覆盖。漏洞检测模块使用黑盒测试的方法,在提交攻击向量后,通过模拟浏览器行为检测页面是否有异常情况出现,即能够检测浏览器是否执行了网页脚本,直接判断出当前注入点是否有漏洞,相比传统方法更加准确。此外,该方法完全采用python语言开发,具有易于维护和进行二次开发的特点,对XSS漏洞的检测与研究有非常重要的应用价值。
-
公开(公告)号:CN103714290A
公开(公告)日:2014-04-09
申请号:CN201310730756.7
申请日:2013-12-26
Applicant: 北京工业大学
IPC: G06F21/56
Abstract: 本发明涉及一种软件行为获取、监控与验证方法,包括:获取软件行为;监控软件行为;验证软件行为。针对现有软件行为监测、分析和验证方法中存在的不仅需要修改程序源码,而且编程负担较重,缺乏监控与分析粒度调控等问题,本发明从基于Java的面向对象编程语言的行为和属性的分析出发,结合UML和OCL技术,提供一种较为通用的软件行为获取、监控与验证方法,可以自动生成监控所需的AOP方面类,减少编码人员工作量;在不修改待验证系统源代码的情况下进行监控与验证;大量使用接口和动态链接库,易于维护和修改。使用本发明对软件系统进行监控和验证,可以对软件系统的可信性进行度量,并且保护软件系统正常运行。
-
公开(公告)号:CN100534084C
公开(公告)日:2009-08-26
申请号:CN200610089649.0
申请日:2006-07-10
Applicant: 北京工业大学
IPC: H04L29/00
Abstract: 本发明提供一种远程XML数据更新方法以及系统,所述方法包括:(1)数据服务器将来自远端客户机的数据访问请求分解为数据处理指令序列,完成XML数据查询;(2)在收到相同数据访问请求时,根据两次请求之间发生的后台数据变化和数据处理指令序列,获取数据更新的定位信息,构造并返回XQuery语言表示的数据更新指令序列;(3)客户机通过执行数据更新指令序列完成数据更新;所述系统包括客户机、数据服务器、XML数据库和用于保存数据处理序列和数据库变化日志的网络存储装置;本发明通过减少网络数据传输量来提高数据更新的速度以及应用的稳定性,客户机仅需要配备标准的XQuery处理器。
-
-
-
-
-
-
-
-
-