-
公开(公告)号:CN107977361B
公开(公告)日:2021-05-18
申请号:CN201711278996.2
申请日:2017-12-06
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F40/295 , G06F40/30 , G06F40/242 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于深度语义信息表示的中文临床医疗实体识别方法,包括两部分内容:1)中文临床医疗实体的表示方法;2)中文临床医疗实体的识别方法。表示方法包括以下两种:单标签表示和多标签表示。识别方法融入基于医疗领域偏旁部首信息的汉字表示方法,基于CNN获取医疗文本的局部语义信息,基于双向LSTM获取医疗文本的全局语义,并基于Attention机制对句子中不同词的语义信息进行选择。本发明继承了深度学习的优势,具有较少人工特征干预及更高的准确率和召回率等优点。
-
公开(公告)号:CN107679154B
公开(公告)日:2020-04-21
申请号:CN201710888726.7
申请日:2017-09-27
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F16/332 , G06F16/33 , G06F16/31 , G06F16/35 , G06N5/02
Abstract: 本发明提供了一种基于时间轴的历史题解题方法、系统及介质,该历史题解题方法包括:时间轴知识库构建步骤、历史词条时间字典构建步骤、问题时间属性分析步骤、相关词条筛选步骤、基于时间轴的文档片段筛选步骤、候选答案生成步骤。本发明的有益效果是:本发明通过构建的时间轴知识库和历史词条时间字典,自动地发现历史简答题题目中的时间信息,并将问题分类为时间限定类问题和非时间限定类问题。对于时间限定类问题,在生成候选答案的过程中加入基于时间轴的时间判断方法,生成和问题中时间相符合的候选答案。避免因为时间信息的遗漏而导致候选答案和问题的时间节点不符。
-
公开(公告)号:CN104636636A
公开(公告)日:2015-05-20
申请号:CN201510057034.9
申请日:2015-02-02
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及蛋白质远程同源性检测方法及装置,包括训练过程和检测过程;训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序,并在数据库中进行检索,每一个检索结果对应一个同源相似性评分,将所有检索结果降序排序,并组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练,得到排序模型;检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量,输入训练好的排序模型进行排序,得到排序结果,根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量,然后采用排序学习方法进行训练得到排序模型,从而可以有效提高检测的准确性和稳定性。
-
公开(公告)号:CN102013010B
公开(公告)日:2012-12-19
申请号:CN201010583025.0
申请日:2010-12-10
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及一种交互式篇章级手写识别方法及系统,通过以手写文档为主要视图,引导用户采用整篇写入整篇识别的方式,改变了传统识别系统输入一个或较短的几个字,显示识别结果并显示一组候选字符供用户选择的方式。利用篇章文档的内在关联信息,自适应不同用户的书写特点的智能手写识别方法,可达到连续、快速输入,更加准确识别的效果。
-
公开(公告)号:CN107679154A
公开(公告)日:2018-02-09
申请号:CN201710888726.7
申请日:2017-09-27
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明提供了一种基于时间轴的历史题解题方法、系统及介质,该历史题解题方法包括:时间轴知识库构建步骤、历史词条时间字典构建步骤、问题时间属性分析步骤、相关词条筛选步骤、基于时间轴的文档片段筛选步骤、候选答案生成步骤。本发明的有益效果是:本发明通过构建的时间轴知识库和历史词条时间字典,自动地发现历史简答题题目中的时间信息,并将问题分类为时间限定类问题和非时间限定类问题。对于时间限定类问题,在生成候选答案的过程中加入基于时间轴的时间判断方法,生成和问题中时间相符合的候选答案。避免因为时间信息的遗漏而导致候选答案和问题的时间节点不符。
-
公开(公告)号:CN107481048A
公开(公告)日:2017-12-15
申请号:CN201710672177.X
申请日:2017-08-08
Applicant: 哈尔滨工业大学深圳研究生院 , 深圳海知科技有限公司
CPC classification number: G06Q30/0278 , G06Q30/0283 , G06Q40/00
Abstract: 本发明提供一种基于混合模型的金融品种价格预测方法及系统,属于金融数据处理领域。本发明方法包括如下步骤:构建金融品种历史行情数据库,用于存储金融品种在过去某一时间段内的历史行情数据;在金融品种历史行情数据库的基础上构建混合模型,所述混合模型包括深度学习模型和结合小波变换降噪的ARIMA模型;运用混合模型对金融品种价格变动趋势进行预测,并对来自不同模型的预测结果进行综合从而得到精确度更高的预测结果;检验混合模型的预测结果是否准确,并根据检验结果对混合模型的子模型进行参数调节从而优化混合模型结构。本发明具有良好的预测性能,能够准确的预测金融品种在未来的价格变换趋势,预测的结果更加精确。
-
公开(公告)号:CN104035972B
公开(公告)日:2017-06-06
申请号:CN201410216252.8
申请日:2014-05-21
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明提供了一种基于微博的知识推荐方法及系统,该知识推荐方法包括如下步骤:用户建模、定时批量采集用户关注好友发布的微博、知识条目发现、知识条目扩展、知识推荐。本发明的有益效果是本发明提出一种基于微博的知识推荐方法与系统,从用户关注好友所发布的微博数据中自动发现各类知识条目,对知识条目形成扩展解释,在用户阅读微博时,向用户推荐所发现知识条目中对其有价值或其感兴趣的知识条目及相关扩展解释,提供主动的、个性化的知识服务,既能免去了用户的知识检索过程又能避免有价值信息被淹没。
-
公开(公告)号:CN103823824B
公开(公告)日:2017-04-05
申请号:CN201310314269.2
申请日:2013-11-12
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F17/30
Abstract: 本发明公开了一种借助互联网自动构建文本分类语料库的方法及系统,该方法包括如下步骤:用户提供所需的文本类别体系,网站结构与内容的采集整理,用户输入类别与网站结构的匹配,语料库去噪,输出语料库。本发明的技术效果是:利用互联网上各类网站上存在的类别标注信息,无需专业的人员手工标注,自适应不同用户的分类体系需求。它改变了传统的语料库构建系统需要大量的具有一定专业知识的人员加入标注的方式,采用对互联网上的丰富信息进行自动的抽取和挖掘的方式,可快速的构建出大容量的精准的文本分类语料库。
-
公开(公告)号:CN101452444B
公开(公告)日:2010-12-08
申请号:CN200810009074.6
申请日:2008-01-26
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明涉及信息编辑处理技术,具体涉及一种对联机输入状态下手写写入信息和在脱机状态下获取的已有手写文档的扫描信息根据编辑指令进行快速编辑排版的方法。通过将手写体信息进行切分或合并处理成独立信息单元,并将处理后的手写体信息进行编码,建立支持编辑操作的索引,并通过执行编辑指令实现在编辑后对受编辑影响的信息单元进行自动排版。本发明有效的解决了对联机输入状态下手写写入信息和在脱机状态下获取的已有手写文档的扫描信息进行编辑完成后,不能实现再排版,影响文档整体性的技术问题;系统对编辑过程中输入的编辑符识别准确、高效、识别错误率低。
-
公开(公告)号:CN101261635B
公开(公告)日:2010-09-01
申请号:CN200810066892.X
申请日:2008-04-29
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F17/30
Abstract: 本发明涉及一种被动式网络信息自动高效采集系统及方法,所述网络信息自动高效采集系统包括:运行于信息需求端的信息采集工作部;运行于信息提供端的信息收集发送工作部;所述信息采集工作部与所述信息收集发送工作部为通信连接关系。所述网络信息自动高效采集方法包括步骤:将所述信息采集工作部与所述信息收集发送工作部建立有效的联系;所述信息采集工作部根据所述信息收集发送工作部的通知或定期获取所述信息收集发送工作部内存储的所述信息提供端信息。将本发明技术应用于搜索引擎中后,能及时、快速、高效的获取互联网上的文本信息和音频、视频特征信息等网站相关内容,并可显著降低系统开销以及网络带宽占用量。
-
-
-
-
-
-
-
-
-