-
公开(公告)号:CN115759011A
公开(公告)日:2023-03-07
申请号:CN202211519223.X
申请日:2022-12-01
Applicant: 北京信息科技大学
IPC: G06F40/166 , G06F16/22 , G06V30/148 , G06V30/412 , G06F16/26 , G06V30/19 , G06F16/28
Abstract: 本发明涉及一种端到端的通用型表格检测系统,用于帮助工作人员快速提取文件中的表格信息,提高工作效率。所述系统包括:表格定位、表格单元格检测、表格结构化识别、表格文字识别、结构化数据输出、数据存储。所述表格定位主要通过深度学习算法定位文件中表格的位置;所述表格单元格检测旨在检测图像中的表格单元格和单元格位置信息;所述表格结构识别旨在检测单元格间的行列关系;所述表格文字识别旨在使用OCR技术识别单元格内的文字信息;所述结构化输出旨在将上述几个步骤中识别到的数据输出成一个key‑value形式的可编辑二维表;所述数据存储旨在将二维表中的数据存入数据库;本发明适用于智能化办公或需要大量表格处理的领域。
-
公开(公告)号:CN112507717A
公开(公告)日:2021-03-16
申请号:CN202011482958.0
申请日:2020-12-16
Applicant: 北京信息科技大学
IPC: G06F40/295 , G16H15/00 , G06N3/04
Abstract: 本申请公开了一种融合实体关键字特征的医疗领域实体分类方法,包括:文本向量化操作;特征提取;序列标注。本申请实施例提供的融合实体关键字特征的医疗领域实体分类方法,采用TF‑IDF辅助构建关键字表,将这些关键字作为特征输入模型,采用BERT模型进行文本向量化操作生成字向量,将字向量输入BILSTM‑CNN混合模型学习特征,再经过CRF层进行序列标注,能够实现医疗领域实体分类,且能够大大提高医疗领域实体分类的准确率、召回率和F1值。
-
公开(公告)号:CN110516215A
公开(公告)日:2019-11-29
申请号:CN201910404548.5
申请日:2019-05-15
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种体育新闻自动写作方法,首先根据直播文本数据构建分差-时间函数,并对数据进行建模,其次根据分差-时间函数的特性将数据进行合并,提取直播文本片段信息,再根据战报数据直播文本的关键点信息,提取重要的直播片段,生成直播片段数据集,提取直播片段数据集中的触发条件,并与已构建好的模板触发条件进行比对,选取最优模板,并将比赛的事实数据填写进模板,生成战报句子,最终生成战报文章。本发明提供的体育新闻自动写作方法产生的体育新闻文章在以假乱真率、真实率、生动率方面均取得了极佳的效果,能够辅助人们完成体育新闻写作,从而节省出大量的人力物力,极大地改变人们的日常写作方式,能很好地满足实际应用的需要。
-
公开(公告)号:CN109977362A
公开(公告)日:2019-07-05
申请号:CN201910236446.7
申请日:2019-03-27
Applicant: 北京信息科技大学
IPC: G06F17/21 , G06F17/27 , G06F16/33 , G06F16/335 , G06Q50/18
Abstract: 本发明涉及一种基于权利要求的专利侵权检测方法,包括:步骤1)数据采集和预处理;步骤2)将权利要求书表示成层次向量矩阵;步骤3)根据不同层次分别计算得到的相似度结果检查专利是否侵权。本发明提供的基于权利要求的专利侵权检测方法,将专利文本中最为重要的权利要求书作为主要研究对象,通过对权利要求书的结构进行分解,分别计算分解后各部分的相似度并最终确定待检专利是否侵权,有效地提高了专利侵权检测的准确率,效率高,检测准确率高,降低了工作复杂度,提升了工作效率,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109933781A
公开(公告)日:2019-06-25
申请号:CN201811202084.1
申请日:2018-10-16
Applicant: 北京信息科技大学
IPC: G06F17/27
Abstract: 本发明涉及一种基于SAO结构的中文专利文本实体关系抽取方法,包括:步骤一:从专利文本中获取候选SAO三元组;步骤二:提取候选SAO三元组的传统特征和句法语义特征。本发明提供的基于SAO结构的中文专利文本实体关系抽取方法,把中文专利文本的关系抽取问题,转化为SAO结构识别的分类问题,利用中文专利语料作为处理数据,抽取了词法特征、上下文特征、距离特征以及句法语义特征,能够显著地增强关系抽取的性能,能够有效地提升关系抽取的效果,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109740123A
公开(公告)日:2019-05-10
申请号:CN201811566675.7
申请日:2018-12-21
Applicant: 北京信息科技大学
IPC: G06F17/22 , G06F16/2452
Abstract: 本发明涉及一种使用实时数据生成体育赛事战报的方法,使用基于Attention的序列模型TransFormer将关键事件转化为战报句,所述方法包括:使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报。本发明提供的使用实时数据生成体育赛事战报的方法,使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报,从结构化的实时数据里抽取关键事件,实时数据结构规范,内容精确,因此抽取效果很好,克服了现有技术存在的缺陷,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108549635A
公开(公告)日:2018-09-18
申请号:CN201810310200.5
申请日:2018-04-09
IPC: G06F17/27
Abstract: 本发明涉及一种专利文献领域术语抽取方法,包括:专利文本预处理、术语标注、字序列标注、语料划分和CRFs模型训练及预测。本发明利用条件随机场模型对专利文献中的术语进行抽取,采用字序列标注的方法,建立字级层面的特征来抽取术语,减少了分词对特征提取带来的噪音干扰,同时,基于构建的领域核心词典自动标注训练语料和测试语料中的术语,减少了人工标注的成本,在不同词位类别标注下训练的模型的抽取效果好,准确率、召回率和F值较高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105224520B
公开(公告)日:2018-03-13
申请号:CN201510623936.4
申请日:2015-09-28
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种中文专利文献术语自动识别方法,包括以下步骤:步骤1):基于专利标题自动生成词性规则;步骤2):手工构建停用词表;步骤3):对生成的所述词性规则按照所含词性的个数进行分类;步骤4):利用TermRank排序算法对候选术语进行排序。本发明首先利用统计学方法从专利标题中自动学习出构成术语的词性规则,解决了人工总结术语词性规则的不足;采用TermRank排序方法对候选术语进行排序,综合考虑了专利文献中的语言学和统计学特征,能够较好的区分术语和非术语,具有较高的可靠性,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105678327A
公开(公告)日:2016-06-15
申请号:CN201610001335.4
申请日:2016-01-05
Applicant: 北京信息科技大学 , 北京城市系统工程研究中心
Abstract: 本发明涉及一种面向中文专利的实体间非分类关系抽取方法,包括以下步骤:步骤1):初始化概念对所在的基本关系集合;步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;步骤3):进行特征选择,获得特征向量;步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。本发明将中文专利本体中实体间非分类关系抽取限定为满足SAO结构的实体间关系抽取,提出句法分析特征和关系词词典特征并结合传统特征的方法,使用支持向量机进行关系抽取,从而解决了SAO结构关系抽取任务中关系实例结构正确但是语义错误的问题,该方法优于传统关系抽取方法,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105528340A
公开(公告)日:2016-04-27
申请号:CN201510863564.2
申请日:2015-12-02
IPC: G06F17/27
CPC classification number: G06F17/277 , G06F17/271 , G06F17/274
Abstract: 本发明涉及一种多动词汉语概念复合块的动词层次分类的方法,包括以下步骤:步骤1)对汉语句子进行词语切分和词性标记;步骤2)将所述句子分割为小句;步骤3)将所述小句中的多个动词进行层次划分;步骤4)将动词分为两类;步骤5)利用改进的CCC分析器对动词进行分析;步骤6)针对多动词的小句进行分析直到队列元素为空。本发明可以减少因动词的层次分析错误而导致的句子整体层次错误,从而提高组块分析的准确性,为后续进行复杂句的句法语义分析打下了很好的基础,可以很好地满足实际应用的需要。
-
-
-
-
-
-
-
-
-