一种体育新闻自动生成方法

    公开(公告)号:CN107766338A

    公开(公告)日:2018-03-06

    申请号:CN201710969649.8

    申请日:2017-10-18

    Abstract: 本发明涉及一种体育新闻自动生成方法,包括以下步骤:步骤1)构建语料数据集;步骤2)对语料数据集中的语料进行标注;步骤3)训练生成模型;步骤4)抽取自动识别出的信息,生成体育新闻。本发明提供的体育新闻自动生成方法,能够替代手动撰写体育新闻,能够自动生成准确率高、可读性强的体育新闻,可以很好地满足实际应用的需要。

    一种汉语概念复合块标注库规范化处理方法

    公开(公告)号:CN105446956A

    公开(公告)日:2016-03-30

    申请号:CN201510863734.7

    申请日:2015-12-02

    CPC classification number: G06F17/271

    Abstract: 本发明涉及一种汉语概念复合块标注库规范化处理方法,包括:自动调整错误词类标记;自动补充事件句式内部特征标记;时间块和空间块标记一致化处理。本发明提供的汉语概念复合块标注库规范化处理方法,能够针对TCT语料库在机器自动标注和人工标注的基础上对概念复合块的标注进行全自动的规范化处理,解决了概念复合块标注不一致,不准确的问题,最终提高了标注的准确率,获得了很好的效果,进一步提高语料库的准确性,可以很好地满足实际应用的需要。

    一种异源语料自动融合方法

    公开(公告)号:CN105389303A

    公开(公告)日:2016-03-09

    申请号:CN201510701364.7

    申请日:2015-10-27

    CPC classification number: G06F17/2795 G06F17/277 G06F17/30705

    Abstract: 本发明涉及一种异源语料自动融合方法,包括以下步骤:步骤1)构建UNP映射词表;步骤2)对源体系的标注进行归一化处理;步骤3)确定产生歧义的词的词性,对语料体系中词的词义进行评判,进而确定词的词性标记;步骤4)对目标词汇集合中的单类词进行训练,然后用所述特征模板对多类词进行预测,输出预测结果的概率值;步骤5)对概率值的分布曲线进行曲线拟合;步骤6)对预测结果进行置信度评价;步骤7)对预测结果进行正确性验证;步骤8)将标注后的词及词性信息还原到原始语料中,将语料库融合为一个更大规模的语料库。本发明扩展了语料库的规模,统一了标注标准,提高了后续基于语料库语言学的研究分析的准确性,获得了较好的效果。

    一种端到端的表格结构化数据抽取系统

    公开(公告)号:CN115759011A

    公开(公告)日:2023-03-07

    申请号:CN202211519223.X

    申请日:2022-12-01

    Abstract: 本发明涉及一种端到端的通用型表格检测系统,用于帮助工作人员快速提取文件中的表格信息,提高工作效率。所述系统包括:表格定位、表格单元格检测、表格结构化识别、表格文字识别、结构化数据输出、数据存储。所述表格定位主要通过深度学习算法定位文件中表格的位置;所述表格单元格检测旨在检测图像中的表格单元格和单元格位置信息;所述表格结构识别旨在检测单元格间的行列关系;所述表格文字识别旨在使用OCR技术识别单元格内的文字信息;所述结构化输出旨在将上述几个步骤中识别到的数据输出成一个key‑value形式的可编辑二维表;所述数据存储旨在将二维表中的数据存入数据库;本发明适用于智能化办公或需要大量表格处理的领域。

    融合实体关键字特征的医疗领域实体分类方法

    公开(公告)号:CN112507717A

    公开(公告)日:2021-03-16

    申请号:CN202011482958.0

    申请日:2020-12-16

    Abstract: 本申请公开了一种融合实体关键字特征的医疗领域实体分类方法,包括:文本向量化操作;特征提取;序列标注。本申请实施例提供的融合实体关键字特征的医疗领域实体分类方法,采用TF‑IDF辅助构建关键字表,将这些关键字作为特征输入模型,采用BERT模型进行文本向量化操作生成字向量,将字向量输入BILSTM‑CNN混合模型学习特征,再经过CRF层进行序列标注,能够实现医疗领域实体分类,且能够大大提高医疗领域实体分类的准确率、召回率和F1值。

    一种体育新闻自动写作方法

    公开(公告)号:CN110516215A

    公开(公告)日:2019-11-29

    申请号:CN201910404548.5

    申请日:2019-05-15

    Abstract: 本发明涉及一种体育新闻自动写作方法,首先根据直播文本数据构建分差-时间函数,并对数据进行建模,其次根据分差-时间函数的特性将数据进行合并,提取直播文本片段信息,再根据战报数据直播文本的关键点信息,提取重要的直播片段,生成直播片段数据集,提取直播片段数据集中的触发条件,并与已构建好的模板触发条件进行比对,选取最优模板,并将比赛的事实数据填写进模板,生成战报句子,最终生成战报文章。本发明提供的体育新闻自动写作方法产生的体育新闻文章在以假乱真率、真实率、生动率方面均取得了极佳的效果,能够辅助人们完成体育新闻写作,从而节省出大量的人力物力,极大地改变人们的日常写作方式,能很好地满足实际应用的需要。

    基于权利要求的专利侵权检测方法

    公开(公告)号:CN109977362A

    公开(公告)日:2019-07-05

    申请号:CN201910236446.7

    申请日:2019-03-27

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种基于权利要求的专利侵权检测方法,包括:步骤1)数据采集和预处理;步骤2)将权利要求书表示成层次向量矩阵;步骤3)根据不同层次分别计算得到的相似度结果检查专利是否侵权。本发明提供的基于权利要求的专利侵权检测方法,将专利文本中最为重要的权利要求书作为主要研究对象,通过对权利要求书的结构进行分解,分别计算分解后各部分的相似度并最终确定待检专利是否侵权,有效地提高了专利侵权检测的准确率,效率高,检测准确率高,降低了工作复杂度,提升了工作效率,可以很好地满足实际应用的需要。

    基于SAO结构的中文专利文本实体关系抽取方法

    公开(公告)号:CN109933781A

    公开(公告)日:2019-06-25

    申请号:CN201811202084.1

    申请日:2018-10-16

    Inventor: 吕学强 董志安

    Abstract: 本发明涉及一种基于SAO结构的中文专利文本实体关系抽取方法,包括:步骤一:从专利文本中获取候选SAO三元组;步骤二:提取候选SAO三元组的传统特征和句法语义特征。本发明提供的基于SAO结构的中文专利文本实体关系抽取方法,把中文专利文本的关系抽取问题,转化为SAO结构识别的分类问题,利用中文专利语料作为处理数据,抽取了词法特征、上下文特征、距离特征以及句法语义特征,能够显著地增强关系抽取的性能,能够有效地提升关系抽取的效果,可以很好地满足实际应用的需要。

    使用实时数据生成体育赛事战报的方法

    公开(公告)号:CN109740123A

    公开(公告)日:2019-05-10

    申请号:CN201811566675.7

    申请日:2018-12-21

    Abstract: 本发明涉及一种使用实时数据生成体育赛事战报的方法,使用基于Attention的序列模型TransFormer将关键事件转化为战报句,所述方法包括:使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报。本发明提供的使用实时数据生成体育赛事战报的方法,使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报,从结构化的实时数据里抽取关键事件,实时数据结构规范,内容精确,因此抽取效果很好,克服了现有技术存在的缺陷,可以很好地满足实际应用的需要。

Patent Agency Ranking