-
公开(公告)号:CN111680127A
公开(公告)日:2020-09-18
申请号:CN202010527938.4
申请日:2020-06-11
Applicant: 暨南大学
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06K9/62
Abstract: 发明公开了一种面向年报的公司名称和关系抽取方法,一种面向年报的公司名称和关系抽取方法,具体步骤为:步骤1、进行词向量模型的训练,步骤2、对公司关系的分类进行定义,将SVM分类的标签设为三类,分别是非投资关系、投资关系、无关系,步骤3、人工筛选反应公司关系的句子,步骤4、将公司关系文本语料中的句子用jieba分词分词后通过WORD2VEC词向量模型转换成向量表示,本发明涉及关系抽取技术领域。该面向年报的公司名称和关系抽取方法,解决了对于专家的过于依懒以及局限性很大,无法从一套关系模板中拓展出广泛采用的模板的问题。
-
公开(公告)号:CN111666378A
公开(公告)日:2020-09-15
申请号:CN202010527929.5
申请日:2020-06-11
Applicant: 暨南大学
IPC: G06F16/33 , G06F16/35 , G06F40/289 , G06K9/62
Abstract: 发明公开了一种基于词向量的中文年报标题分类方法,具体步骤为:步骤1、输入企业年报数据集,步骤2、对数据进行人工标注,并划分训练集,步骤3、对数据进行预处理,并训练Word2vector模型,步骤4、待抽取标题的年报通过Word2vector模型进行计算特征向量,步骤5、通过分类抽取得到目录,步骤3预处理具体为分词和去掉停用词,步骤3中Word2vector模型采用CBOW模型,本发明涉及标题分类技术领域。该基于词向量的中文年报标题分类方法,解决了传统的人工提取方式需要耗费巨大的人力和时间成本,而词向量的抽取方法效果差,准确力低的问题。
-
公开(公告)号:CN110928989A
公开(公告)日:2020-03-27
申请号:CN201911059126.5
申请日:2019-11-01
Applicant: 暨南大学
IPC: G06F16/33 , G06F16/36 , G06F16/903 , G06F16/951
Abstract: 本发明公开了一种基于语言模型的年报语料库构建方法,具体步骤为:步骤1、通过网络爬取进行数据收集,并使用PDFBox进行数据提取;步骤2、利用正则表达式进行目录提取;步骤3、运用语言模型进行数据分析;步骤4、进行模型训练并建立语料库,本发明涉及语料库构技术领域。该基于语言模型的年报语料库构建方法,解决了一般的规则对种类繁多、各式各样的标题适应性很差,需要人为不断修改规则进行改良,加上财务报告中含有众多表格,从中产生了许多干扰项,对机器自动识别造成阻碍的问题。
-
公开(公告)号:CN110889401A
公开(公告)日:2020-03-17
申请号:CN201911059127.X
申请日:2019-11-01
Applicant: 暨南大学
Abstract: 本发明公开了一种基于opencv库的文本版面识别方法,一种基于opencv库的文本版面识别方法,具体步骤为:步骤1、通过Smallpdf将所需pdf文件转成多张图片,每一页pdf一张图;步骤2、使用OpenCV对图片进行膨胀操作;步骤3、调用开源的Tesseract OCR API进行文字识别本发明涉及文本版面识别技术领域。该基于opencv库的文本版面识别方法,解决了常常由于文本标题的格式不规范、不统一的问题,给计算机的自动识别带来困难,最后的提取结果会不够精准,常有赘余,难以广泛应用题的问题。
-
-
-