一种基于语言模型的年报语料库构建方法

    公开(公告)号:CN110928989A

    公开(公告)日:2020-03-27

    申请号:CN201911059126.5

    申请日:2019-11-01

    Applicant: 暨南大学

    Abstract: 本发明公开了一种基于语言模型的年报语料库构建方法,具体步骤为:步骤1、通过网络爬取进行数据收集,并使用PDFBox进行数据提取;步骤2、利用正则表达式进行目录提取;步骤3、运用语言模型进行数据分析;步骤4、进行模型训练并建立语料库,本发明涉及语料库构技术领域。该基于语言模型的年报语料库构建方法,解决了一般的规则对种类繁多、各式各样的标题适应性很差,需要人为不断修改规则进行改良,加上财务报告中含有众多表格,从中产生了许多干扰项,对机器自动识别造成阻碍的问题。

    一种基于opencv库的文本版面识别方法

    公开(公告)号:CN110889401A

    公开(公告)日:2020-03-17

    申请号:CN201911059127.X

    申请日:2019-11-01

    Applicant: 暨南大学

    Abstract: 本发明公开了一种基于opencv库的文本版面识别方法,一种基于opencv库的文本版面识别方法,具体步骤为:步骤1、通过Smallpdf将所需pdf文件转成多张图片,每一页pdf一张图;步骤2、使用OpenCV对图片进行膨胀操作;步骤3、调用开源的Tesseract OCR API进行文字识别本发明涉及文本版面识别技术领域。该基于opencv库的文本版面识别方法,解决了常常由于文本标题的格式不规范、不统一的问题,给计算机的自动识别带来困难,最后的提取结果会不够精准,常有赘余,难以广泛应用题的问题。

Patent Agency Ranking