Patent search ap:("暨南大学") AND inv:"翁秀木" Page 1

1.

发明公开
一种基于语言模型的年报语料库构建方法无效

公开(公告)号：CN110928989A

公开(公告)日：2020-03-27

申请号：CN201911059126.5

申请日：2019-11-01

Applicant: 暨南大学

Inventor： 潘定 , 梁倬骞 , 温秋华 , 曹志鹏 , 翁秀木

IPC: G06F16/33 , G06F16/36 , G06F16/903 , G06F16/951

Abstract: 本发明公开了一种基于语言模型的年报语料库构建方法，具体步骤为：步骤1、通过网络爬取进行数据收集，并使用PDFBox进行数据提取；步骤2、利用正则表达式进行目录提取；步骤3、运用语言模型进行数据分析；步骤4、进行模型训练并建立语料库，本发明涉及语料库构技术领域。该基于语言模型的年报语料库构建方法，解决了一般的规则对种类繁多、各式各样的标题适应性很差，需要人为不断修改规则进行改良，加上财务报告中含有众多表格，从中产生了许多干扰项，对机器自动识别造成阻碍的问题。

2.

发明公开
一种基于opencv库的文本版面识别方法无效

公开(公告)号：CN110889401A

公开(公告)日：2020-03-17

申请号：CN201911059127.X

申请日：2019-11-01

Applicant: 暨南大学

Inventor： 潘定 , 梁倬骞 , 温秋华 , 曹志鹏 , 翁秀木

IPC: G06K9/20 , G06K9/34 , G06K9/62

Abstract: 本发明公开了一种基于opencv库的文本版面识别方法，一种基于opencv库的文本版面识别方法，具体步骤为：步骤1、通过Smallpdf将所需pdf文件转成多张图片，每一页pdf一张图；步骤2、使用OpenCV对图片进行膨胀操作；步骤3、调用开源的Tesseract OCR API进行文字识别本发明涉及文本版面识别技术领域。该基于opencv库的文本版面识别方法，解决了常常由于文本标题的格式不规范、不统一的问题，给计算机的自动识别带来困难，最后的提取结果会不够精准，常有赘余，难以广泛应用题的问题。

Patent Agency Ranking