-
公开(公告)号:CN115759119A
公开(公告)日:2023-03-07
申请号:CN202310030728.8
申请日:2023-01-10
Applicant: 暨南大学
IPC: G06F40/30 , G06F40/242 , G06F40/284 , G06F16/35 , G06N3/0455 , G06N3/047 , G06N3/048 , G06N3/091
Abstract: 本发明公开了一种金融文本情感分析方法、系统、介质和设备,该方法包括下述步骤:分析每个金融文本表达的情感并进行标注;对待测金融文本进行数据预处理,得到金融文本序列;根据金融词典进行分词、编码,编码后输入BERT模型训练;多头注意力层以编码后的词向量作为输入,为每个词向量提供不同语义的词向量,前馈层将含有序列信息的词向量进行线性处理,得到整合信息后的词向量;多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;整合信息后的各个词向量经过全连接层、softmax计算,选择概率最大的情感作为文本情感分类的结果。本发明能更好地利用到完整语义信息,极大提高了文本情感分析的准确度。
-
公开(公告)号:CN115759119B
公开(公告)日:2023-04-21
申请号:CN202310030728.8
申请日:2023-01-10
Applicant: 暨南大学
IPC: G06F40/30 , G06F40/242 , G06F40/284 , G06F16/35 , G06N3/0455 , G06N3/047 , G06N3/048 , G06N3/091
Abstract: 本发明公开了一种金融文本情感分析方法、系统、介质和设备,该方法包括下述步骤:分析每个金融文本表达的情感并进行标注;对待测金融文本进行数据预处理,得到金融文本序列;根据金融词典进行分词、编码,编码后输入BERT模型训练;多头注意力层以编码后的词向量作为输入,为每个词向量提供不同语义的词向量,前馈层将含有序列信息的词向量进行线性处理,得到整合信息后的词向量;多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;整合信息后的各个词向量经过全连接层、softmax计算,选择概率最大的情感作为文本情感分类的结果。本发明能更好地利用到完整语义信息,极大提高了文本情感分析的准确度。
-
公开(公告)号:CN111666769A
公开(公告)日:2020-09-15
申请号:CN202010528238.7
申请日:2020-06-11
Applicant: 暨南大学
IPC: G06F40/295 , G06F40/211
Abstract: 发明公开了一种年报中的金融领域事件句提取方法,具体步骤为:步骤1、输入财务报告数据,步骤2、对数据进行预处理,步骤3、选取基于感知机序列标注的命名实体识别,步骤4、改进基于TextRank的关键词提取算法,步骤5、输出得出文本关键词,本发明涉及金融领域事件句提取技术领域。该年报中的金融领域事件句提取方法,解决了TextRank关键词提取算法分词时忽略命名实体,关键词提取计算算法不理想,以及容易被噪声信息干扰导致提取关键词错误的问题。
-
公开(公告)号:CN110928989A
公开(公告)日:2020-03-27
申请号:CN201911059126.5
申请日:2019-11-01
Applicant: 暨南大学
IPC: G06F16/33 , G06F16/36 , G06F16/903 , G06F16/951
Abstract: 本发明公开了一种基于语言模型的年报语料库构建方法,具体步骤为:步骤1、通过网络爬取进行数据收集,并使用PDFBox进行数据提取;步骤2、利用正则表达式进行目录提取;步骤3、运用语言模型进行数据分析;步骤4、进行模型训练并建立语料库,本发明涉及语料库构技术领域。该基于语言模型的年报语料库构建方法,解决了一般的规则对种类繁多、各式各样的标题适应性很差,需要人为不断修改规则进行改良,加上财务报告中含有众多表格,从中产生了许多干扰项,对机器自动识别造成阻碍的问题。
-
公开(公告)号:CN110889401A
公开(公告)日:2020-03-17
申请号:CN201911059127.X
申请日:2019-11-01
Applicant: 暨南大学
Abstract: 本发明公开了一种基于opencv库的文本版面识别方法,一种基于opencv库的文本版面识别方法,具体步骤为:步骤1、通过Smallpdf将所需pdf文件转成多张图片,每一页pdf一张图;步骤2、使用OpenCV对图片进行膨胀操作;步骤3、调用开源的Tesseract OCR API进行文字识别本发明涉及文本版面识别技术领域。该基于opencv库的文本版面识别方法,解决了常常由于文本标题的格式不规范、不统一的问题,给计算机的自动识别带来困难,最后的提取结果会不够精准,常有赘余,难以广泛应用题的问题。
-
-
-
-