-
公开(公告)号:CN118093874B
公开(公告)日:2025-05-16
申请号:CN202410275955.1
申请日:2024-03-12
IPC: G06F16/35 , G06F16/334 , G06F18/2415 , G06F40/30 , G06F40/284 , G06N3/0455 , G06N3/047 , G06N3/0442 , G06N3/084
Abstract: 本发明涉及一种低资源语言处理领域的情感分析方法。提出一种基于网格结构与多头注意力的新闻句子情感分析方法。包括以下步骤:通过将网格结构无损转换为扁平结构,实现音节序列中单词信息的引入;采用相对位置编码机制,编码音节和单词的位置和方向信息;使用多头自注意力机制,识别序列中音节和单词的关联关系和语义信息;最后通过全连接层进行分类得到低资源语言新闻句子情感类别。本发明解决了传统循环神经网络无法进行大规模并行计算以及卷积神经网络难以建模句子中的长距离依赖关系的问题,其中多头注意力机制的运用,丰富了词语间的关联关系,增强了句子语义和句法结构信息的理解,提高了低资源语言新闻句子情感分类效果。
-
公开(公告)号:CN119990068A
公开(公告)日:2025-05-13
申请号:CN202411597802.5
申请日:2024-11-11
Applicant: 中国人民解放军军事科学院军事科学信息研究中心 , 北京信息科技大学
IPC: G06F40/157 , G06F40/205 , G06F40/237 , G06F40/30 , G06F16/35 , G06F18/214 , G06F18/25 , G06N3/0455 , G06N3/045 , G06N3/0442 , G06N3/088 , G06N3/096
Abstract: 本发明公开基于标签不变性的上下文数据增强方法,属于自然语言处理技术领域。该方法包括:步骤S1、对输入的原始文本进行id映射,再进行随机顺序打乱,并选择指定数量的字符,作为后续进行数据增强的目标文本;步骤S2、利用改变嵌入层向量的Bert模型和双向LSTM模型,对目标文本执行保留分类标签信息的文本编码处理和上下文特征提取;步骤S3、将提取出的特征向量分别经池化操作、自编码器和去噪自编码器进行变换并进行拼接,通过反向解码生成增强文本作为输出。
-
公开(公告)号:CN116384394A
公开(公告)日:2023-07-04
申请号:CN202310061983.9
申请日:2023-02-04
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06F18/22 , G06F18/25 , G06V10/82 , G06N7/01 , G06N3/0464 , G06N3/0442 , G06N3/045
Abstract: 本发明设计自然语言处理领域的多模态实体识别方法,特别涉及针对模态之间信息交互不足,获得更准确的模型间信息相关性,包括以下步骤:将文本按字切分并转为数字标记输入BERT预训练模型,获取最后一层隐藏层向量;将相应的图像信息输入进RESNET模型获得图像隐藏层向量,同时使用目标检测工具识别图像中包含的目标,通过计算实体和图像中目标的相关性,对模态之间的相关性进行判断;通过对比学习的方式拉近文本向量和图像向量的嵌入分布距离,优化文本向量的表示意义;同时开发了一种动态门机制,更好的利用模态间相关性来增强对比学习的效果;在测试集上提取文本特征并进行测试。本发明可以获得表征含义更丰富的文本表示,能够更为有效的提升多模态实体识别的准确性。
-
公开(公告)号:CN115862020A
公开(公告)日:2023-03-28
申请号:CN202211526486.3
申请日:2022-12-01
Applicant: 北京信息科技大学
IPC: G06V30/142 , G06F16/24
Abstract: 本发明提供一种实时的全自动双轮毂字符识别系统,能够自动识别轮毂双侧内容并存储,对模糊和有污渍的数据具有较高的识别率。所述系统包括:轮毂装置、plc(可编程逻辑控制器)、图像采集设备、工控机。轮毂装置包括轮毂和车轨,轮毂为待识别物体位于车轨上方;plc配备传感器用于检测轮毂是否到位和控制系统拍照;图像采集设备由相机、光源和灯罩组成,用于获取轮毂双侧的数据;工控机安装GPU和应用程序;应用程序包括通信模块、识别模块、展示和存储等模块。所述工控机连接plc和相机设备,程序接受到plc拍照信号后启动相机拍照,对采集的图片进行识别,分析识别结果用于展示和存储。本发明适用于工业自动化及目标检测技术领域。
-
公开(公告)号:CN115759011A
公开(公告)日:2023-03-07
申请号:CN202211519223.X
申请日:2022-12-01
Applicant: 北京信息科技大学
IPC: G06F40/166 , G06F16/22 , G06V30/148 , G06V30/412 , G06F16/26 , G06V30/19 , G06F16/28
Abstract: 本发明涉及一种端到端的通用型表格检测系统,用于帮助工作人员快速提取文件中的表格信息,提高工作效率。所述系统包括:表格定位、表格单元格检测、表格结构化识别、表格文字识别、结构化数据输出、数据存储。所述表格定位主要通过深度学习算法定位文件中表格的位置;所述表格单元格检测旨在检测图像中的表格单元格和单元格位置信息;所述表格结构识别旨在检测单元格间的行列关系;所述表格文字识别旨在使用OCR技术识别单元格内的文字信息;所述结构化输出旨在将上述几个步骤中识别到的数据输出成一个key‑value形式的可编辑二维表;所述数据存储旨在将二维表中的数据存入数据库;本发明适用于智能化办公或需要大量表格处理的领域。
-
公开(公告)号:CN114090863A
公开(公告)日:2022-02-25
申请号:CN202111212885.8
申请日:2021-10-19
Applicant: 北京信息科技大学
IPC: G06F16/9532 , G06F16/33 , G06F40/216 , G06F40/284 , G06F40/30 , G06K9/62
Abstract: 本申请公开了一种藏文热点事件检测方法,包括:获取热词;获取词对;对所述热词和所述词对进行聚类。获取热词包括:计算词频权重;计算词频增长率权重;计算网站影响力权重;融合所述词频权重、所述词频增长率权重以及所述网站影响力权重进行热词热度度量。本申请的方法通过在热度度量方法中融合词频、词频增长率、网站影响力特征,并经热度过滤,提高热词抽取的有效性;通过建立词对生成模型和词对语义引力模型,并经热度筛选,获得较高质量的词对集合;运用凝聚式层次聚类算法获得热点事件,采用热词和词对描述事件,进而满足事件描述细粒度的要求,能够较为有效地检测热点事件,具有较高的应用价值,达到的正确率、召回率和F值均较高。
-
公开(公告)号:CN112507717A
公开(公告)日:2021-03-16
申请号:CN202011482958.0
申请日:2020-12-16
Applicant: 北京信息科技大学
IPC: G06F40/295 , G16H15/00 , G06N3/04
Abstract: 本申请公开了一种融合实体关键字特征的医疗领域实体分类方法,包括:文本向量化操作;特征提取;序列标注。本申请实施例提供的融合实体关键字特征的医疗领域实体分类方法,采用TF‑IDF辅助构建关键字表,将这些关键字作为特征输入模型,采用BERT模型进行文本向量化操作生成字向量,将字向量输入BILSTM‑CNN混合模型学习特征,再经过CRF层进行序列标注,能够实现医疗领域实体分类,且能够大大提高医疗领域实体分类的准确率、召回率和F1值。
-
公开(公告)号:CN110704610A
公开(公告)日:2020-01-17
申请号:CN201910404983.8
申请日:2019-05-15
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F40/205
Abstract: 本发明涉及一种体育新闻战报主题分类方法,包括:步骤1)对语料进行预处理;步骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别特征对句子主题进行分类。步骤2)包括:首先制定标注规则,完全按照类别定义进行标注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语料平均分给多个人进行标注。本发明提出的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用于为领域模板库构建提供支持,可以很好地满足实际应用的需要。
-
公开(公告)号:CN110516215A
公开(公告)日:2019-11-29
申请号:CN201910404548.5
申请日:2019-05-15
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种体育新闻自动写作方法,首先根据直播文本数据构建分差-时间函数,并对数据进行建模,其次根据分差-时间函数的特性将数据进行合并,提取直播文本片段信息,再根据战报数据直播文本的关键点信息,提取重要的直播片段,生成直播片段数据集,提取直播片段数据集中的触发条件,并与已构建好的模板触发条件进行比对,选取最优模板,并将比赛的事实数据填写进模板,生成战报句子,最终生成战报文章。本发明提供的体育新闻自动写作方法产生的体育新闻文章在以假乱真率、真实率、生动率方面均取得了极佳的效果,能够辅助人们完成体育新闻写作,从而节省出大量的人力物力,极大地改变人们的日常写作方式,能很好地满足实际应用的需要。
-
公开(公告)号:CN105701173B
公开(公告)日:2019-11-15
申请号:CN201610001348.1
申请日:2016-01-05
Applicant: 中国电影科学技术研究所 , 北京信息科技大学
IPC: G06F16/583
Abstract: 本发明涉及一种基于外观设计专利的多模态图像检索方法,包括以下步骤:步骤1):提出有效内容提取算法提取图像有效内容,并对图像进行预处理操作;步骤2):提取图像文本特征;步骤3):提取图像快速局部方向模式视觉特征;步骤4):将图像文本特征与视觉特征融合,对图像进行多模态检索。本发明提出一种融合文本特征与底层视觉特征的多模态图像检索算法,充分发挥了不同模态特征的优点,提高了检索准确率,该方法优于已有的单模态检索方法,可以很好地满足实际应用的需要。
-
-
-
-
-
-
-
-
-