-
公开(公告)号:CN116029297A
公开(公告)日:2023-04-28
申请号:CN202310061847.X
申请日:2023-02-04
Applicant: 北京信息科技大学 , 复杂系统仿真总体重点实验室
IPC: G06F40/295 , G06V10/40 , G06V10/764 , G06V10/82 , G06N7/01 , G06N3/0464 , G06N3/045 , G06N3/048 , G06N3/08
Abstract: 本发明解决武器装备领域文本数据因其稀缺性,存在噪声大、句子短、质量差、不具备丰富的上下文语义等现象,利用多模态方法可有效提高实体识别的效果,包括以下步骤:由ResNet提取视觉特征,同时对图像进行分类;将分类标签在字典中的解释通过BERT得到向量信息,取到包含全部分类信息的[CLS];由BERT提取整个文本特征,将含有分类信息的[CLS]替换文本向量的[CLS]部分,然后进行自注意力得到关注实体的特征向量;将两种模态处理好的特征向量进行跨模态注意,通过互注意力模块对两种特征向量进行交互感知;最后通过CRF层提取出实体。在武器装备多模态数据集上进行实验,表明本发明优于单文本模态和主流多模态模型,可实现对武器装备领域实体的有效识别。
-
公开(公告)号:CN112507080A
公开(公告)日:2021-03-16
申请号:CN202011482957.6
申请日:2020-12-16
Applicant: 北京信息科技大学
IPC: G06F16/33 , G06F40/289 , G06F40/232 , G06F40/166
Abstract: 本申请公开了一种文字识别矫正的方法,包括:构建专业词库;构建识别结果区域矩阵;矫正。本申请的文字识别矫正的方法,通过引入语言模型,统计条件概率预测最佳符合词库的识别结果,通过检测项对应关系,进行前后矫正,进一步提高识别精确度,最后通过融合编辑距离和最长公共子序列的识别方法匹配最佳的识别结果,提高了识别准确率,能够很好地满足实际应用的需要。
-
公开(公告)号:CN110135493A
公开(公告)日:2019-08-16
申请号:CN201910400319.6
申请日:2019-05-15
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种新闻话题跟踪方法,将动态话题模型与BP神经网络相结合,先将时间-事件空间模型根据实际需要改变相应权值,再通过BP神经网络训练完成样本与结果的映射关系,并且通过将测试语料分为多份,动态地训练话题模型,不断更新模型中的关键词和它的权重,再重新训练神经网络,接着进行新的分类,完成事件跟踪。本发明在动态话题模型中引入自适应的更新策略,通过不断地更新话题模型解决了事件跟踪过程中出现的话题偏移造成的正确率下降的问题,能够达到较好的话题跟踪效果,可以很好地满足实际应用的需要。
-
公开(公告)号:CN110134925A
公开(公告)日:2019-08-16
申请号:CN201910404981.9
申请日:2019-05-15
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种一种中文专利文本相似度计算方法,基于SAO结构和向量空间模型相融合来计算文本相似度,包括:从专利文本中抽取出SAO三元组;计算SAO三元组中词语的相似度;计算SAO之间相似度;基于SAO计算专利文本相似度;把向量空间模型方法和基于SAO结构的方法进行融合。本发明提供的中文专利文本相似度计算方法,基于SAO结构和向量空间模型相融合的方法计算专利文本相似度,充分发挥了二者的优点,克服了二者的缺陷,得到了极佳的正确率、召回率和F值,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109933804A
公开(公告)日:2019-06-25
申请号:CN201910236194.8
申请日:2019-03-27
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种融合主题信息与双向LSTM的关键词抽取方法,首先结合LDA与Skip-gram模型学习到词语的主题词向量表示,然后将词语的主题词向量作为双向LSTM模型的输入,充分利用双向LSTM模型的时间记忆特性同时对词语上文与下文主题语义信息建模,最终由softmax函数输出词语的标签预测概率,该方法能够充分利用不同距离的上下文语义信息对关键词进行预测,得到的正确率、召回率与F值均较好,取得了明显超越现有技术的关键词识别效果,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109614038A
公开(公告)日:2019-04-12
申请号:CN201811403707.1
申请日:2018-11-23
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种多样化QoS约束的多速磁盘调度方法,根据不同的用户QoS要求,执行不同的调度算法;不同的调度算法分别对应为:基于时间优先的磁盘调度算法、基于代价优先的磁盘调度算法和基于效益函数的磁盘调度方法。本发明提供的多样化QoS约束的多速磁盘调度方法,包含了三种调度算法:基于时间优先的调度算法TPDS、基于代价优先的调度算法CPDS和基于效益函数的调度算法BFDS,具备多样化QoS约束的调度能力,能够在满足用户多样的服务质量要求的前提下,通过调度不同运行模式的磁盘进行数据存储,最大程度地降低系统的能耗,可以很好地满足实际应用的需要。
-
公开(公告)号:CN119807417A
公开(公告)日:2025-04-11
申请号:CN202411967701.2
申请日:2024-12-30
Applicant: 北京信息科技大学
Abstract: 本申请提供一种文本多标签分类方法、分类装置、电子设备及存储介质。该文本多标签分类方法,包括:将技术领域和需要分类的标签输入至大语言模型,以使大语言模型生成对应技术领域下每个标签的定义;使用大语言模型对文献数据进行标注,得到标注数据;使用所述标注数据对大语言模型进行LoRA微调,得到微调的模型,所述微调的模型用于多标签分类;基于每个标签的定义,利用所述微调后的模型,对文本进行多标签分类。该文本多标签分类方法,能够精准理解技术标签、学习文献中蕴含的知识,文献数据多标签分类任务的分类效果较好,大幅提高了文献数据多标签分类任务的分类准确性和分类效果。
-
公开(公告)号:CN116467619A
公开(公告)日:2023-07-21
申请号:CN202310206097.0
申请日:2023-03-06
Applicant: 北京信息科技大学
IPC: G06F18/24 , G06F18/214 , G06N3/0464 , G06N3/0499 , G06N3/08
Abstract: 本发明涉及存储系统领域中的数据分类存储,通过挖掘数据访问的长周期季节特征,构建深度学习模型,实现数据分类并存储于不同性能的设备,以实现存储系统的高能效存储,包括以下步骤:(一)、对数据访问中的长周期季节特征进行分析;(二)、依据长周期季节特征确定数据类别数目;(三)、构建训练模型用的训练集和测试集;(四)、构建BERT‑RCNN模型抽取数据周期特征并完成分类。(五)、构建存储系统能耗和成本模型,得到分类存储的能耗和成本,以验证方法的有效性。本发明通过构建BERT‑RCNN分类模型,能够更有效地实现数据分类存储,降低存储能耗和成本。
-
公开(公告)号:CN116384402A
公开(公告)日:2023-07-04
申请号:CN202310415757.6
申请日:2023-04-18
Applicant: 华能煤炭技术研究有限公司 , 北京信息科技大学
IPC: G06F40/295 , G06F40/30 , G06F40/242 , G06F16/36 , G06F16/35 , G06N3/0442 , G06N3/08 , G06N3/084
Abstract: 本发明涉及煤矿机电设备领域,特别涉及一种融合机电设备本体库术语词结合对比学习的煤矿机电设备命名实体识别方法。该方法首先使用Word2Vec模型预训练机电设备术语词向量,并利用多术语多头注意力机制将术语词向量与字向量融合。然后采用Bi‑LSTM模型进行编码,在损失函数上采用对比学习做改进,将Bi‑LSTM计算的相对熵损失作为CRF损失的正则项。最后,利用CRF模型解码得到最优标签。实验结果表明,该方法在自构的煤矿机电设备语料上的准确率、召回率和F1值均优于现有主流方法。本发明的技术方案可以有效地识别煤矿机电设备领域中存在实体命名相似以及部分重点设备名称较长的问题,为智能矿山的构建提供了有力的支持。
-
公开(公告)号:CN115952802A
公开(公告)日:2023-04-11
申请号:CN202211001912.1
申请日:2022-08-21
Applicant: 华能煤炭技术研究有限公司 , 北京信息科技大学
IPC: G06F40/30 , G06F16/332 , G06F16/35 , G06N3/045 , G06N3/08
Abstract: 本发明涉及自然语言处理领域的文本处理方法,提升现有基于切分等方式处理长文本会产生信息丢失的不足,包括以下步骤:将文本按句子切分成多段内容;将每句话以[CLS]句子[SEP]的形式传入BERT预训练语言模型,获取最后一层隐藏层向量以及[CLS]对应向量;使用词注意力机制获得句子向量;获得原文所有句子的句子向量并拼接,以[SCLS]向量的形式传入transformer模型,获取最后一层隐藏层向量以及[SCLS]对应向量;使用句注意力机制获得文本向量;训练检索网络模型并更新参数,在测试集上提取文本特征并进行测试。本发明可获得更好的处理长文本,能够更为有效的提升长文本分类准确性,并且复杂度更低。
-
-
-
-
-
-
-
-
-