-
公开(公告)号:CN109977407A
公开(公告)日:2019-07-05
申请号:CN201910236193.3
申请日:2019-03-27
IPC: G06F17/27
Abstract: 本发明涉及一种基于词嵌入的书面语篇多层次差异分析方法,包括:步骤1)对独白语篇与对话语篇进行差异分析;步骤2)分析不同字/词嵌入与语篇用词之间的关联性。所述步骤1)包括:结构差异分析、关系差异分析、用语差异分析。所述步骤2)包括:对比独白语篇和对话语篇中出现的字/词与各个数据集字/词嵌入的重合情况;使用字/词嵌入的目的是对字词用特定维度的向量进行表示,进行模型的训练。本发明通过统计分析方法对独白语篇和对话语篇进行多层次、多角度的差异分析,找出了在独白语篇和对话语篇中存在从结构到具体功能分布之间的差异,从篇章结构以及句长、词汇用法等层面对这些差异加以表现,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109558905A
公开(公告)日:2019-04-02
申请号:CN201811403709.0
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06K9/62
Abstract: 本发明涉及一种基于K-means的能耗感知的数据分类方法,包括:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后针对每一个数据构建相应的季节性特性数组,进而利用K-means算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其潮汐特性,并将不同潮汐特性的数据分布在不同的存储区域。本发明通过提取数据的潮汐特性和季节性特性,利用K-means对数据进行聚类存储,将具有相似访问特性的数据进行聚类存储,通过控制磁盘转速的方式,在不同的时间阶段上对不同的存储区域实施不同的能耗和性能模式,达到在季节和周的粒度范畴上的极佳降耗效果,能耗低。
-
公开(公告)号:CN108920454A
公开(公告)日:2018-11-30
申请号:CN201810605920.4
申请日:2018-06-13
Applicant: 北京信息科技大学
IPC: G06F17/27
Abstract: 本发明涉及一种主题短语抽取方法,包括:文档预处理;求文档-主题集、全文词汇链集及名词短语集;求中心词集;求候选主题短语集;求主题短语集。本发明提供的主题短语抽取方法,通过LDA模型与词汇链相结合来进行主题短语抽取,可以利用语料库之外的具有较完备语义信息的知识库WordNet,通过语义相关度计算和强链规则筛选可以得到强词汇链,从而在很大程度上减少主题词二义性问题;同时,利用中心词提取方法和N-P规则合并、去重等步骤完成主题短语的提取,借助具有更丰富语义信息的主题短语来表达主题,从而解决了主题词粒度过小、辨识度低等问题,且能够保证主题抽取的准确率和召回率,减少了主题漂移现象,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108898166A
公开(公告)日:2018-11-27
申请号:CN201810605917.2
申请日:2018-06-13
Applicant: 北京信息科技大学
IPC: G06K9/62
Abstract: 本发明涉及一种图像标注方法,包括以下步骤:利用改进的FCM聚类算法对数据集中的每一个标签样本进行聚类,将不同语义的数据集划分为不同的类,得到每一个类的聚类中心集合;计算图像到各个类的聚类中心的欧式距离,计算得到图像到各个类的平均距离,求得与图像距离最小的一个类即为图像的标注类;找到图像到类中聚类中心距离最近的一个类,统计类中出现次数最多的标注词即为图像的标注词。本发明提供的图像标注方法,采用改进的FCM聚类算法对每一个语义标签类进行聚类,改进的FCM聚类算法中采用了新的距离测度算法,大大提高了图像标注的准确率,标注效果好,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105389303B
公开(公告)日:2018-11-27
申请号:CN201510701364.7
申请日:2015-10-27
Abstract: 本发明涉及一种异源语料自动融合方法,包括以下步骤:步骤1)构建UNP映射词表;步骤2)对源体系的标注进行归一化处理;步骤3)确定产生歧义的词的词性,对语料体系中词的词义进行评判,进而确定词的词性标记;步骤4)对目标词汇集合中的单类词进行训练,然后用所述特征模板对多类词进行预测,输出预测结果的概率值;步骤5)对概率值的分布曲线进行曲线拟合;步骤6)对预测结果进行置信度评价;步骤7)对预测结果进行正确性验证;步骤8)将标注后的词及词性信息还原到原始语料中,将语料库融合为一个更大规模的语料库。本发明扩展了语料库的规模,统一了标注标准,提高了后续基于语料库语言学的研究分析的准确性,获得了较好的效果。
-
公开(公告)号:CN108829823A
公开(公告)日:2018-11-16
申请号:CN201810605919.1
申请日:2018-06-13
Applicant: 北京信息科技大学
IPC: G06F17/30
Abstract: 本发明涉及一种采用一种改进输入的Attention-Based LSTM模型来进行高校学术活动的文本分类工作,采用字符级语言模型,对输入进行五笔码转化,随后进行文本数据向量表示,再输入Attention-Based LSTM模型进行分类。本发明提供的文本分类方法,利用改进输入的Attention-Based LSTM特征选择模型进行特征选择和分类,能够改善数据质量,降低数据维度,并有效地突出重点信息,优化特征向量,分类结果的准确率、召回率和F值都很高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN108776706A
公开(公告)日:2018-11-09
申请号:CN201810610749.6
申请日:2018-06-13
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种基于本体的专利技术主题聚类方法,包括:将专利技术主题中的词语与领域本体中的概念术语建立映射关系;计算概念术语之间的相似度;利用概念术语之间的相似度来计算专利技术主题之间的相似度;根据专利技术主题之间的相似度以矩阵的形式输入AP聚类算法中,输出专利技术主题聚成的若干个簇以及每个簇相对应的主题。本发明提供的基于本体的专利技术主题聚类方法,在相似度计算的基础上对抽取的关键技术主题词语进行聚类,将语义相似的词语聚成一个簇,选取最能代表该簇的词语作为簇中的技术主题,聚类结果的准确率、召回率和综合评价指标的值均较高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN119741625A
公开(公告)日:2025-04-01
申请号:CN202411956595.8
申请日:2024-12-29
Applicant: 北京信息科技大学
Abstract: 本发明公开了一种基于跨头部协同蒸馏与特征标准化的航拍图像目标检测方法,其特征在于,包括:训练教师网络,得到一个准确度较高的教师网络;随机初始化学生网络,输入图像之后通过特征金字塔结构获取教师和学生网络的多尺度特征;使用特征共享标准化层获取标准化的教师和学生网络的特征,并求特征相关性损失;将学生网络头部特征通过共享标准化层输入跨头部输入教师网络头部,求得预测一致性损失;通过标签获取学生网络的有监督损失;根据反向传播的梯度信息更新学生网络的权重值。本发明可以通过跨头标准化的方法提升目标检测模型蒸馏效果,使较少参数量的目标检测学生网络获得和较大参数的教师模型近似的精度。
-
公开(公告)号:CN108920456B
公开(公告)日:2022-08-30
申请号:CN201810611476.7
申请日:2018-06-13
Applicant: 北京信息科技大学
IPC: G06F40/211 , G06F40/216
Abstract: 本发明涉及一种关键词自动抽取方法,包括:抽取技术标准中的通用词,抽取候选关键词,针对候选关键词过滤通用词后,综合位置特征、词共现特征以及上下文语义特征计算候选关键词权重得分,根据候选关键词权重得分范围计算动态阈值,利用动态阈值确定结果关键词。本发明提供的关键词自动抽取方法,融合位置特征、词共现特征以及上下文语义特征抽取关键词,综合考虑文档内部位置以及上下文语义特征对关键词的权重影响,达到了更高的正确率和召回率,提高了3GPP技术标准检索质量,降低了人工成本,可以很好地满足实际应用的需要。
-
公开(公告)号:CN112507080A
公开(公告)日:2021-03-16
申请号:CN202011482957.6
申请日:2020-12-16
Applicant: 北京信息科技大学
IPC: G06F16/33 , G06F40/289 , G06F40/232 , G06F40/166
Abstract: 本申请公开了一种文字识别矫正的方法,包括:构建专业词库;构建识别结果区域矩阵;矫正。本申请的文字识别矫正的方法,通过引入语言模型,统计条件概率预测最佳符合词库的识别结果,通过检测项对应关系,进行前后矫正,进一步提高识别精确度,最后通过融合编辑距离和最长公共子序列的识别方法匹配最佳的识别结果,提高了识别准确率,能够很好地满足实际应用的需要。
-
-
-
-
-
-
-
-
-