-
公开(公告)号:CN106778834A
公开(公告)日:2017-05-31
申请号:CN201611070606.8
申请日:2016-11-29
IPC: G06K9/62
CPC classification number: G06K9/6222
Abstract: 本发明涉及一种基于距离测度学习的AP聚类图像标注方法,包括以下步骤:步骤1)进行半监督的距离测度学习,得到新的距离测度;步骤2)利用所述新的距离测度进行AP聚类标注。本发明提供的基于距离测度学习的AP聚类图像标注方法,提出了一种基于距离测度学习的AP聚类标注模型,将图像底层视觉特征和图像的语义特征融合起来,有效解决了一些相同语义的图像底层特征差别却很大,语义不同的图像底层特征却相似所造成的“语义鸿沟”,明显提高了标注精度,并且本发明改进的AP聚类标注模型较其他基于分类器的标注模型在多种特征中mAP值都提高了至少0.03,可以很好地满足实际应用的需要。
-
公开(公告)号:CN106355455A
公开(公告)日:2017-01-25
申请号:CN201611014472.8
申请日:2016-11-18
Applicant: 北京信息科技大学
CPC classification number: G06Q30/0201 , G06F16/9535 , G06F17/271 , G06Q30/0224 , G06Q30/0256
Abstract: 本发明涉及一种从网购用户评论中抽取产品特征信息的方法,包括以下步骤:步骤1)对用户评论进行浅层句法分析,识别出用户评论中的多个组块;步骤2)对所述多个组块进行组块分析;步骤3)抽取名词性信息;步骤4)搜索频繁项集;步骤5)过滤频繁项集中的非产品特征。本发明提供的从网购用户评论中抽取产品特征信息的方法,在充分考虑名词块也可能是产品特征的基础上,采用基于CRF的浅层句法分析来进行组块分析,为了提高效率采用了FP-growth算法,在过滤的时候采用了TF-IDF和TextRank相结合的过滤方法,正确率高,适用于分析不同领域的用户评论文本,普遍适用性强,效率高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105550200A
公开(公告)日:2016-05-04
申请号:CN201510863565.7
申请日:2015-12-02
Abstract: 本发明涉及一种面向专利摘要的中文分词方法,包括以下步骤:步骤A:构建专利停用词表;步骤B:抽取候选术语;步骤C:过滤候选术语;步骤D:抽取低频专业术语。本发明提供的面向专利摘要的中文分词方法,采用规则的方法来抽取专利文献的术语,然后利用平均互信息和NC-value算法对候选术语进行过滤,通过条件随机场进一步识别专利文献中出现频率较低的术语,最后将抽取的术语加入到用户词典中对专利文献进行分词,本发明的分词方法的准确率和召回率都很高,可以很好地满足实际应用的需要。
-
公开(公告)号:CN105447158A
公开(公告)日:2016-03-30
申请号:CN201510863731.3
申请日:2015-12-02
IPC: G06F17/30
CPC classification number: G06F16/3334 , G06F16/3344 , G06F16/35
Abstract: 本发明涉及一种基于图的专利搜索日志中同义词集自动挖掘方法,包括以下步骤:步骤1)基于专利搜索日志进行候选同义词集挖掘,抽取出专利搜索日志中的候选同义词集,并将获得的候选同义词集放在同一行中;步骤2)将所述候选同义词集构成知识图;步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算,调节所述知识图的知识图边权重;步骤4)利用Newman聚类算法对知识图进行聚类,将聚在同一类中的候选同义词对作为同义词集。本发明有效地提高了同义词集自动挖掘的准确率,实现了专利搜索日志中同义词集的自动挖掘工作,可以很好地满足实际应用的需要。
-
公开(公告)号:CN103079259B
公开(公告)日:2015-11-11
申请号:CN201210538002.7
申请日:2012-12-13
IPC: H04W48/18
Abstract: 本发明公开了一种移动机会网络中网关选择方法,步骤是:计算相遇频率:由一个控制节点集中计算网络中每个节点同其他节点间平均相遇频率;基于中心度的候选网关选择:依次选择K个中心度最大的节点为候选网关;基于频繁轨迹的候选网关选择:对所有K个节点组合确定其对应的广播频繁轨迹,选择对应期望时延最低的为候选网关;基于蒙特卡洛模拟的网关选择:对基于中心度所得的候选网关、基于频繁轨迹所得的候选网关,利用蒙特卡洛模拟评估从它们开始的期望广播时延,选择时延更短的为最终所选的K个网关。跟传统移动无线网络中固定网关节点选择不同,本发明考虑了机会传输模式下的移动网关选择。移动网关的引入,可降低传统蜂窝接入网络的负载。本发明基于节点社会属性进行移动网关选择,可达到优化从网关出发数据传输速度的目标。
-
公开(公告)号:CN104216880A
公开(公告)日:2014-12-17
申请号:CN201310206190.8
申请日:2013-05-29
Applicant: 北京信息科技大学
CPC classification number: G06F17/30731 , G06F17/2705
Abstract: 基于互联网的术语定义辨析方法,涉及自然语言处理领域。本发明主要解决一个术语多条定义,且定义规范性、准确性欠佳的问题。提出的技术方案要点包括:待辨析术语定义和参考释义获取、术语定义表示和相似度计算、术语定义模板获取、术语定义可信度计算和辨析结果选取。构建的参考释义兼顾术语定义准确性和专业性的特点,应用术语定义的五元组表示方法进行术语定义相似度计算,考虑了术语定义特征词之间的相似度和定义间语义相似度,更好地描绘了术语定义间的相似性;通过归纳术语定义的匹配模板以调整术语定义间相似度,使术语定义可信度更准确。本发明取得了很好的辨析效果,能够解决术语定义不规范、不准确的问题。
-
公开(公告)号:CN120032420A
公开(公告)日:2025-05-23
申请号:CN202411966826.3
申请日:2024-12-30
Applicant: 北京信息科技大学
IPC: G06V40/20 , G06V40/10 , G06V10/74 , G06V10/82 , G06N3/0464 , G06V10/764 , G06N3/045
Abstract: 本发明提供了一种基于属性信息约束的行人重识别方法,包括如下步骤:提取行人的图像特征及属性特征,基于属性相似度确定图像特征所占权重,并使用重识别和属性识别多任务学习,完成重识别过程。本发明通过设计属性相似度对比损失和属性组查询模块来优化行人重识别性能。属性相似度对比损失最小化相似属性行人样本间的特征距离,最大化不同属性行人样本间的特征距离。属性组查询模块利用Transformer解码器中的交叉注意力机制,自适应地提取行人图像中不同属性间的关联特征,并辅助网络学习更具判别性的行人特征。本发明通过属性信息约束的方法获得了更具有判别力的特征,能够更为准确的进行行人重识别。
-
公开(公告)号:CN118093874B
公开(公告)日:2025-05-16
申请号:CN202410275955.1
申请日:2024-03-12
IPC: G06F16/35 , G06F16/334 , G06F18/2415 , G06F40/30 , G06F40/284 , G06N3/0455 , G06N3/047 , G06N3/0442 , G06N3/084
Abstract: 本发明涉及一种低资源语言处理领域的情感分析方法。提出一种基于网格结构与多头注意力的新闻句子情感分析方法。包括以下步骤:通过将网格结构无损转换为扁平结构,实现音节序列中单词信息的引入;采用相对位置编码机制,编码音节和单词的位置和方向信息;使用多头自注意力机制,识别序列中音节和单词的关联关系和语义信息;最后通过全连接层进行分类得到低资源语言新闻句子情感类别。本发明解决了传统循环神经网络无法进行大规模并行计算以及卷积神经网络难以建模句子中的长距离依赖关系的问题,其中多头注意力机制的运用,丰富了词语间的关联关系,增强了句子语义和句法结构信息的理解,提高了低资源语言新闻句子情感分类效果。
-
公开(公告)号:CN119990068A
公开(公告)日:2025-05-13
申请号:CN202411597802.5
申请日:2024-11-11
Applicant: 中国人民解放军军事科学院军事科学信息研究中心 , 北京信息科技大学
IPC: G06F40/157 , G06F40/205 , G06F40/237 , G06F40/30 , G06F16/35 , G06F18/214 , G06F18/25 , G06N3/0455 , G06N3/045 , G06N3/0442 , G06N3/088 , G06N3/096
Abstract: 本发明公开基于标签不变性的上下文数据增强方法,属于自然语言处理技术领域。该方法包括:步骤S1、对输入的原始文本进行id映射,再进行随机顺序打乱,并选择指定数量的字符,作为后续进行数据增强的目标文本;步骤S2、利用改变嵌入层向量的Bert模型和双向LSTM模型,对目标文本执行保留分类标签信息的文本编码处理和上下文特征提取;步骤S3、将提取出的特征向量分别经池化操作、自编码器和去噪自编码器进行变换并进行拼接,通过反向解码生成增强文本作为输出。
-
公开(公告)号:CN116384394A
公开(公告)日:2023-07-04
申请号:CN202310061983.9
申请日:2023-02-04
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06F18/22 , G06F18/25 , G06V10/82 , G06N7/01 , G06N3/0464 , G06N3/0442 , G06N3/045
Abstract: 本发明设计自然语言处理领域的多模态实体识别方法,特别涉及针对模态之间信息交互不足,获得更准确的模型间信息相关性,包括以下步骤:将文本按字切分并转为数字标记输入BERT预训练模型,获取最后一层隐藏层向量;将相应的图像信息输入进RESNET模型获得图像隐藏层向量,同时使用目标检测工具识别图像中包含的目标,通过计算实体和图像中目标的相关性,对模态之间的相关性进行判断;通过对比学习的方式拉近文本向量和图像向量的嵌入分布距离,优化文本向量的表示意义;同时开发了一种动态门机制,更好的利用模态间相关性来增强对比学习的效果;在测试集上提取文本特征并进行测试。本发明可以获得表征含义更丰富的文本表示,能够更为有效的提升多模态实体识别的准确性。
-
-
-
-
-
-
-
-
-