-
公开(公告)号:CN116451593B
公开(公告)日:2023-11-14
申请号:CN202310700718.0
申请日:2023-06-14
申请人: 北京邮电大学
IPC分类号: G06F30/27 , G06N3/092 , G06N3/098 , G06F17/15 , G06F18/214
摘要: 本申请提供一种基于数据质量评估的强化联邦学习动态采样方法及设备,能够根据初始梯度信息构建初始全局模型,并根据初始全局模型的模型性能确定每个客户端的贡献指数,将贡献指数应用到联邦学习的客户端采样中,可以基于贡献指数评估每个客户端的数据质量。然后根据贡献指数和预设的目标精度确定每个客户端的最优动作价值函数值,因为最优动作价值函数综合考虑了模型性能和模型精度,所以根据最优动作价值函数值对预设数量个客户端进行采样,能够有效地在大量参与联邦学习的客户端中智能化地筛选出高数据质量的客户端,利用具有高数据质量的客户端进行强化联邦学习,可以提高联邦学习得到的全局模型的质量和精度。
-
公开(公告)号:CN116955699A
公开(公告)日:2023-10-27
申请号:CN202310882289.3
申请日:2023-07-18
申请人: 北京邮电大学
IPC分类号: G06F16/735 , G06N3/044 , G06N3/0442 , G06N3/08 , G06F16/783
摘要: 本发明提供一种视频跨模态搜索模型训练方法、搜索方法及装置,对于用于检索的文本数据采用文字特征编码模型和初始文本语义映射网络映射至公共语义空间;被检索的科技视频通过光学字符识别和科技视频自动语音识别提取文本内容,提取首尾帧图像内容,分别进行特征提取后执行特征融合,并通过初始视频语义映射网络映射至公共语义空间;在下游构建相似度比对任务、语义分类任务和模态判别任务,对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练,提升文本和视频两种类型数据在公共语义空间内表示的精确度,并关注到模态内和模态间的关联及差异。
-
公开(公告)号:CN116561591A
公开(公告)日:2023-08-08
申请号:CN202310836743.1
申请日:2023-07-10
申请人: 北京邮电大学 , 北京极智嘉科技股份有限公司
IPC分类号: G06F18/214 , G06F18/213 , G06F40/30 , G06N3/042 , G06N3/0455 , G06N3/088
摘要: 本发明提供一种科技文献语义特征提取模型训练方法、特征提取方法及装置,通过自适应特征处理,结合全局信息和局部信息,对科技文献的特征丰富化;通过引入多头注意力机制,关注科技文献特征之间的关系;通过构建正样本和负样本,比较计算潜在空间上正负样本语义表示与全局图级汇总向量之间的互信息,构建损失对图注意力机制编码器的参数进行更新,提升语义表示学习能力。
-
公开(公告)号:CN114841173A
公开(公告)日:2022-08-02
申请号:CN202210778073.8
申请日:2022-07-04
申请人: 北京邮电大学
IPC分类号: G06F40/30 , G06F40/211 , G06K9/62
摘要: 本发明提供一种基于预训练模型的学术文本语义特征提取方法、系统和存储介质,所述方法包括:获取学术资源文本数据;将获得的学术资源文本数据输入至预训练模型,得到多维的学术文本语义特征向量;所述预训练模型是基于多重负样例损失函数对Bert预训练模型进行微调、将微调后的Bert预训练模型作为教师模型通过知识蒸馏来训练学生模型得到的学生预训练模型;将所述多维的学术文本语义特征向量进行降维压缩,输出最终的学术文本语义特征。本发明在提高向量生成质量的同时加快了向量生成的速度,适用于学术大数据场景下的文本向量生成。
-
公开(公告)号:CN113515638B
公开(公告)日:2021-12-07
申请号:CN202111072396.7
申请日:2021-09-14
申请人: 北京邮电大学
摘要: 本发明提供一种面向学者聚类的研究兴趣挖掘方法、装置和存储介质,该方法包括以下步骤:基于多源学者相关学术数据构造学术元数据集合;将学术元数据作为输入数据输入到预先建立的研究兴趣挖掘模型中,对主题模型进行采样获得学者兴趣语义表示,学者兴趣语义表示包括专业领域‑主题分布、主题‑英文单词分布、主题‑中文单词分布和主题‑学者分布;基于获得的学者兴趣语义表示进行学者聚类,获得学者聚类结果;研究兴趣挖掘模型对来自同一数据源且属于同一个专业领域的学者的数据共享同一个主题分布,研究兴趣挖掘模型中,专业领域‑主题分布被建模为狄利克雷分布,主题‑英文单词分布、主题‑中文单词分布和主题‑学者分布被建模为多项式分布。
-
公开(公告)号:CN113515638A
公开(公告)日:2021-10-19
申请号:CN202111072396.7
申请日:2021-09-14
申请人: 北京邮电大学
摘要: 本发明提供一种面向学者聚类的研究兴趣挖掘方法、装置和存储介质,该方法包括以下步骤:基于多源学者相关学术数据构造学术元数据集合;将学术元数据作为输入数据输入到预先建立的研究兴趣挖掘模型中,对主题模型进行采样获得学者兴趣语义表示,学者兴趣语义表示包括专业领域‑主题分布、主题‑英文单词分布、主题‑中文单词分布和主题‑学者分布;基于获得的学者兴趣语义表示进行学者聚类,获得学者聚类结果;研究兴趣挖掘模型对来自同一数据源且属于同一个专业领域的学者的数据共享同一个主题分布,研究兴趣挖掘模型中,专业领域‑主题分布被建模为狄利克雷分布,主题‑英文单词分布、主题‑中文单词分布和主题‑学者分布被建模为多项式分布。
-
公开(公告)号:CN113239915A
公开(公告)日:2021-08-10
申请号:CN202110787829.0
申请日:2021-07-13
申请人: 北京邮电大学
摘要: 本公开提供一种课堂行为的识别方法、装置、设备及存储介质,方法包括获取课堂视频;基于课堂视频中的图像帧进行目标识别和跟踪,得到目标图像流;将目标图像流输入训练好的识别模型进行识别,得到课堂行为结果,其中,训练好的识别模型包括:时空特征网络,用于对目标图像流进行特征提取,得到目标图像流的时空特征;深层特征网络,用于对时空特征进行学习得到深层特征;分类网络,用于对深层特征进行分类得到课堂行为结果。根据本公开,解决了实际应用中教学课堂场景的课堂行为识别时目标众多且具有遮挡问题。能够通过增强课堂行为的时序特征学习能力,以发现课堂行为在时间维度的变化规律,进而提高学生课堂行为识别的精准度。
-
公开(公告)号:CN113239237A
公开(公告)日:2021-08-10
申请号:CN202110787827.1
申请日:2021-07-13
申请人: 北京邮电大学
IPC分类号: G06F16/783 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本说明书一个或多个实施例提供一种跨媒体大数据搜索方法及装置,包括:分别提取图像数据的图像语义特征和文本数据的文本语义特征;计算图像语义特征和文本语义特征之间的相似度,根据相似度分别确定图像注意力特征和文本注意力特征;以图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量;以文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量;根据图像上下文特征向量和文本上下文特征向量,利用对抗学习确定统一语义表示;基于统一语义表示进行搜索。本说明书的搜索方法能够获得精确的搜索结果。
-
公开(公告)号:CN106251289A
公开(公告)日:2016-12-21
申请号:CN201610581026.9
申请日:2016-07-21
申请人: 北京邮电大学
CPC分类号: G06T3/4053 , G06T5/50
摘要: 本发明公开了一种基于深度学习和自相似性的视频超分辨率重建方法,属于视频处理技术领域。本方法包括视频帧提取、初步估计、初步重建、再次重建和视频帧整合等步骤。本方法综合利用了外部训练集和内部自相似性所提供的先验约束条件,对于一些平滑区域和极少出现在视频帧序列内部的不规则结构信息,以及一些很少出现在外部训练集而重复出现在视频帧序列内部的独特和奇异特征等情况都具有较好的重建效果,此外,本方法不依赖于精确的亚像素运动估计,因而能够适应于复杂的运动场景,实现较大倍数的超分辨率重建。
-
公开(公告)号:CN106202530A
公开(公告)日:2016-12-07
申请号:CN201610586683.2
申请日:2016-07-22
申请人: 北京邮电大学
摘要: 本发明实施例提供一种数据处理方法及装置,所述方法包括:获取资讯,将资讯加入资讯集合中;将资讯集合中的一篇资讯作为待处理文档;若均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量;否则,根据预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及待处理文档中事件发生的第二时间,分别计算待处理文档对应的特征向量与话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;将待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。所述方法考虑了获取待处理文档的第一时间以及待处理文档中事件发生的第二时间,提高了话题模型的精确度。
-
-
-
-
-
-
-
-
-