-
公开(公告)号:CN115862659A
公开(公告)日:2023-03-28
申请号:CN202211184250.6
申请日:2022-09-27
Applicant: 北京大学
IPC: G10L21/0272 , G10L19/02 , G10L25/18 , G10L25/24 , G10L25/27
Abstract: 本发明公开了一种基于双向级联框架的迭代式基频提取与语音分离方法和装置,对混合语音逐帧迭代地进行“基频预测‑语音分离‑基频更新”,在迭代中提升二者的性能。基频预测模块为后续模块提供基频线索,解决了多个输出带来的置换问题和说话人数目不确定的问题。语音分离模块利用有条件的生成对抗网络进行生成式语音分离,提升分离的语音质量。基频更新模块从已分离出的干净语音中,重新提取基频,更新基频预测的预测值,实现了“预测‑分离‑更新”过程的闭环。在本发明提出的双向级联框架下,语音分离与基频提取这两个任务以迭代的方法交替更新,互相依赖、互相促进,两个任务都取得了更好的性能。
-
公开(公告)号:CN119863512A
公开(公告)日:2025-04-22
申请号:CN202411692444.6
申请日:2024-11-25
Applicant: 北京大学分子医学南京转化研究院 , 南京未来脑科技有限公司
Abstract: 本发明公开了基于SFM的已知地图视频序列三维重定位方法及设备。该方法包括基于SFM技术对场景进行稀疏重建,获取该场景的稀疏三维点云模型以及每张捕获图像的相机内外参数;对于输入的需要重定位的视频或图像序列,获取视频或图像序列对应的相机内参;选取视频或图像序列的第一帧图像与已知地图全图匹配,以获得第一帧图像在该场景中的相机姿态;根据获得的第一帧图像在场景中的相机姿态,并通过特征匹配建立相邻两帧图像的匹配关系,并使用PnP‑RANSAC定位其余帧图像在场景中的相机姿态。本发明可快速执行重定位操作,大幅提升了原始的SFM视觉重定位的速度。
-
公开(公告)号:CN115910091A
公开(公告)日:2023-04-04
申请号:CN202211184016.3
申请日:2022-09-27
Applicant: 北京大学
IPC: G10L21/0272 , G10L21/0232 , G10L19/02 , G10L25/24
Abstract: 本发明公开了一种引入基频线索的生成式语音分离方法和装置。本发明开创性地利用基频线索作为条件,结合混合语音提供的频谱细节信息,使用生成式神经网络生成目标说话人语音,与传统通过估计混合语音的时频掩膜来提取目标语音的方法相比,分离语音的音质和可懂度得到提高。相比于同时分离所有说话人语音的方法,本发明通过引入基频线索解决了现有方法中说话人数目不确定和难以确定网络输出与真实说话人之间对应关系的问题。本发明依托于听觉加工机制和神经网络结构,取得了与当前最优方法可比的性能,为机器在复杂场景中解决语音分离任务提供了可能。
-
公开(公告)号:CN115631744A
公开(公告)日:2023-01-20
申请号:CN202211084602.0
申请日:2022-09-06
Applicant: 北京大学
Abstract: 本发明一种两阶段的多说话人基频轨迹提取方法,其步骤包括:1)对给定的多说话人混合语音进行处理,得到所述多说话人混合语音中每一帧的频谱;2)利用卷积神经网络获取所述幅度谱的局部特征;3)将各帧的局部特征输入全连接层,得到每一帧对应的所有基频估计值;4)将所得各帧的基频估计值作为输入,迭代预测每一说话人的基频序列;其中第i轮迭代的处理方法为:a)将第i‑1轮分离的基频序列输入编码器得到基频序列的特征表示;b)将基频序列特征表示与基频估计值输入到条件链式模块中,得到第i轮迭代对应的隐层输出向量;c)解码器将第i轮迭代对应的隐层输出向量解码为第i个说话人的基频序列。本发明提出的方法无需预设输出数目。
-
公开(公告)号:CN119850946A
公开(公告)日:2025-04-18
申请号:CN202411690843.9
申请日:2024-11-25
Applicant: 北京大学分子医学南京转化研究院 , 南京未来脑科技有限公司
Abstract: 本发明公开了一种基于高斯抛雪球法的三维空间客体语义分割方法及设备。该方法包括采用colmap软件对RGB图像集进行处理,以获得相机内外参数和RGB图像集描述空间的稀疏点云集;将相机的内外参数和稀疏点云集输入至改进后的gaussian splatting模型中,以获得所述稀疏点云集中每一稀疏点云对应的3d gaussian点并存储,并将3d gaussian点投影到2d平面,并通过积分的方式渲染像素颜色和分割属性,以获得初步的RGB图像和初步的分割图像,对模型迭代优化后,根据相机的内外参数即可获得与相机的内外参数对应的最终的RGB图像和最终的分割图像。本发明实现了从2d分割到3d分割的映射,部署简单。
-
公开(公告)号:CN107562188A
公开(公告)日:2018-01-09
申请号:CN201710582001.5
申请日:2017-07-17
Applicant: 北京大学
Abstract: 本发明公开了基于原子磁强计的脑机接口系统及其使用方法。本发明结合原子磁强计的工作特点,设计了具备实用性的脑磁帽、磁屏蔽装置;采用原子磁强计探头与光源分离的方案提高系统集成度,强化系统便携性;给出了可以大幅提高运速度、减少处理流程复杂度的脑磁信号处理流程;并就该系统可能应用的场景,给出了可行的通信和外围支持系统的方案。采用本发明提出的脑机接口系统,可以方便地通过脑磁信号完成对本地和远程应用系统的控制,具备实用性和很好的扩展性能。
-
公开(公告)号:CN107562188B
公开(公告)日:2020-08-04
申请号:CN201710582001.5
申请日:2017-07-17
Applicant: 北京大学
Abstract: 本发明公开了基于原子磁强计的脑机接口系统及其使用方法。本发明结合原子磁强计的工作特点,设计了具备实用性的脑磁帽、磁屏蔽装置;采用原子磁强计探头与光源分离的方案提高系统集成度,强化系统便携性;给出了可以大幅提高运速度、减少处理流程复杂度的脑磁信号处理流程;并就该系统可能应用的场景,给出了可行的通信和外围支持系统的方案。采用本发明提出的脑机接口系统,可以方便地通过脑磁信号完成对本地和远程应用系统的控制,具备实用性和很好的扩展性能。
-
-
-
-
-
-