-
公开(公告)号:CN116417008A
公开(公告)日:2023-07-11
申请号:CN202310403921.1
申请日:2023-04-14
Applicant: 哈尔滨理工大学
IPC: G10L21/0272 , G10L25/30 , G10L25/57 , G06V40/20 , G10L15/25 , G06V10/24 , G06V10/44 , G06V10/80 , G06V10/82 , G06V20/40 , G06N3/049 , G06N3/0464 , G06N3/045 , G06N3/08
Abstract: 本发明充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(Farneback)算法和U‑Net网络,提出跨模态融合的光流‑音视频语音分离(Flow‑AVSS)模型。该模型通过Farneback算法和轻量级网络ShuffleNet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(TCN)得到视觉特征,为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合音视频特征,最后融合音视频特征经过U‑Net分离网络得到分离语音。利用PESQ、STOI及SDR评价指标,在AVspeech数据集进行实验测试。本方法与纯语音分离网络和仅采用特征拼接的音视频分离网络相比,性能上分别提高了2.23dB和1.68dB。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。
-
公开(公告)号:CN113724727A
公开(公告)日:2021-11-30
申请号:CN202111035383.2
申请日:2021-09-02
Applicant: 哈尔滨理工大学
IPC: G10L21/0272 , G10L21/0216 , G10L21/0224 , G10L21/0232 , G10L25/30
Abstract: 在利用深度学习方式进行语音分离的领域,多路人声信号分离较为复杂,现阶段所使用的分离方式多是基于频谱映射方式,没有有效利用语音信号空间信息。针对此问题,本发明结合波束形成算法和LSTM网络提出了一种波束形成LSTM算法,通过超指向波束形成算法得到3个不同方向上的波束,然后提取每一波束中频谱幅度特征,并构建神经网络预测掩蔽值,得到待分离语音信号频谱并重构时域信号,实现语音分离,该算法充分利用了语音信号空间特征和信号频域特征。60度方向该算法与IBM‑LSTM网络相比,客观语音质量评估(PESQ)提高了0.59,短时客观可懂(STOI)指标提高了0.06,信噪比(SDR)提高了1.13dB,另外两个方向上,实验结果同样证明了该算法较IBM‑LSTM算法和RNN算法具有更好分离性能。
-
公开(公告)号:CN113593601A
公开(公告)日:2021-11-02
申请号:CN202110846973.7
申请日:2021-07-27
Applicant: 哈尔滨理工大学
Abstract: 本发明公开了一种基于深度学习的视听多模态语音分离方法,所述方法包括:对视频流的每个说话人的面部进行识别,获得说话人的面部嵌入,处理说话人的每帧面部嵌入以生成说话者的面部视觉特征;获得视频的音频频谱图,对所得到的的音频谱图进行处理以生成音频的音频嵌入特征;将一个或者多个说话人的视觉特征和音频特征进行多模态融合,生成视听融合特征;构建多模态网络模型;将视听融合特征输入多模态网络模型进行训练,得到一个或多个说话人的每一个确定相应的频谱图掩模;根据频率掩模确定每个说话人相应的语音频谱图,最终分离出语音信号。本发明提供的方法能够有效提高语音分离性能,使分离后的语音更加清晰、可懂且音质更好。
-
公开(公告)号:CN109147237B
公开(公告)日:2021-05-25
申请号:CN201811055511.8
申请日:2018-09-11
Applicant: 哈尔滨理工大学
IPC: G07G1/14
Abstract: 本发明涉及一种销售系统,为了解决现有图书销售网站不适用于实体店的问题,本发明提供一种图书销售系统。本发明包括:登录模块,用于实现管理员及用户登录;选购模块,用于实现用户搜索和分类查看书籍信息、添加购物车和查看购物车;支付模块,用于用户支付选购的图书;图书管理模块,用于实现管理员对书籍信息的添加、删除及修改的操作;订单管理模块,用于,实现管理员对订单的管理操作;公告栏模块,用于实现管理员对书籍信息、商家公告及系统公告添加或删除操作;友情链接模块,用于管理员添加或删除广告链接的操作;网页显示模块,用于显示系统的各页面;数据库交互模块,用于实现各模块之间的数据交互。本发明适用所有实体店进行网络销售。
-
公开(公告)号:CN111899754A
公开(公告)日:2020-11-06
申请号:CN202010743053.8
申请日:2020-07-29
Applicant: 哈尔滨理工大学
IPC: G10L21/0272 , G10L21/0208 , G10L21/0232
Abstract: 本发明公开了GA_FastICA算法的语音分离效果算法,包括如下步骤:在传统谱减法中假定噪声信号为d(n),纯净的语音信号为f(n),获取带噪混合信号h(n);带噪混合信号经过短时傅里叶变换后获得频谱;利用GA算法计算得到的增益来计算纯净语音功率谱和混合语音功率谱之间的关系,得到纯净语音信号的功率谱,弥补了传统谱减法在0dB左右交叉项为零的假设不成立弊端,通过短时傅里叶逆变换可还原成原始语音信号,FastICA算法进行语音分离,获得分离后语音信号。本发明在不同信噪比条件下,绘制了分离后语音信号时域波形,分析了分离后信号和原始信号之间的相关系数,并比较了GA_FastICA和FastICA、IBM、FOBI算法的分离效果,GA_FastICA算法可有效分离语音信号,在噪声环境下具有较好的语音分离效果。
-
公开(公告)号:CN110009157A
公开(公告)日:2019-07-12
申请号:CN201910283848.2
申请日:2019-04-10
Applicant: 哈尔滨理工大学
Abstract: 一种满足用户个性化需求的在线值机选座方法属于民航领域;包括通过用户移动通讯设备或者计算机登录客户端与航空公司网络服务器进行连接,并向航空公司网络服务器发送用户的身份信息(可选择是否公开自己的信息)和所要值机的航班信息;然后,航空公司网络服务器将当前航班值机选座情况发送给用户端;用户根据当前航班值机选座情况进行标签选择;用户可通过或者不通过标签最终选择一个座位作为值机座位并发送给航空公司网络服务器;最后航空公司网络服务器更新数据库,用户完成在线值机选座。本发明提供了一种在线值机选座方法,不仅提高了用户办理登机手续的效率,且提高了航空业务的人性化服务,使用户出行拥有一个更加舒适的心情和环境。
-
公开(公告)号:CN109147237A
公开(公告)日:2019-01-04
申请号:CN201811055511.8
申请日:2018-09-11
Applicant: 哈尔滨理工大学
IPC: G07G1/14
CPC classification number: G07G1/14
Abstract: 本发明涉及一种销售系统,为了解决现有图书销售网站不适用于实体店的问题,本发明提供一种图书销售系统。本发明包括:登录模块,用于实现管理员及用户登录;选购模块,用于实现用户搜索和分类查看书籍信息、添加购物车和查看购物车;支付模块,用于用户支付选购的图书;图书管理模块,用于实现管理员对书籍信息的添加、删除及修改的操作;订单管理模块,用于,实现管理员对订单的管理操作;公告栏模块,用于实现管理员对书籍信息、商家公告及系统公告添加或删除操作;友情链接模块,用于管理员添加或删除广告链接的操作;网页显示模块,用于显示系统的各页面;数据库交互模块,用于实现各模块之间的数据交互。本发明适用所有实体店进行网络销售。
-
公开(公告)号:CN106768303A
公开(公告)日:2017-05-31
申请号:CN201710069114.5
申请日:2017-02-08
Applicant: 哈尔滨理工大学
IPC: G01H17/00
Abstract: 本发明涉及声波相互作用领域,具体涉及一种两列平面声波非线性相互作用实验测试系统及方法。本发明为解决两列声波相互作用后低频声波能量变化的实验测量问题,提出了湖上实验测量两列平面声波非线相互作用实验测试系统及方法。本发明的平面声波非线相互作用实验测试系统包括低频发射系统、高频发射系统、发射架、接收系统、示波器,本发明的平面声波非线相互作用实验测试方法包括如下步骤:1、安装装置;2、单独发射低频声波,记录数据;3、单独发射高频声波,记录数据;4、同时发射高低频声波,记录数据;5、根据实验数据得到能量变化。本发明解决了两列声波相互作用后低频声波能量变化的测量问题,适用于声波能量的控制领域。
-
公开(公告)号:CN118520627A
公开(公告)日:2024-08-20
申请号:CN202310128023.X
申请日:2023-02-17
Applicant: 哈尔滨理工大学
IPC: G06F30/20 , G06F17/18 , G06F119/02
Abstract: 本申请属于军事技术基础科学领域,提供了一种基于复杂声传播环境下的水下作战效能评估方法,所述方法包括:将传播损失作为探测过程中的主要影响因素,建立一种考虑水文环境的水声传播模型;充分发挥无人军事设备在海上作战的潜能,提出加入海、陆、空全方位的无人作战系统。以时间步长为基础对作战系统进行建模,模型具有实时性。采用蒙特卡洛方法对不同作战系统进行水下作战效能评估。本发明构建的加入无人集群对抗方案比基础航母编队方案提升至少10%的航母存活概率。证明无人集群方案能够大幅提升搜索效率,对引入无人集群到实际的反潜作战具有参考意义。
-
公开(公告)号:CN116994594A
公开(公告)日:2023-11-03
申请号:CN202310476458.3
申请日:2023-04-27
Applicant: 哈尔滨理工大学
IPC: G10L21/0208 , G10L21/0232 , G10L21/0264 , G10L25/30 , G10L25/03
Abstract: 本发明公开了一种在低信噪比场景下的ME‑MGCRN单通道语音增强算法,所述方法包括:在低信噪比条件下,针对传统神经网络对语音增强效果较差的问题,结合门控线性单元与卷积循环神经网络提取的语音特征;提出了自适应平均中位数经验模态分解多层门控卷积循环神经网络的语音增强模型。本发明提供的方法在低信噪比条件下较为全面的提取了语音特征,对于低信噪比下的语音信号具有较好的增强性能。
-
-
-
-
-
-
-
-
-