-
公开(公告)号:CN112989977B
公开(公告)日:2022-09-06
申请号:CN202110235810.5
申请日:2021-03-03
Applicant: 复旦大学
Abstract: 本发明提供了一种基于跨模态注意力机制的视听事件定位方法及装置,用于对目标音视频中的事件进行识别与定位,其特征在于,包括如下步骤:对目标音视频进行预处理得到图像特征以及音频特征;基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出目标音视频中每一个时刻的事件类别。其中,神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块。跨模态注意力机制模块用于获取视频模态与音频模态间的信息,并使用一个模态的信息处理另一模态的信息,实现模态间的信息交互。单模态自注意力机制模块以及循环神经网络模块用于捕捉模态内的长距离依赖关系。
-
公开(公告)号:CN110782872A
公开(公告)日:2020-02-11
申请号:CN201911093837.4
申请日:2019-11-11
Applicant: 复旦大学
Abstract: 本发明提供一种基于深度卷积循环神经网络的语种识别方法及装置,用于对待测音频序列进行识别从而识别出对应的语种,该方法不需要音频领域的专家知识即可实现高准确率的语种识别功能,其特征在于,包括如下步骤:步骤S1,将待测音频序列分成多个时间长度为2s的音频段;步骤S2,依次将各个音频段进行短时傅里叶变换转化为对应的频谱图;步骤S3,依次将频谱图输入预先训练的卷积循环神经网络模型从而获取对应每个音频段的音频类别判断概率;步骤S4,根据每个音频数据的相应所有音频段的音频类别判断概率得出各个对应音频数据的语种类别。
-
公开(公告)号:CN112989977A
公开(公告)日:2021-06-18
申请号:CN202110235810.5
申请日:2021-03-03
Applicant: 复旦大学
Abstract: 本发明提供了一种基于跨模态注意力机制的视听事件定位方法及装置,用于对目标音视频中的事件进行识别与定位,其特征在于,包括如下步骤:对目标音视频进行预处理得到图像特征以及音频特征;基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出目标音视频中每一个时刻的事件类别。其中,神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块。跨模态注意力机制模块用于获取视频模态与音频模态间的信息,并使用一个模态的信息处理另一模态的信息,实现模态间的信息交互。单模态自注意力机制模块以及循环神经网络模块用于捕捉模态内的长距离依赖关系。
-
公开(公告)号:CN116768870A
公开(公告)日:2023-09-19
申请号:CN202210220889.9
申请日:2022-03-08
Applicant: 中国科学院上海药物研究所 , 复旦大学
IPC: C07D405/14 , C07D413/06 , C07D413/12 , C07D413/14 , C07D471/04 , A61P35/00 , A61P35/02 , A61P35/04 , A61P31/14 , A61P31/16 , A61P31/18 , A61P31/20 , A61P31/22 , A61P31/10 , A61P31/04 , A61P33/06 , A61P33/02 , A61P25/28 , A61K31/4709 , A61K31/4439 , A61K31/423 , A61K31/4375
Abstract: 本发明公开了一种具有苄氧基芳基醚结构的化合物其制备方法和用途,所述具有苄氧基芳基醚结构的化合物结构如式I所示,式中各取代基的定义如说明书和权利要求书中所述。本发明的化合物可用于制备PD1/PD‑L1相互作用的小分子抑制剂,用于预防和/或治疗与PD1/PD‑L1相互作用相关的疾病,尤其是癌症。#imgabs0#
-
公开(公告)号:CN112989967A
公开(公告)日:2021-06-18
申请号:CN202110213548.4
申请日:2021-02-25
Applicant: 复旦大学
Abstract: 本发明提供了一种基于音视频信息融合的人员身份识别方法,具有这样的特征,包括以下步骤,步骤S1,读入音视频资料的视频信息以及音频信息,对视频信息以及音频信息进行预处理,得到预处理视频信息以及预处理音频信息;步骤S2,将预处理音频信息进行处理,提取出音频特征;步骤S3,将预处理视频信息进行处理,提取出针对预处理视频信息中人员的人脸特征、头部特征以及身体特征;步骤S4,搭建多个MLP神经网络模型,并对多个MLP神经网络模型进行训练以及权值的设定,得到MLP神经网络联合模型;步骤S5,把音频特征、人脸特征、头部特征以及身体特征输入MLP神经网络联合模型,得到判断的类别结果。
-
公开(公告)号:CN112863538A
公开(公告)日:2021-05-28
申请号:CN202110208096.0
申请日:2021-02-24
Applicant: 复旦大学
IPC: G10L21/0272 , G10L21/0208 , G10L25/57 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于视听网络的多模态语音分离方法及装置,用于从待分离音视频中分离出画面中说话人的语音,其特征在于,包括如下步骤:利用第一预处理方法对第一音视频训练数据处理得到第一预处理数据;构建多模态网络模型;将第一预处理数据输入多模态网络模型训练,得到音视频对齐判断模型;利用第二预处理方法对第二音视频训练数据处理得到第二预处理数据;搭建Wave‑U‑Net分割模型,并与音视频对齐判断模型构成视听模型;将第二预处理数据输入视听模型训练,得到视音频分割模型;将待分离音视频输入视音频分割模型得到画面中说话人的语音。其中,将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练。
-
公开(公告)号:CN117177969A
公开(公告)日:2023-12-05
申请号:CN202380011034.8
申请日:2023-03-06
Applicant: 中国科学院上海药物研究所 , 复旦大学
IPC: C07D405/14
Abstract: 本发明公开了一种具有苄氧基芳基醚结构的化合物其制备方法和用途,所述具有苄氧基芳基醚结构的化合物结构如式(I)所示,式中各取代基的定义如说明书和权利要求书中所述。本发明的化合物可用于制备PD1/PD‑L1相互作用的小分子抑制剂,用于预防和/或治疗与PD1/PD‑L1相互作用相关的疾病,尤其是癌症。
-
公开(公告)号:CN112863538B
公开(公告)日:2022-06-14
申请号:CN202110208096.0
申请日:2021-02-24
Applicant: 复旦大学
IPC: G10L21/0272 , G10L21/0208 , G10L25/57 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于视听网络的多模态语音分离方法及装置,用于从待分离音视频中分离出画面中说话人的语音,其特征在于,包括如下步骤:利用第一预处理方法对第一音视频训练数据处理得到第一预处理数据;构建多模态网络模型;将第一预处理数据输入多模态网络模型训练,得到音视频对齐判断模型;利用第二预处理方法对第二音视频训练数据处理得到第二预处理数据;搭建Wave‑U‑Net分割模型,并与音视频对齐判断模型构成视听模型;将第二预处理数据输入视听模型训练,得到视音频分割模型;将待分离音视频输入视音频分割模型得到画面中说话人的语音。其中,将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练。
-
-
-
-
-
-
-