Patent search ap:("东南大学") AND inv:"李溯南" Page 1

1.

发明授权
基于置信度显著分析的多尺度目标检测方法及装置

公开(公告)号：CN115019213B

公开(公告)日：2024-12-20

申请号：CN202210758801.9

申请日：2022-06-30

Applicant: 东南大学

Inventor： 郑文明 , 李溯南 , 宗源 , 赵焱 , 路成 , 连海伦

IPC: G06V20/17 , G06V10/82 , G06V10/764 , G06N3/0464 , G06N3/084

Abstract: 本发明公开了一种基于置信度显著分析的多尺度目标检测方法及装置，方法包括：(1)获取基于航拍的遥感图像目标检测数据库；(2)将数据库中的遥感图像进行预处理；(3)建立深度卷积神经网络；(4)将预处理的图像及其对应标签作为样本输入卷积神经网络，进行训练，训练时采用的损失函数为位置回归损失、置信度交叉熵损失、分类交叉熵损失以及利用置信度计算的显著性损失之和；(5)将待识别的遥感图像预处理后，作为样本输入训练好的深度卷积神经网络，并进行非极大抑制，得到最终的目标检测结果。本发明准确率更高。

2.

发明公开
一种基于可控情感强度的语音编辑方法及装置审中-实审

公开(公告)号：CN118942489A

公开(公告)日：2024-11-12

申请号：CN202411174686.6

申请日：2024-08-26

Applicant: 东南大学

Inventor： 郑文明 , 齐天铧 , 宗源 , 路成 , 连海伦 , 赵焱 , 李溯南

IPC: G10L25/63 , G10L25/24 , G10L25/30

Abstract: 本发明公开了一种基于可控情感强度的语音编辑方法及装置，涉及语音信号处理技术领域，包括：获取原始样本数据，其中，所述原始样本数据包括音频数据、文本数据和情感类别标签；将文本数据转换为音频序列，将音频数据转换为梅尔谱图；将梅尔谱图输入至情感强度感知神经网络模型的后验网络内，提取得到语调特征，其中，所述语调特征包括说话人基频信息以及效价、唤醒度和支配度的数值；将音频序列和效价、唤醒度和支配度的数值输入至情感强度感知神经网络模型的先验网络内，得到内容与节奏特征；将内容与节奏特征以及语调特征输入至预先建立的情感强度感知神经网络模型的解码器内，输出得到潜在中间特征，根据潜在中间特征生成情感音频数据。

3.

发明公开
基于TSTRN的跨库语音情感识别方法及装置审中-实审

公开(公告)号：CN117219126A

公开(公告)日：2023-12-12

申请号：CN202311373019.6

申请日：2023-10-23

Applicant: 东南大学

Inventor： 郑文明 , 王金岑 , 宗源 , 赵焱 , 路成 , 连海伦 , 李溯南

IPC: G10L25/63 , G10L25/30 , G10L25/18

Abstract: 本发明公开了一种基于TSTRN(双阶段迁移回归神经网络)的跨库语音情感识别方法及装置，包括：(1)选择两个不同的语音情感数据库作为源数据库和目标数据库；(2)对于源数据库和目标数据库的各语音样本进行预处理，提取语谱图特征；(3)建立TSTRN；(4)对TSTRN进行双阶段训练，其中第一阶段将源数据库和目标数据库的语谱图特征同时输入，基于领域对齐任务，减少训练数据和测试数据的特征分布差异，第二阶段对于第一阶段训练的TSTRN基于语音情感识别任务进行微调，使得具有情感区分性；(5)对于待识别的语音样本，提取语谱图特征后输入到经过训练的TSTRN，得到情感分类结果。本发明效果更好。

4.

发明公开
基于双稀疏迁移学习的跨库微表情识别方法及装置有权

公开(公告)号：CN111832426A

公开(公告)日：2020-10-27

申请号：CN202010578064.5

申请日：2020-06-23

Applicant: 东南大学

Inventor： 宗源 , 刘佳腾 , 郑文明 , 唐传高 , 路成 , 李溯南

IPC: G06K9/00 , G06K9/62

Abstract: 本发明公开了一种基于双稀疏迁移学习的跨库微表情识别方法及装置，方法包括：(1)获取不同的微表情训练数据库和测试数据库(2)将训练数据库和测试数据库中的微表情数据分别处理得到微表情的LBP-TOP特征；(3)建立双稀疏迁移学习模型；(4)将训练数据库和测试数据库的微表情特征数据输入双稀疏迁移学习模型进行训练，训练时；(5)获取待识别的微表情数据LBP-TOP特征，输入训练好的双稀疏迁移学习模型，输出情感类别。本发明准确率更高。

5.

发明授权
基于可迁移注意力神经网络的脑电情感识别方法及装置有权

公开(公告)号：CN111259761B

公开(公告)日：2024-06-07

申请号：CN202010030240.1

申请日：2020-01-13

Applicant: 东南大学

Inventor： 郑文明 , 李阳 , 江星洵 , 宗源 , 李溯南

IPC: G06F18/21 , G06F18/24 , G06N3/042 , G06N3/044 , G06N3/045 , G06N3/0464 , G06N3/084 , A61B5/00 , A61B5/16

Abstract: 本发明公开了一种基于可迁移注意力神经网络的脑电情感识别方法及装置，其中，方法包括：(1)获取一个脑电情感数据库，分为训练集和测试集；(2)建立基于可迁移注意力神经网络的脑电情感识别网络，所述脑电情感识别网络包括特征提取器和情感分类器，所述特征提取器包括依次连接的深度特征提取模块、局部注意力子网和全局注意力子网；(3)网络进行训练，总损失为情感分类器损失加上注意力熵损失后再减去注意力子网和全局注意力子网损失，通过随机梯度下降法更新网络参数；(4)提取待识别的脑电情感数据，将其作为一个测试集样本输入训练好的脑电情感识别网络，并按照步骤(3)对脑电情感识别网络调整，得到识别的情感类别。本发明识别准确率更高。

6.

发明公开
基于多层级韵律特征的情感语音生成方法及装置审中-实审

公开(公告)号：CN118098195A

公开(公告)日：2024-05-28

申请号：CN202410200483.3

申请日：2024-02-23

Applicant: 东南大学

Inventor： 郑文明 , 齐天铧 , 宗源 , 路成 , 连海伦 , 赵焱 , 李溯南

IPC: G10L13/027 , G10L13/10 , G10L25/60

Abstract: 本发明公开了一种基于多层级韵律特征的情感语音生成方法及装置，方法包括：将文本数据转换为拼音序列，将所述音频数据转换为线性声谱图；根据所述拼音序列预测具有情感类别标签对应情感的语言学韵律变量；根据所述线性声谱图提取具有情感类别标签对应情感的声学韵律变量，将所述语言学韵律变量和声学韵律变量进行匹配，合成潜在韵律变量；根据潜在韵律变量生成情感音频数据，以及情感音频数据的音频质量和自然度。本发明效果更精准、生成情感语音的自然度更高。

7.

发明授权
基于域选择迁移回归的跨数据库微表情识别方法及装置有权

公开(公告)号：CN111259759B

公开(公告)日：2023-04-28

申请号：CN202010030236.5

申请日：2020-01-13

Applicant: 东南大学

Inventor： 宗源 , 江星洵 , 郑文明 , 李阳 , 路成 , 唐传高 , 李溯南

IPC: G06V40/16 , G06V10/766 , G06V10/778 , G06F16/75 , G06F16/78 , G06F16/783

Abstract: 本发明公开了一种基于域选择迁移回归的跨数据库微表情识别方法及装置，包括：(1)获取两个微表情数据库，分别作为训练数据库和测试数据库，其中，每个微表情数据库中包含有若干微表情视频和对应的微表情类别标签；(2)将训练数据库和测试数据库中的微表情视频转换为微表情图像序列，并从中提取出灰度人脸图像，再经过分块后提取人脸局部区域特征；(3)建立域选择迁移回归模型，并采用人脸局部区域特征对其进行学习，得到一个连接人脸局部区域特征与微表情类别标签之间的稀疏投影矩阵；(4)对于待识别的微表情，按照步骤(2)得到人脸局部区域特征，并采用学习到的稀疏投影矩阵，得到对应的微表情类别标签。本发明准确率更高。

8.

发明授权
基于双稀疏迁移学习的跨库微表情识别方法及装置有权

公开(公告)号：CN111832426B

公开(公告)日：2022-11-08

申请号：CN202010578064.5

申请日：2020-06-23

Applicant: 东南大学

Inventor： 宗源 , 刘佳腾 , 郑文明 , 唐传高 , 路成 , 李溯南

IPC: G06V40/16 , G06V10/774

Abstract: 本发明公开了一种基于双稀疏迁移学习的跨库微表情识别方法及装置，方法包括：(1)获取不同的微表情训练数据库和测试数据库(2)将训练数据库和测试数据库中的微表情数据分别处理得到微表情的LBP‑TOP特征；(3)建立双稀疏迁移学习模型；(4)将训练数据库和测试数据库的微表情特征数据输入双稀疏迁移学习模型进行训练，训练时；(5)获取待识别的微表情数据LBP‑TOP特征，输入训练好的双稀疏迁移学习模型，输出情感类别。本发明准确率更高。

9.

发明公开
基于置信度显著分析的多尺度目标检测方法及装置有权

公开(公告)号：CN115019213A

公开(公告)日：2022-09-06

申请号：CN202210758801.9

申请日：2022-06-30

Applicant: 东南大学

Inventor： 郑文明 , 李溯南 , 宗源 , 赵焱 , 路成 , 连海伦

IPC: G06V20/17 , G06V10/82 , G06V10/764 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种基于置信度显著分析的多尺度目标检测方法及装置，方法包括：(1)获取基于航拍的遥感图像目标检测数据库；(2)将数据库中的遥感图像进行预处理；(3)建立深度卷积神经网络；(4)将预处理的图像及其对应标签作为样本输入卷积神经网络，进行训练，训练时采用的损失函数为位置回归损失、置信度交叉熵损失、分类交叉熵损失以及利用置信度计算的显著性损失之和；(5)将待识别的遥感图像预处理后，作为样本输入训练好的深度卷积神经网络，并进行非极大抑制，得到最终的目标检测结果。本发明准确率更高。

10.

发明授权
基于无监督领域对抗学习的说话人无关语音情感识别方法及系统有权

公开(公告)号：CN113555038B

公开(公告)日：2023-12-29

申请号：CN202110758039.X

申请日：2021-07-05

Applicant: 东南大学

Inventor： 郑文明 , 路成 , 宗源 , 唐传高 , 李溯南 , 连海伦 , 赵力

IPC: G10L25/63 , G10L25/51 , G10L25/30 , G10L25/24 , G10L25/03 , G10L17/02 , G10L17/18 , G06F18/213 , G06F18/241 , G06N3/088 , G06N3/094 , G06N3/0464 , G06N3/048

Abstract: 本发明公开了一种基于无监督领域对抗学习的说话人无关语音情感识别方法及系统，对情感语音数据进行预处理，获得高质量的情感语音样本，从所述情感语音样本中提取出单通道梅尔频谱作为时频特征，对所述时频特征经过深度卷积神经网络，得到语音情感的局部特征和全局特征，作为分层特征，建立无监督的深度领域对抗神经网络，将有标签的训练数据和无标签的测试数据提取分层特征后作为输入，对深度领域对抗网络进行训练，将待识别的情感语音数据预处理后输入训练好的深度领域对抗网络，得到语音情(56)对比文件Xinran Zhang etc..A speech emotionrecognition method in cross-languagescorpus based on feature adaptation《.2015International Conference on InformationTechnology Systems and Innovation(ICITSI)》.2016,正文1-4页.Paul Pu Liang etc..Multimodal Local-Global Ranking Fusion for EmotionRecognition《.2018 Association forComputing Machinery》.2018,正文472-476页.

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification