-
公开(公告)号:CN110084292B
公开(公告)日:2023-06-06
申请号:CN201910314505.8
申请日:2019-04-18
Applicant: 江南大学
IPC: G06V10/80 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本发明提供基于DenseNet和多尺度特征融合的目标检测方法,其包括:S1构建特征提取网络模型;S2训练特征提取网络模型,通过多次迭代训练得到最优目标检测模型;S3将待检测图像数据输入到最优目标检测模型进行检测,在待检测图像上用矩形框标注每个物体的位置和类别;特征提取网络模型以DenseNet网络为基础网络,加深了网络层次,提高了特征质量,同时使用特征融合模块,引入上下文信息,得到六个用于最终预测的特征图,具有丰富的语义信息和较高的分辨率。本发明方法可在保证检测速度的基础上,降低模型规模,提升对小目标的检测精度。
-
公开(公告)号:CN112068555A
公开(公告)日:2020-12-11
申请号:CN202010876799.6
申请日:2020-08-27
Applicant: 江南大学
Abstract: 本发明提供一种基于语义SLAM方法的语音控制型移动机器人,其能够实现未知复杂环境的感知与理解,且更准确的识别语音信息,使移动机器人能够更灵活的适用于不同的应用场景。一其包括控制器、远程服务器、视觉采集模块、语音采集模块;视觉采集模块、语音采集模块与控制器通信连接,远程服务器包括语义SLAM模块、语音识别模块;控制器与远程服务器通信连接;控制器基于语义SLAM模块计算所得的位姿估计结果、三维语义地图,按照语音识别模块计算所得的语音控制命令,规划机器人的行为轨迹,并控制机器人执行动作。
-
公开(公告)号:CN108742947A
公开(公告)日:2018-11-06
申请号:CN201810860478.X
申请日:2018-08-01
Applicant: 江南大学
Abstract: 本发明提供了一种仿生舌头,其能解决现有仿真舌头多以刚性为主,不能很好的展现出舌头实际的灵活性,更加不能模拟舌头搅拌食物助咀嚼、挤压食物助吞咽以及帮助发音的功能的问题。其包括均由硅橡胶制成的舌头本体、多向驱动器和至少两个单向驱动器,所述多向驱动器沿所述舌头本体的长度方向固定安装于所述舌头本体的底面上,所述多向驱动器用于驱动所述舌头本体实现吐舌、前卷舌和斜上拉动作;所述单向驱动器布置于所述多向驱动器的两侧并分别固定安装于所述舌头本体的底面上,所述单向驱动器的长度方向垂直于所述多向驱动器,所述单向驱动器用于驱动所述多向驱动器两侧的所述舌头本体实现侧卷舌动作。
-
公开(公告)号:CN110084292A
公开(公告)日:2019-08-02
申请号:CN201910314505.8
申请日:2019-04-18
Applicant: 江南大学
Abstract: 本发明提供基于DenseNet和多尺度特征融合的目标检测方法,其包括:S1构建特征提取网络模型;S2训练特征提取网络模型,通过多次迭代训练得到最优目标检测模型;S3将待检测图像数据输入到最优目标检测模型进行检测,在待检测图像上用矩形框标注每个物体的位置和类别;特征提取网络模型以DenseNet网络为基础网络,加深了网络层次,提高了特征质量,同时使用特征融合模块,引入上下文信息,得到六个用于最终预测的特征图,具有丰富的语义信息和较高的分辨率。本发明方法可在保证检测速度的基础上,降低模型规模,提升对小目标的检测精度。
-
公开(公告)号:CN109272988A
公开(公告)日:2019-01-25
申请号:CN201811155813.2
申请日:2018-09-30
Applicant: 江南大学
Abstract: 本发明提供基于多路卷积神经网络的语音识别方法,其能够提取更充分的语音信息,且处理数据量较大的音频数据时,具有更好的拟合性。其包括:S1:输入原始语音并进行处理;S2:提取出反映语音信号特征的关键特征参数,形成特征矢量序列;S3:基于多路卷积神经网络模型为基础、CTC作为损失函数,构建声学模型;多路卷积神经网络的结构包括依次设置的子网络结构、连续的全连接层、CTC损失函数;S4:训练声学模型,得到训练好的声学模型;S5:将待识别的特征矢量序列输入到训练好的声学模型中得到识别结果;S6:以步骤S5中得到的识别结果为基础进行后续的运算,即得到能够以最大概率输出该语音信号的词串,词串即原始语音被识别后的语言文字。
-
公开(公告)号:CN109272990B
公开(公告)日:2021-11-05
申请号:CN201811112506.6
申请日:2018-09-25
Applicant: 江南大学
Abstract: 本发明提供基于卷积神经网络的语音识别方法,其更加擅长提取高层特征,建模过程简单、容易训练、模型的泛化性能更佳,能够更广泛的应用到各种语音识别的场景中。其包括:S1:对输入的原始语音信号进行预处理;S2:提取出反映语音信号特征的关键特征参数,形成特征矢量序列;S3:基于DCNN网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的声学模型;S4:训练声学模型,得到训练好的声学模型;S5:将步骤S2中得到的待识别的特征矢量序列输入到训练好的声学模型中得到识别结果;S6:以步骤S5中得到的识别结果为基础进行后续的运算,即得到能够以最大概率输出该语音信号的词串,词串即原始语音被识别后的语言文字。
-
公开(公告)号:CN109949824A
公开(公告)日:2019-06-28
申请号:CN201910066335.6
申请日:2019-01-24
Applicant: 江南大学
Abstract: 本发明提供一种基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其在处理音频数据时能提供更丰富、更有效的特征信息,模型有更强的泛化能力,分类具有更高的准确率。其包括:S1:采集待处理音频数据,对原始音频信号进行预处理,输出音频帧序列;S2:对音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向量序列;S3:构建声学模型,并对声学模型进行训练,得到训练好的声学模型;S4:将步骤S2中输出的特征向量序列经过处理后,输入到训练好的声学模型中进行分类识别,得到的识别结果即为声音事件的分类结果;其特征在于:声学模型是以DenseNet模型为基础,结合N阶马尔可夫模型的特点构建的网络模型,即为N阶DenseNet模型。
-
公开(公告)号:CN108908297A
公开(公告)日:2018-11-30
申请号:CN201810780964.0
申请日:2018-07-17
Applicant: 江南大学
Abstract: 本发明提供了一种基于绳驱动的拟人臂,其能模拟三个自由度的转动,给残疾人士带来便利,代替他们缺失的部位。其技术方案是这样的:一种基于绳驱动的拟人臂,其包括底板、分布于底板周向的四个牵引装置、安装于底板底部的穿戴装置、用于安装机械手的上腕关节杆以及与底板连接的下腕关节杆,上腕关节杆通过虎克铰与下腕关节杆连接,上腕关节杆中部连接有运动平台,四个牵引装置分别通过牵引绳与运动平台四角连接,上腕关节杆的顶部安装有驱动机械手转动的转动电机。
-
公开(公告)号:CN109272988B
公开(公告)日:2022-05-24
申请号:CN201811155813.2
申请日:2018-09-30
Applicant: 江南大学
Abstract: 本发明提供基于多路卷积神经网络的语音识别方法,其能够提取更充分的语音信息,且处理数据量较大的音频数据时,具有更好的拟合性。其包括:S1:输入原始语音并进行处理;S2:提取出反映语音信号特征的关键特征参数,形成特征矢量序列;S3:基于多路卷积神经网络模型为基础、CTC作为损失函数,构建声学模型;多路卷积神经网络的结构包括依次设置的子网络结构、连续的全连接层、CTC损失函数;S4:训练声学模型,得到训练好的声学模型;S5:将待识别的特征矢量序列输入到训练好的声学模型中得到识别结果;S6:以步骤S5中得到的识别结果为基础进行后续的运算,即得到能够以最大概率输出该语音信号的词串,词串即原始语音被识别后的语言文字。
-
公开(公告)号:CN109949824B
公开(公告)日:2021-08-03
申请号:CN201910066335.6
申请日:2019-01-24
Applicant: 江南大学
Abstract: 本发明提供一种基于N‑DenseNet和高维mfcc特征的城市声音事件分类方法,其在处理音频数据时能提供更丰富、更有效的特征信息,模型有更强的泛化能力,分类具有更高的准确率。其包括:S1:采集待处理音频数据,对原始音频信号进行预处理,输出音频帧序列;S2:对音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向量序列;S3:构建声学模型,并对声学模型进行训练,得到训练好的声学模型;S4:将步骤S2中输出的特征向量序列经过处理后,输入到训练好的声学模型中进行分类识别,得到的识别结果即为声音事件的分类结果;其特征在于:声学模型是以DenseNet模型为基础,结合N阶马尔可夫模型的特点构建的网络模型,即为N阶DenseNet模型。
-
-
-
-
-
-
-
-
-