-
公开(公告)号:CN106407989A
公开(公告)日:2017-02-15
申请号:CN201610805463.4
申请日:2016-09-07
Applicant: 厦门大学
CPC classification number: G06K9/6218 , G06K9/4671
Abstract: 基于快速自动密度聚类的可变尺度红外小目标的检测方法,涉及图像分析与图像理解。利用SURF算子解决尺度可变小目标的特征提取。解决特征对于环境的敏感问题;快速自动化密度聚类算法,针对问题域,直接从空域完成轨迹的分割、提取,克服了原有序列检测问题中数据融合带来的指数级复杂度问题。解决了聚类过程中产生的过分割以及欠分割问题,保证了轨迹提取的完整性和独立性以及聚类中心的自动选择。在后期的轨迹提取中,利用回溯算法寻找最优解,将轨迹具有的平滑不变约束融入剪枝函数的设计,快速剪掉无关的杂波分支,加快了搜索解的速度。结合鲁棒的特征检测算子和回溯策略,解决可变尺度红外小目标的检测问题,提高算法的实时性和鲁棒性。
-
公开(公告)号:CN119889283A
公开(公告)日:2025-04-25
申请号:CN202510101817.6
申请日:2025-01-22
Applicant: 厦门大学
IPC: G10L13/08 , G10L15/04 , G10L15/02 , G10L15/00 , G10L15/16 , G10L25/30 , G10L25/45 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06F40/117 , G06F40/58
Abstract: 一种基于语音到单元的端到端闽南语翻译、合成方法及系统,涉及计算机技术。翻译方法,从用户端获取闽南语音频数据,经重采样和分割,音频片段预处理,位置编码后输入Transformer网络的编码器编码,编码后的低维表征与解码器输出一同送入解码器自回归解码得翻译序列,剔除特殊标记符号得中文文本翻译结果。合成方法,从用户端获取中文文本,过滤部分标点符号,获取词嵌入与位置嵌入后经Transformer编码器编码得中间隐变量,解码器解码得初始梅尔频谱输出,经后处理修正得到梅尔频谱作为声学特征,通过微调的Hifi‑Gan声码器生成闽南语音频。提高闽南语语音翻译准确度,合成闽南语语音生动流畅,适用于多场合。
-
公开(公告)号:CN119724483A
公开(公告)日:2025-03-28
申请号:CN202411591788.8
申请日:2024-11-08
Applicant: 厦门大学
IPC: G16H20/40 , G16H20/70 , G16H10/60 , G06F18/23213 , G06F18/10 , G06N3/0442 , G06N3/092
Abstract: 适用于认知障碍治疗的康复辅助方法、设备及介质,涉及医疗康复。包含平板电脑、毫米波雷达等,利用信号处理和深度学习等人工智能技术,对脑损伤、脑卒中所致轻度认知障碍患者辅助康复训练。通过平板电脑录入采集患者的基本信息、病史和当前认知状况,生成康复档案;基于患者的认知障碍类型和严重程度,智能制定康复训练计划;患者通过游戏化的训练界面康复训练,基于毫米波雷达实时无接触监测训练过程中的生理状态;运用深度学习模型分析患者的训练数据,评定康复进展;汇总训练和评定数据,优化后续康复方案。可快速准确实现从患者信息采集、训练计划制定、训练实施、康复评定到数据分析报告生成的全流程自动化管理,提高认知康复效率和效果。
-
公开(公告)号:CN113257279B
公开(公告)日:2025-01-10
申请号:CN202110316240.2
申请日:2021-03-24
Applicant: 厦门大学
IPC: G10L25/63 , G10L25/30 , G10L25/03 , G10L25/24 , G10L25/18 , G06F18/2415 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/084 , G06N3/048
Abstract: 一种基于GTCN的实时语音情感识别方法及应用装置,涉及生物特征识别技术领域,方法包括:步骤一、搜集一定数量的虚拟现实交互式语音游戏玩家的语音数据,对提取出来的数据进行预处理,包括端点检测和分帧加窗的操作;步骤二、提取预处理过后的语音数据的组合特征作为输入数据;步骤三、构建基于GTCN的模型,将输入数据经过训练,判断输入语音的情感;步骤四、结合输入数据和模型中的情感分类,与识别对象进行交互。相比其他语音情感识别方法,本发明实现了更高的准确率,在多个数据集中都表现出更佳的情感分类效果和更好的鲁棒性,并且能够以更高的效率和更低的内存进行训练,是一种高效稳定的语音情感识别方法。
-
公开(公告)号:CN114863241B
公开(公告)日:2024-09-13
申请号:CN202210430505.6
申请日:2022-04-22
Applicant: 厦门大学
Abstract: 本发明提供了计算机技术领域的一种基于空间布局与深度学习的影视动画评估方法,包括:步骤S10、获取动画图像并提取空间特征,基于空间特征构建无向全连通图;步骤S20、构建内容相似度网络,通过图卷积对无向全连通图进行推理;步骤S30、将内容相似度网络里的空间节点映射到潜在空间以构建空间关系全连通图;步骤S40、构建空间关系网络,通过图卷积对空间关系全连通图进行推理得到潜在特征并映射回原始空间;步骤S50、基于空间关系网络以及内容相似度网络的输出计算构图评分;步骤S60、提取动画图像的颜色特征并输入颜色评价模型获取颜色评分;步骤S70、基于构图评分以及颜色评分计算综合评分。本发明的优点在于:极大的提升了影视动画评估的可解释性。
-
公开(公告)号:CN117298535A
公开(公告)日:2023-12-29
申请号:CN202311252079.2
申请日:2023-09-26
Applicant: 厦门大学
Abstract: 一种基于深度神经网络的波比跳计数系统,涉及体育运动领域。包括前端模块、后端模块和算法微服务模块;前端模块用于接收用户上传的运动过程视频,向用户提供运动项目选择、开始评估等功能选项;后端模块用于接收前端模块发送的视频数据和运动项目选择,根据运动项目选择调用相应的算法微服务模块处理;算法微服务模块包括姿态估计子模块、姿态分析子模块、姿态评估子模块、数据分析子模块和数据可视化子模块;基于姿态特征信息,对运动员的姿态进行分析和评估,判断动作是否规范、通过关键点坐标计算关节角度。数据进行分析和可视化展示,更好地了解运动员的运动状态和问题,做出针对性的训练、调整和治疗,具有直观、清晰、易懂等优点。
-
公开(公告)号:CN111814609B
公开(公告)日:2023-09-29
申请号:CN202010589037.8
申请日:2020-06-24
Applicant: 厦门大学
IPC: G06V40/16 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于深度森林和卷积神经网络的微表情识别方法,所述方法包括:步骤一、采集微表情图像,使用光流法和光流应变法结合的三维特征作为微表情的特征;步骤二、构造基于深度森林和卷积神经网络的异质集成模型,将深度森林的重表示特征经过卷积层和卷积神经网络的深度特征混合形成新的图像特征,帮助分类器实现判别分类;步骤三、结合当前场景内容和微表情分类,与识别对象进行交互。本发明实现了更高的准确率,相比其他微表情识别算法,集成算法表现出更好的鲁棒性。需要更少的参数,训练时消耗更少的时间和资源,是一种轻量高效的微表情识别方法。
-
公开(公告)号:CN113792792B
公开(公告)日:2023-07-25
申请号:CN202111078660.8
申请日:2021-09-15
Applicant: 厦门大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/048 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种基于机器人的触觉数据感知分析方法,所述机器人为接触端设有传感器的机械臂,所述基于机器人触觉的鲁棒感知分析方法包括如下步骤:构建材质样本数据库;选取预设的具有注意力机制模块的网络模型;将样本数据集输入网络模型进行训练并验证;将机械臂的传感器触觉数据输入训练完成的网络模型输出分析结果。提出了一种机械臂结合阵列式触觉传感器快速收集触觉数据的方案,通过机械臂快速按压收集触觉数据,每一次数据采集使用不同位姿下的机械臂,采用不同按压力度进行收集,能有效包括触摸时的不同接触状态。这种采样模式更加适应机器人操作的实际需求。
-
公开(公告)号:CN111816148B
公开(公告)日:2023-04-07
申请号:CN202010590728.X
申请日:2020-06-24
Applicant: 厦门大学
IPC: G10H1/00 , G06N3/08 , G06N3/0442 , G06N3/045 , G06N3/0464
Abstract: 本发明提供了一种基于生成对抗网络的虚拟人声视唱方法和系统,所述方法包括:步骤一、输入abc记谱法文件和用Vocaloid制作的人声唱谱音频;步骤二、将abc文件转化为自定义格式的文本文件,将自定义文本文件和人声音频作为Tacotron‑2神经网络模型的输入;步骤三、在Tacotron‑2神经网络中,输入的文本文件中的字符通过512维的字符嵌入Character Embedding表示;步骤四、完成了虚拟人声波形文件的合成;步骤五、得到一段完整的虚拟人声视唱音乐。本发明用虚拟人声演唱乐谱,输出的语音节奏流畅自然,从而使得听者在聆听信息时会感觉自然,而不会感到设备的语音输出带有机械感与生涩感。
-
公开(公告)号:CN109584904B
公开(公告)日:2022-10-28
申请号:CN201811580476.1
申请日:2018-12-24
Applicant: 厦门大学
Abstract: 应用于基础音乐视唱教育的视唱音频唱名识别建模方法,涉及视唱音频唱名识别。提供可帮助用户提升自己音乐视唱方面能力的一种应用于基础音乐视唱教育的视唱音频唱名识别建模方法。唱名识别效果可以达到专业的识别的水平,识别精准率较高;唱名识别运算效率较高,可以在3~5s之内完成唱名识别过程,达到工业应用要求;唱名识别抗噪能力较强,在有一定背景噪声的情况下也能较好的识别。
-
-
-
-
-
-
-
-
-