一种语音交互式身份信息自动录入方法

    公开(公告)号:CN118447584A

    公开(公告)日:2024-08-06

    申请号:CN202410548792.X

    申请日:2024-05-06

    Abstract: 本发明公开了一种语音交互式身份信息自动录入方法,基于基于命名实体识别的语音交互式姓名身份信息自动录入模块和伴随人脸身份信息无感式录入模块。包括以下步骤:(1)语音转换有误文本中的单字主语确定;(2)基于成语组词和偏旁部首拆字描述的汉字指代纠错方式;(3)面向姓名纠错的多轮对话算法设计;(4)焦点用户判定;(5)高质量人脸模版筛选;(6)基于人脸跟踪的焦点用户身份识别及人机交互。本发明弥补了人机语音交互汉字指代纠错及精准录入这一领域的不足,也为类迎宾场景中的身份录入系统提供了更具有用户友好性的设计方案。

    一种基于多尺度特征融合与分割的视频时序动作分割方法

    公开(公告)号:CN119625610A

    公开(公告)日:2025-03-14

    申请号:CN202411699854.3

    申请日:2024-11-25

    Abstract: 一种基于多尺度特征融合与分割的视频时序动作分割方法,包括多尺度时序特征生成分支、多尺度时序分割细化分支,以及具有自适应融合策略的跨尺度时序融合网络。多尺度时序特征生成分支采用由细到粗的特征生成策略,通过时序特征编码器和下采样操作逐步生成粗粒度时序特征。跨尺度时序融合网络通过自适应融合策略整合不同尺度的时序特征,有效建模动作之间的全局关联和局部上下文依赖。多尺度时序分割细化分支则采用由粗到细的分割细化策略,利用跨尺度时序融合网络输出的整合特征对错误的分割区域进行逐步修正,最终获得精细的时序分割结果。本发明能够对不同粒度的动作时序关联进行建模,显著提升长时序视频的分割精度和鲁棒性。

Patent Agency Ranking