基于条件扩散模型的多轮对话生成方法和系统

    公开(公告)号:CN117556009A

    公开(公告)日:2024-02-13

    申请号:CN202311520634.5

    申请日:2023-11-13

    摘要: 本发明提供一种基于条件扩散模型的多轮对话生成方法、系统、存储介质和电子设备,涉及自然语言处理技术领域。本发明基于预先训练好的条件扩散模型,首先获取多轮对话上下文;其次获取所述多轮对话上下文的上下文表示,并从标准高斯分布中随机采样一个高斯噪音;再次基于所述条件扩散模型,在所述上下文表示的引导下逐步去噪,将所述高斯噪音还原为与该多轮对话上下文相符合的潜在变量;最后根据所述上下文表示和潜在变量,生成最终的回复。引入条件扩散模型拟合潜在变量分布,充分利用训练数据中的丰富潜在信息,使得生成的回复相关性和多样性更强。

    基于4D毫米波雷达和相机融合的3D目标检测系统及方法

    公开(公告)号:CN117452396A

    公开(公告)日:2024-01-26

    申请号:CN202311367380.8

    申请日:2023-10-21

    摘要: 本发明涉及基于4D毫米波雷达和相机融合的3D目标检测系统及方法。该系统包括雷达分支模块、图像分支模块、视角转换模块、融合和检测头模块以及轻量化部署。雷达分支模块负责处理雷达点云输入,提取雷达鸟瞰视角特征,并生成3D雷达占据网格。图像分支模块提取多尺度图像透视视角特征,并将其对齐到鸟瞰视角领域。视角转换模块结合深度分布图和雷达占据网格,增强特征表示。融合和检测头模块整合雷达和图像BEV特征,用于目标检测、定位和分类任务。轻量化部署通过知识蒸馏和模型剪枝,将大模型知识应用于小型模型,以降低内存和计算需求。实验结果表明,该系统在不同数据集和场景下获得了良好的性能,适用于自动驾驶场景感知等多个应用领域。

    基于注意力和相对距离对齐的低分辨率人脸表情识别方法

    公开(公告)号:CN117315753A

    公开(公告)日:2023-12-29

    申请号:CN202311259802.X

    申请日:2023-09-26

    摘要: 本发明提供一种基于注意力和相对距离对齐的低分辨率人脸表情识别方法、系统、存储介质和电子设备,涉及图像处理技术领域。本发明中,引入分为教师模型和学生模型的知识蒸馏,使学生模型学习预先训练好的教师模型的能力,从而提高学生模型在低分辨率人脸表情识别任务上的性能。其中,所述教师模型和学生模型采用相同的端到端结构,减少了应用复杂度,具有广泛的适用性。以及仅在训练阶段执行注意力对齐、相对距离对齐操作,而不在具体预测时执行,大大减少了预测成本。

    考虑情感和主题的对话问题生成方法和系统、存储介质

    公开(公告)号:CN111949761B

    公开(公告)日:2023-12-26

    申请号:CN202010642828.2

    申请日:2020-07-06

    发明人: 孙晓 雷盼盼 汪萌

    摘要: 本发明提供一种考虑情感和主题的对话问题生成方法和系统、存储介质,涉及对话问题生成领域。本发明实施例首先将文章P分割成N个段落块Pc,并将段落块Pc和对话历史记录Hi输入预先训练的问题焦点预测模型,确定问题焦点段落块Fi;然后在所述问题焦点段落块Fi中预测情感关键词#imgabs0#和主题关键词#imgabs1#最后根据所述情感关键词#imgabs2#和主题关键词#imgabs3#最终生成对话问题q。本发明实施例将文章P的情感和主题纳入对话问题生成的环节中,与现有的对话问题生成模型只考虑根据对话历史记录相比,进一步提高了对话问题生成的连贯性,且生成的问题的认知水平不再局限于浅层级,而是达到了生成了更具逻辑性和深层意义的问题的有益效果。

    基于多粒度数据不确定性估计的文本生成模型的训练方法

    公开(公告)号:CN116663531A

    公开(公告)日:2023-08-29

    申请号:CN202310450473.0

    申请日:2023-04-23

    发明人: 李泽中 孙晓

    摘要: 本发明提供一种基于多粒度数据不确定性估计的文本生成模型的训练方法、系统、存储介质和电子设备,涉及文本生成技术领域。本发明中,通过建模词语和句子粒度的数据不确定性,即源词语不确定性、目标词语不确定性和句子不确定性;然后通过异质的方式,将三种数据不确融合到基于Transformer的生成模型训练过程中,最终起到减少不确定性数据可能误导训练过程的不良影响,增加了训练的鲁棒性。此外在以往的方法中,通常仅仅利用词频和互信息等简单的统计特征来估计不确定性,并不能真实反映数据不确定性的程度;而本发明借助预训练模型BERT的强大语言表征能力,同时预估词语和句子两个粒度的数据不确定性,大大提高了数据不确定性预估的能力。

    基于走路姿态的情绪识别方法和系统、存储介质

    公开(公告)号:CN111950447B

    公开(公告)日:2023-08-22

    申请号:CN202010803192.5

    申请日:2020-08-11

    发明人: 孙晓 苏凯 汪萌

    摘要: 本发明提供一种基于走路姿态的情绪识别方法和系统、存储介质,涉及情绪识别技术领域。本发明实施例首先得到待检测者的走姿视频,然后结合待检测者的走姿视频数组和关键节点图数组,得到融合数组,最后将融合数组输入预先训练的情绪识别模型中,得到待检测者的情绪类别。本发明实施例的有益效果包括:通过获取待检测者的走路姿态进行情绪识别,而走路姿态信息不仅易于获取,而且相对直接获取待检测者的面部信息要求更少,由此更方便快捷的展开针对待检测者的情绪识别工作。此外,融合数组成功的把姿态信息与走姿视频信息相结合,进一步加强了判断待检测者的情绪类别的可行性。

    三度分离引导的模糊聚类的有效性指标的图像分割方法及系统

    公开(公告)号:CN113674295B

    公开(公告)日:2023-02-24

    申请号:CN202110974971.6

    申请日:2021-08-24

    IPC分类号: G06T7/11 G06V10/762

    摘要: 本发明公开了一种基于三度分离引导的模糊聚类的有效性指标的图像分割方法及系统,该方法包括:1利用模糊C均值聚类算法对图像中的像素点进行划分;2建立目标函数,设定终止条件或达到最大迭代次数;3初始化并更新迭代隶属度矩阵和聚类中心,并判断是否达到终止条件或达到最大迭代次数;4从三个层面的分离关系计算类间分离性数值,通过模糊加权距离和模糊簇的基数来获得类内紧致性数值数值,用后者和前者比值得到出该指标值;5比较所有类的有效性指标,选择最大有效性指标对应的聚类数和相应的隶属度矩阵进行图像分割。本发明能对图像进行有效的分割,将像素点进行聚类,得到一个有效的聚类结果,且适用于复杂、重叠、有噪声点的像素集合。

    基于情感动力学的对话情感预测方法和系统

    公开(公告)号:CN115374794A

    公开(公告)日:2022-11-22

    申请号:CN202210813349.1

    申请日:2022-07-12

    IPC分类号: G06F40/35 G06N3/04

    摘要: 本发明提供一种基于情感动力学的对话情感预测方法、系统、存储介质和电子设备,涉及情感预测技术领域。本发明包括获取并预处理待预测的历史对话;据预处理后的历史对话,获取全局推断向量;根据全局推断向量,为每一句历史对话进行注意力加权;根据加权后的历史对话,获取情感动态向量;根据情感动态向量,获取全局最优的情感序列,确定情感预测结果。根据Gross情感调节理论进行建模,具有科学的心理学理论支撑,使模型的预测结果更具可解释性;对对话中的角色进行区分,建模了情感的阻尼性(持续性)和传染性;将对话情感预测任务转化为对话情感序列标注任务,对情感之间的转移关系进行分析,使预测结果更合理。

    估计连续的效价和唤醒水平的动态情感识别方法和系统

    公开(公告)号:CN113971826A

    公开(公告)日:2022-01-25

    申请号:CN202111025035.7

    申请日:2021-09-02

    发明人: 孙晓 郎俊杰 汪萌

    摘要: 本发明提供一种估计连续的效价和唤醒水平的动态情感识别方法和系统,涉及情感识别技术领域。本发明通过预先构建的特征网络对动态情感进行识别,所述特征网络包括特征获取层、特征融合层和预测层,所述特征获取层包括CNN网络层和3D‑CNN网络层,在本发明中通过CNN网络层对人脸图片进行处理,获取紧凑特征;通过3D‑CNN网络层对连续帧进行处理,获取时空特征;对紧凑特征和时空特征进行特征融合,得到情感特征;通过预测层对所述情感特征进行处理,得到情感标签。本发明实施例提出一种新型的特征网络,可以联合执行面部对齐,并在一次传递中正确预测出动态视频中连续的情感标签,大大减少了视频的情感检测时间,实时性好,且准确率高。