专利检索 ap:("中国科学院自动化研究所" OR "中国医学科学院北京协和医院") AND inv:"常慧" 第 1 页

1.

发明公开
利用平衡器官解剖标志构筑三维头影测量坐标系的方法有权

公开(公告)号：CN117649442A

公开(公告)日：2024-03-05

申请号：CN202410126189.2

申请日：2024-01-30

申请人： 中国科学院自动化研究所 , 中国医学科学院北京协和医院

发明人： 王琪 , 常慧 , 赵晓光 , 孙世颖 , 张宇佳 , 万阔

IPC分类号： G06T7/70 , A61B34/10 , A61B6/03 , A61B6/50 , G06V40/10 , G06V20/64 , G06V10/82 , G06N3/0464 , G06N3/084

摘要： 本发明提供一种利用平衡器官解剖标志构筑三维头影测量坐标系的方法，属于医疗技术领域，该方法包括：获取待测量颅面的CT影像；确定CT影像的枢椎齿状突顶AODA、前鼻棘ANS、左蜗孔HtL、右蜗孔HtR和蝶骨喙突SR；基于AODA、ANS、HtL、HtR和SR，先确定水平面，再确定冠状面和正中矢状面，水平面为AODA与ANS的连线的平行线，与HtL和HtR的连线相交构成的平面，冠状面通过HtL和HtR的连线与水平面垂直，正中矢状面通过SR且与水平面和冠状面均垂直；以待测量颅面的CT影像的冠状面、正中矢状面和水平面的相交点作为三维头影测量坐标系的原点，建立三维头影测量坐标系。

2.

发明授权
利用平衡器官解剖标志构筑三维头影测量坐标系的方法有权

公开(公告)号：CN117649442B

公开(公告)日：2024-05-14

申请号：CN202410126189.2

申请日：2024-01-30

申请人： 中国科学院自动化研究所 , 中国医学科学院北京协和医院

发明人： 王琪 , 常慧 , 赵晓光 , 孙世颖 , 张宇佳 , 万阔

IPC分类号： G06T7/70 , A61B34/10 , A61B6/03 , A61B6/50 , G06V40/10 , G06V20/64 , G06V10/82 , G06N3/0464 , G06N3/084

摘要： 本发明提供一种利用平衡器官解剖标志构筑三维头影测量坐标系的方法，属于医疗技术领域，该方法包括：获取待测量颅面的CT影像；确定CT影像的枢椎齿状突顶AODA、前鼻棘ANS、左蜗孔HtL、右蜗孔HtR和蝶骨喙突SR；基于AODA、ANS、HtL、HtR和SR，先确定水平面，再确定冠状面和正中矢状面，水平面为AODA与ANS的连线的平行线，与HtL和HtR的连线相交构成的平面，冠状面通过HtL和HtR的连线与水平面垂直，正中矢状面通过SR且与水平面和冠状面均垂直；以待测量颅面的CT影像的冠状面、正中矢状面和水平面的相交点作为三维头影测量坐标系的原点，建立三维头影测量坐标系。

3.

发明公开
视频语言定位方法、设备和存储介质审中-实审

公开(公告)号：CN118377931A

公开(公告)日：2024-07-23

申请号：CN202410274587.9

申请日：2024-03-11

申请人： 中国科学院自动化研究所

发明人： 张宇佳 , 潘毅 , 常慧 , 孙世颖 , 赵晓光

IPC分类号： G06F16/783 , G06F16/732 , G06N3/0455 , G06N3/044 , G06N3/084 , G06F18/25

摘要： 本发明提供一种视频语言定位方法、设备和存储介质，包括：获取待查询定位视频的视频特征序列与自然语言查询文本的文本特征序列；将文本特征序列与平衡令牌进行拼接，得到平衡后的文本特征序列；将平衡后的文本特征序列与视频特征序列输入多模态融合编码器中进行多模态融合，得到相应的多模态特征；将多模态特征输入解码器中，得到待查询定位视频中自然语言查询文本对应的查询定位视频片段。通过将可学习的平衡令牌添加到文本特征序列中，并在两个模态融合的过程中占用无关帧的注意力分数，限制查询文本特征与无关帧特征的融合，以确保相关帧的显著性。还通过由粗到细的多模态融合编码器，获得更好的多模态融合效果，提高了视频定位的精准度。

4.

发明公开
用于零化视觉指代表达理解方法、装置、设备及介质审中-实审

公开(公告)号：CN118196376A

公开(公告)日：2024-06-14

申请号：CN202410287259.2

申请日：2024-03-13

申请人： 中国科学院自动化研究所

发明人： 张宇佳 , 潘毅 , 常慧 , 孙世颖 , 赵晓光

IPC分类号： G06V10/25 , G06F40/16 , G06N5/04

摘要： 本发明提供一种用于零化视觉指代表达理解方法、装置、设备及介质，方法包括：将指代表达文本输入至大型语言模型中，输出各目标类别；将各目标类别和待指代图像输入至目标检测器中，输出各目标区域图像和目标位置和目标大小；基于大型语言模型将指代表达文本映射至第一离线推理函数上，基于第一离线推理函数、各目标区域图像和目标位置和目标大小，确定目标属性的第一目标得分；基于各目标区域图像以及第二离线推理函数确定目标属性的第二目标得分，基于第一目标得分和第二目标得分，确定视觉指代表达理解结果。该方法将大型语言模型、目标检测器以及离线推理函数有机结合，对指代表达文本进行平行拆解，无需训练样本即可进行显式鲁棒的视觉推理。