-
公开(公告)号:CN112287684B
公开(公告)日:2024-06-11
申请号:CN202011192254.X
申请日:2020-10-30
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/30
Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。
-
公开(公告)号:CN112287684A
公开(公告)日:2021-01-29
申请号:CN202011192254.X
申请日:2020-10-30
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/295 , G06F40/30
Abstract: 本发明属于领域,具体涉及了一种融合变体词识别的短文本审核方法及装置,旨在解决如何将变体词识别技术融合到有害文本审核任务中并实现模型自动更新的问题。本发明包括:构建配置词库,基于社交媒体平台获取待审核文本数据,对待审核文本数据进行筛选获得可疑文本数据,并去除无意义信息并计算文本特征向量和统计特征向量,将文本特征向量和统计特征向量进行特征融合通过训练好的基于支持向量机的有害文本分类模型获取有害文本,利用预设的关键词抽取算法获取所述有害文本的敏感词写入配置词库。本发明将变体词识别技术融合到文本特征和统计特征计算进行有害文本审核任务中并实现模型自动更新,提高了文本审核的准确率和更新速度。
-
公开(公告)号:CN117932010A
公开(公告)日:2024-04-26
申请号:CN202311607433.9
申请日:2023-11-28
Applicant: 北京中科闻歌科技股份有限公司 , 航空工业信息中心 , 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/33 , G06F16/36
Abstract: 本发明提供了一种基于大语言模型的应答文本生成方法、电子设备及介质,涉及答文本生成领域,所述方法包括:获取用户输入的目标问题文本Q;获取Q中的第一目标字段QA和第二目标字段QB;确定Q对应的目标实体类型属性列表和/或目标实体类型关系以及指定提示词;将Q填入目标提示词对应的预设位置,生成Q对应的目标提示词;将所述目标提示词输入至预设的大语言模型;根据所述至少一个检索条件,从目标知识图谱中确定出每一检索条件对应的目标知识图谱分支;将Q和目标知识图谱分支输入至预设的大语言模型,以通过所述大语言模型输出Q对应的应答文本;本发明能够提高对知识图谱的处理效率以及得到的答案的准确性。
-
公开(公告)号:CN115248857A
公开(公告)日:2022-10-28
申请号:CN202211026146.4
申请日:2022-08-25
Applicant: 北京中科闻歌科技股份有限公司 , 航空工业信息中心 , 中国科学院自动化研究所
Abstract: 本公开涉及一种多语言观点摘要生成方法、装置、设备、系统及存储介质。该方法包括:获取待处理的多个目标文本;对多个目标文本进行跨语言文本表征处理,得到各个目标文本对应的多个通用表征向量;基于多个通用表征向量,提取各个目标文本中的至少一个观点句;基于观点句,生成多个目标文本对应的多个观点摘要。根据本公开实施例,无需依赖机器翻译工具对不同的语言对应的多媒体内容先进行翻译再生成观点摘要,对于海量的多语言目标文本,降低了观点摘要的生成成本,同时,生成的观点摘要不受机器翻译准确性的影响,因此,提高了多语言观点摘要生成的准确性,有利于推广应用。
-
公开(公告)号:CN114663347B
公开(公告)日:2022-09-27
申请号:CN202210116791.9
申请日:2022-02-07
Applicant: 中国科学院自动化研究所
Abstract: 本申请提供一种无监督的物体实例检测方法及装置。所述方法包括:将待检测图像输入训练好的深度神经网络模型,根据训练好的深度神经网络模型中的亲和度函数,获取待检测图像的各像素间的亲和度矩阵;根据亲和度矩阵,对待检测图像进行物体检测,获取待检测图像中的各物体实例;其中,亲和度函数用于确定像素点之间的亲和度,由视频帧序列中图像帧对应的目标深度图的目标场景流作为监督信号,输入深度神经网络模型中训练得到。本申请实施例提供的无监督的物体实例检测方法可以解决在复杂场景下的物体检测问题,提高复杂场景下的物体检测的准确性。
-
公开(公告)号:CN114691866A
公开(公告)日:2022-07-01
申请号:CN202210225366.3
申请日:2022-03-09
Applicant: 航空工业信息中心 , 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所
Abstract: 本公开实施例涉及一种面向多级标签的文本分类方法、装置、设备及存储介质。本公开实施例通过获取文本以及文本中关键词对应的标签;基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;分别计算文本的特征向量与每个标签的向量之间的余弦相似度;将余弦相似度大于预设阈值的标签确定为文本的标签。通过对文本和现有类别标签进行编码处理和余弦相似度计算处理,选择出文本内容相匹配的标签,可减轻对人工标注标签的依赖,降低人工标注和标签体系的维护成本,提高标签标注的准确率,使文本分类结果更准确。
-
公开(公告)号:CN117408337A
公开(公告)日:2024-01-16
申请号:CN202311604075.6
申请日:2023-11-28
Applicant: 航空工业信息中心 , 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所
IPC: G06N5/022 , G06F16/35 , G06F16/36 , G06F18/214
Abstract: 本申请涉及知识图谱构建领域,特别是涉及一种基于大语言模型的知识图谱构建方法、装置、介质和设备。该方法包括:根据标注数据组集和预设数据结构得到初始预训练语言模型当前评分;若小于预设分数阈值,获取非结构化数据集FZ;根据初始预训练语言模型和FZ,得到信息抽取结果集CJ;根据预训练大语言模型对CJ分类,根据分类结果更新FZ和BZ,再获取当前评分;直至大于预设分数阈值,停止迭代,得到目标预训练语言模型;对非结构化数据进行信息抽取,得到目标知识图谱。本申请利用预训练大语言模型增加了预训练语言模型训练样本的数量,提高了预训练语言模型的信息抽取结果的准确性,进而提高了目标知识图谱的准确度。
-
公开(公告)号:CN114663347A
公开(公告)日:2022-06-24
申请号:CN202210116791.9
申请日:2022-02-07
Applicant: 中国科学院自动化研究所
Abstract: 本申请提供一种无监督的物体实例检测方法及装置。所述方法包括:将待检测图像输入训练好的深度神经网络模型,根据训练好的深度神经网络模型中的亲和度函数,获取待检测图像的各像素间的亲和度矩阵;根据亲和度矩阵,对待检测图像进行物体检测,获取待检测图像中的各物体实例;其中,亲和度函数用于确定像素点之间的亲和度,由视频帧序列中图像帧对应的目标深度图的目标场景流作为监督信号,输入深度神经网络模型中训练得到。本申请实施例提供的无监督的物体实例检测方法可以解决在复杂场景下的物体检测问题,提高复杂场景下的物体检测的准确性。
-
公开(公告)号:CN116912488B
公开(公告)日:2024-02-13
申请号:CN202310706587.7
申请日:2023-06-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉技术领域,提供一种基于多目相机的三维全景分割方法及装置,该方法获取多目相机采集的多个当前帧图像;将多个当前帧图像输入至三维全景分割模型,由图像编码模块提取每个当前帧图像的多尺度图像特征,由视图编码模块基于相机投影关系,将每个当前帧图像的多尺度图像特征转换为三维体素特征,由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合,得到时序融合结果,由体素上采样模块将时序融合结果进行上采样,得到上采样结果,由体素解码模块对上采样结果进行解码,得到并输出全景分割结果。该方法可以得到稠密的三维全景分割结果,实现精细的语义理解。
-
公开(公告)号:CN116912488A
公开(公告)日:2023-10-20
申请号:CN202310706587.7
申请日:2023-06-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉技术领域,提供一种基于多目相机的三维全景分割方法及装置,该方法获取多目相机采集的多个当前帧图像;将多个当前帧图像输入至三维全景分割模型,由图像编码模块提取每个当前帧图像的多尺度图像特征,由视图编码模块基于相机投影关系,将每个当前帧图像的多尺度图像特征转换为三维体素特征,由时序编码模块将所述多目相机采集的历史帧图像的三维体素特征与当前帧图像的三维体素特征进行融合,得到时序融合结果,由体素上采样模块将时序融合结果进行上采样,得到上采样结果,由体素解码模块对上采样结果进行解码,得到并输出全景分割结果。该方法可以得到稠密的三维全景分割结果,实现精细的语义理解。
-
-
-
-
-
-
-
-
-