Patent search ap:("国家计算机网络与信息安全管理中心" OR "北京中科闻歌科技股份有限公司") AND inv:"曹家" Page 15

141.

发明授权
文档匹配模型的构建方法、装置、电子设备及存储介质有权

公开(公告)号：CN114281944B

公开(公告)日：2022-08-23

申请号：CN202111619353.6

申请日：2021-12-27

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 蒋永余 , 王俊艳 , 王璋盛 , 曹家 , 罗引 , 王磊

IPC: G06F16/33 , G06F40/289 , G06F16/242 , G06N3/08

Abstract: 本申请实施例提供一种文档匹配模型的构建方法、装置、电子设备及存储介质，其中，该方法包括：步骤一，获取查询词汇特征集合和文档特征集合；步骤二，获得查询词汇特征集合和文档特征集合的相关性特征值；步骤三，获得文档特征集合中每个文档特征与查询词汇特征集合的第一匹配值，选取第一匹配值最大的文档特征；步骤四，获得第二文档特征；步骤五，将候选文档特征集合作为新的候选文档特征集合，将第二文档特征作为新的第一文档特征，重复步骤四；步骤六，根据有序文档特征集合和文档特征集合获得损失函数，并根据损失函数构建匹配模型。实施本申请实施例，使得匹配模型可以引入认知层面的相关性特征，提高了匹配模型的准确率和检索性能。

142.

发明公开
面向多级标签的文本分类方法、装置、设备及存储介质审中-实审

公开(公告)号：CN114691866A

公开(公告)日：2022-07-01

申请号：CN202210225366.3

申请日：2022-03-09

Applicant: 航空工业信息中心 , 北京中科闻歌科技股份有限公司 , 中国科学院自动化研究所

Inventor： 王婧宜 , 禹宁 , 冯昊 , 孔庆超 , 王宇琪 , 许刚刚 , 曹家 , 罗引

IPC: G06F16/35 , G06F40/30

Abstract: 本公开实施例涉及一种面向多级标签的文本分类方法、装置、设备及存储介质。本公开实施例通过获取文本以及文本中关键词对应的标签；基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理，得到文本的特征向量，文本的特征向量对文本的关键词进行敏感表征，基于预设的面向多级标签的文本分类模型中的标签编码模型，对标签进行编码处理，得到标签的向量；分别计算文本的特征向量与每个标签的向量之间的余弦相似度；将余弦相似度大于预设阈值的标签确定为文本的标签。通过对文本和现有类别标签进行编码处理和余弦相似度计算处理，选择出文本内容相匹配的标签，可减轻对人工标注标签的依赖，降低人工标注和标签体系的维护成本，提高标签标注的准确率，使文本分类结果更准确。

143.

发明公开
知识图谱本体构建方法、装置、设备及可读存储介质有权

公开(公告)号：CN114528417A

公开(公告)日：2022-05-24

申请号：CN202210377444.1

申请日：2022-04-12

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 周玉金 , 孙攀 , 王宇琪 , 李军锋 , 王璋盛 , 曹家 , 罗引 , 王磊

IPC: G06F16/36 , G06F40/295 , G06F40/30

Abstract: 本公开涉及一种知识图谱本体构建方法、装置、设备及可读存储介质。本公开通过基于文本语料获取文本领域本体候选集，并基于图像数据获取图像领域本体候选集，基于文本领域本体候选集中文本领域本体的本体概念词，确定文本领域本体的层次结构，基于图像领域本体候选集中图像领域本体的图像语义标签，确定图像领域本体的层次结构。进而基于文本领域本体候选集、文本领域本体的层次结构、图像领域本体候选集和图像领域本体的层次结构，确定包含文本领域本体和图像领域本体的知识图谱本体，实现了对文本和图像等多模态数据的知识本体分类别、分层次的构建。

144.

发明公开
文本分类方法、装置、设备及计算机可读存储介质有权

公开(公告)号：CN114492420A

公开(公告)日：2022-05-13

申请号：CN202210340732.X

申请日：2022-04-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 蒋永余 , 王俊艳 , 王璋盛 , 曹家 , 罗引 , 王磊

IPC: G06F40/284 , G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08

Abstract: 本公开涉及一种文本分类方法、装置、设备及计算机可读存储介质，该方法包括：对待分类的文本进行分词处理，得到文本中包含的词汇；从预设的语义库中查找词汇对应的语义，以及语义在语义库中的位置，得到语义的位置向量；响应于词汇对应的语义有多个，基于词汇在所述文本中的上下文，确定词汇对应的每个语义的权重；基于词汇对应的每个语义的权重，对词汇对应的多个语义的位置向量进行加权叠加处理，得到词汇的特征向量；基于文本中包含的词汇的特征向量，确定文本的特征向量；基于文本的特征向量对文本进行分类。通过上述技术方案，将文本转化到量子领域进行处理，减少计算成本的同时，提升了文本的分类准确率，提升用户的使用体验。

145.

发明公开
基于领域信息的情感分析方法、装置、设备及存储介质有权

公开(公告)号：CN113672731A

公开(公告)日：2021-11-19

申请号：CN202110881327.4

申请日：2021-08-02

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 张佳旭 , 王宇琪 , 郝保 , 曹家 , 刘莹 , 鲁县华 , 罗引 , 王磊

IPC: G06F16/35 , G06N3/04 , G06N3/08

Abstract: 本公开实施例涉及一种基于领域信息的情感分析方法，该方法包括：对待分析的文本信息进行预处理，并获取领域信息；将待分析的文本信息输入到预先融合有领域信息的情感分类模型中，获取文本信息的情感类别；融合有领域信息的情感分类模型包括：全局情感语义模型、每一个领域的局部情感语义模型和对应每一个领域的情感融合策略；其中，基于与领域信息匹配的局部情感语义模型，获取局部情感概率值；基于全局情感语义模型，获取全局情感概率值；基于与领域信息匹配的情感融合策略，对局部情感概率值和全局情感概率值进行融合，获得融合结果；基于融合结果获取情感类别。通过本方法进行文本情感分析，分类效果更好，大大提高了分析结果的准确率。

146.

发明公开
一种信息处理方法、装置、设备及存储介质有权

公开(公告)号：CN113536763A

公开(公告)日：2021-10-22

申请号：CN202110821206.0

申请日：2021-07-20

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 王宇琪 , 张佳旭 , 郝艳妮 , 王璋盛 , 曹家 , 方省 , 罗引 , 王磊

IPC: G06F40/194 , G06F16/335

Abstract: 本公开涉及一种信息处理方法、装置、设备及存储介质。其中，信息处理方法包括：获取待处理文本；确定待处理文本与已存储文本之间的文本相似度；基于待处理文本的发布时间和已存储文本的发布时间，对文本相似度进行修正，得到修正后的文本相似度；在修正后的文本相似度大于或等于预设相似度阈值的情况下，将已存储文本作为待处理文本的相似文本。根据本公开实施例，可以提高重复信息的查找精度和效率且节约设备资源，以进一步提高重复信息的处理效果和效率，降低文本内容的重复性，进而使得用户快速且准确的从网络平台中查找感兴趣信息的需求，提高用户查看信息的体验且节约设备资源。

147.

发明公开
信息处理方法、装置、设备及介质有权

公开(公告)号：CN113379169A

公开(公告)日：2021-09-10

申请号：CN202110924546.6

申请日：2021-08-12

Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司

Inventor： 郭建彬 , 黄泰文 , 赵菲菲 , 王宇琪 , 曹家 , 盘浩军 , 罗引 , 王磊

IPC: G06Q10/04 , G06Q10/06 , G06Q40/02 , G06Q40/00 , G06K9/62

Abstract: 本公开涉及一种信息处理方法、装置、设备及介质。其中，信息处理方法包括：获取目标社会实体的目标社会实体信息；从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量；将目标特征向量输入预先训练好的梯度提升树模型，得到预先训练好的梯度提升树模型输出的目标社会实体的预测信用评分；若目标社会实体的预测信用评分符合预设的空壳实体检测条件，则确定目标社会实体为空壳实体。根据本公开实施例，能够提高对目标社会实体进行空壳实体检测的准确性，以满足税务稽查、风控预警等部门的实际业务需求。

148.

发明公开
一种面向文本审核的中文对抗样本生成方法及装置有权

公开(公告)号：CN112364641A

公开(公告)日：2021-02-12

申请号：CN202011259475.4

申请日：2020-11-12

Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司

Inventor： 王婧宜 , 孔庆超 , 张佳旭 , 蒋永余 , 郭建彬 , 吴晓飞 , 曹家 , 赵菲菲 , 罗引 , 王磊

IPC: G06F40/284 , G06F40/166

Abstract: 本申请涉及一种面向文本审核的中文对抗样本生成方法及装置，其中方法包括：获取待处理语句信息；对待处理语句信息进行分词，得到多个词语；确定词语的第一重要性信息；获取各个词语对应的扰动词语；根据第一重要性信息，依次得到将待处理语句信息中各个词语替换为对应的扰动词语后的扰动语句信息；在确定扰动语句信息满足预设条件时，根据扰动语句信息得到对待处理语句信息攻击成功后的对抗样本。通过本实施例中的方法可以实现对待处理语句进行词语替换的方式得到对抗样本，进而可以增加用于对预测模型进行训练的样本的多样性，同时可以通过自动生成对抗样本，提升训练数据获取的便利性，提升模型训练的效率。

149.

发明授权
文本溯源方法、设备及存储介质有权

公开(公告)号：CN109783778B

公开(公告)日：2020-10-23

申请号：CN201811577909.8

申请日：2018-12-20

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 孔庆超 , 白洁 , 王磊 , 曹家 , 彭鑫 , 汪小东 , 罗引 , 赵菲菲 , 张西娜

IPC: G06F40/194 , G06F40/289

Abstract: 本发明实施例涉及一种文本溯源方法、设备及存储介质，所述方法包括：根据待判定文本和源文本生成词袋模型，所述源文本包括多个文本；利用多种预设的相似度算法，分别对所述词袋模型进行相似度计算，确定在不同相似度算法的情况下，所述源文本中多个文本与所述待判定文本的多个第一相似度排序；基于第一公式和所述第一相似度排序确定所述源文本源文本中多个文本与所述待判定文本的第二相似度排序；基于所述第二相似度排序从所述源文本中选择符合同源条件的文本作为所述待判定文本的同源文本，采用多种相似度的算法，可以弥补单一算法的不足，减少因计算方式不同带来的偶然性，提升计算结果的全面性和准确性。

150.

发明公开
词向量模型的构建方法、关键词匹配方法及装置有权

公开(公告)号：CN109614478A

公开(公告)日：2019-04-12

申请号：CN201811552104.8

申请日：2018-12-18

Applicant: 北京中科闻歌科技股份有限公司

Inventor： 皇秋曼 , 曹家 , 张西娜 , 赵菲菲 , 罗引 , 彭鑫 , 王磊

IPC: G06F16/332 , G06F17/27

Abstract: 本申请实施例涉及一种词向量模型的构建方法、关键词匹配方法及装置，所述方法包括：选取目标关键词，以及与所述目标关键词对应的一个或多个目标文档数据；基于所述目标关键词从网络上获取与所述目标关键词关联的多个关联文档数据；将所述目标文档数据和符合训练条件的关联文档数据作为训练文本，采用Gensim的Word2vec API对所述训练文本进行训练，得到词向量模型，其中，所述符合训练条件的关联文档数据为：与所述目标文档数据的相似度大于第一阈值的所述关联文档数据。该模型在训练过程中，结合选定的目标文档数据，以及通过目标文档数据再选定关联文档数据中符合训练条件的文档数据，提高了该模型的准确性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification