-
公开(公告)号:CN115757774A
公开(公告)日:2023-03-07
申请号:CN202211370948.7
申请日:2022-11-03
Applicant: 中国电子技术标准化研究院 , 北京中科凡语科技有限公司
IPC: G06F16/35 , G06F40/289 , G06F40/30
Abstract: 本发明提供一种行业领域识别方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,该方法包括:获取待识别应用软件的隐私政策文本;对隐私政策文本中的段落进行分类,根据段落分类结果,将隐私政策文本中目标类型的段落确定为目标段落;提取目标段落中的目标词汇;基于目标段落中的目标词汇,确定待识别应用软件所属的行业领域。本发明提供的行业领域识别方法、装置、电子设备及存储介质,能提高待识别应用软件的隐私政策文本的解析效率和解析准确率,能基于待识别应用软件的隐私政策文本更准确、更高效的识别待识别应用软件所属的行业领域,能提高用户感知。
-
公开(公告)号:CN115329777A
公开(公告)日:2022-11-11
申请号:CN202210512628.4
申请日:2022-05-12
Applicant: 北京中科凡语科技有限公司
IPC: G06F40/35 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种上下文的选择方法、装置及存储介质。该选择方法包括:获取训练数据;基于源端词典获取所述待处理对话文本的词向量,对所述待处理对话文本的词向量进行编码,获取所述待处理对话文本上下文的向量化表示;对所述解码器输入的词向量进行编码获取当前时刻解码器端输入的向量化表示;获取当前时刻的上下文向量表示;基于所述当前时刻的上下文向量表示以及当前时刻的解码器输入向量,选择概率最大的词,并将该词作为当前时刻的输出。本发明还包括一种存储介质,计算机程序被处理器执行上述上下文的选择方法的步骤。该方法可以在不损失上下文完整语义的前提下,动态地忽略上下文中相对噪声信息。
-
公开(公告)号:CN115329064A
公开(公告)日:2022-11-11
申请号:CN202210408534.2
申请日:2022-04-19
Applicant: 北京中科凡语科技有限公司
IPC: G06F16/34 , G06F16/332
Abstract: 本发明公开一种摘要的生成方法、装置及存储介质,属于自然语言处理技术领域。该摘要的生成方法,包括:S1、解码器根据训练数据库中的构建词表逐步获得对应的角色在输出词表中的相关单词的输出概率;S2、将输出概率最大的k个单词提取出来拼接到模型中已解码的单词序列上作为候选摘要;S3、模型将多个候选摘要按照输出概率的大小进行排序,并确保束的大小为k;模型预测结束后,取输出概率最大的候选序列作为摘要。本发明还包括摘要的生成装置和存储介质。该存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述摘要的生成方法的步骤。该生成方法帮助模型生成更好的面向该角色的摘要,生成的摘要内容有显著的提升。
-
公开(公告)号:CN115130438A
公开(公告)日:2022-09-30
申请号:CN202210666638.3
申请日:2022-06-14
Applicant: 北京中科凡语科技有限公司
IPC: G06F40/169 , G06K9/62 , G06F40/289 , G06F40/284 , G06F40/30
Abstract: 本发明公开一种打标签的方法、系统及其存储介质,属于文本打标签技术领域。该打标签的方法,包括:将语义文本进行预处理;根据预处理后的语义文本构建深度学习模型并使用训练集数据训练模型得到训练后的模型;通过遍历或者扫描待打标文本得到匹配次数,计算标签关键词和标签关键字的第一分数;将待打标文本经过所述训练后的模型计算第二分数;根据所述第一分数和所述第二分数得出所述待标记文本对应的标签的第三分数,根据所述第三分数决定是否给所述待标记文本打上对应的标签。本发明还包括上述打标签的系统以及存储介质。该方法可以发现或标记更多潜在语义上一致的标记语句。
-
公开(公告)号:CN114816674A
公开(公告)日:2022-07-29
申请号:CN202210578961.5
申请日:2022-05-26
Applicant: 北京中科凡语科技有限公司
IPC: G06F9/455
Abstract: 本发明公开一种翻译的调度方法、系统及存储介质,属于翻译调度技术领域。该翻译的调度方法,包括以下步骤:S1、将待翻译文本数据上传至第一缓存队列中,将待翻译文件数据上传至第二缓存队列中;S2、翻译服务器集群依次从第一缓存队列和第二缓存队列中轮询获取数据进行翻译。该翻译的调度系统,包括:缓存单元,所述缓存单元用于将待翻译文本数据上传至第一缓存队列中,将待翻译文件数据上传至第二缓存队列中;翻译服务器集群,用于依次从第一缓存队列和第二缓存队列中轮询获取数据进行翻译。本发明提出的翻译的调度方法可实时且优先地处理待翻译文本数据。
-
公开(公告)号:CN114510949A
公开(公告)日:2022-05-17
申请号:CN202111670567.6
申请日:2021-12-31
Applicant: 北京中科凡语科技有限公司
Abstract: 本公开提供一种融合多粒度交互特征的机器翻译质量评估方法,包括:生成词级别特征;生成交互特征;生成句子级别的特征;以及通过线性插值的方法将词级别特征、交互特征及句子级别特征组合,预测Hter值。本公开还提供了一种融合多粒度交互特征的机器翻译质量评估装置、电子设备以及可读存储介质。
-
公开(公告)号:CN114091484A
公开(公告)日:2022-02-25
申请号:CN202111339634.6
申请日:2021-11-12
Applicant: 北京中科凡语科技有限公司
Abstract: 本公开提供了基于无效信息过滤的语音翻译方法,包括:提取源语言语音片段的源语言语音特征序列;基于源语言语音特征序列获取第一声学表示序列;基于第一声学表示序列获取第一源语言文本预测序列;识别第一源语言文本预测序列中的文本无效信息,将文本无效信息从源语言文本预测序列中去除,以获得第二源语言文本预测序列;基于第二源语言文本预测序列对第一声学表示序列中的声学无效信息进行去除,以获得第二声学表示序列;对第二声学表示序列进行编码以获得高层表示;基于高层表示对目标语言文本序列进行预测,获得目标语言文本序列。本公开还提供了一种语音翻译装置、电子设备及可读存储介质。
-
公开(公告)号:CN112380824B
公开(公告)日:2022-02-22
申请号:CN202011074947.9
申请日:2020-10-09
Applicant: 北京中科凡语科技有限公司
IPC: G06F40/174 , G06F40/18 , G06V30/414 , G06V30/412
Abstract: 本公开提供了一种自动识别分栏的PDF文档处理方法,包括:S1、获取目标PDF文档的目标页面中的字符位置信息;S2、基于字符位置信息,在不连续的字符后设置标签;S3、判断标签中是否包含至少一组第一阈值数量以上的特征标签;S4、如果标签中包含至少一组第一阈值数量以上的特征标签,则判定目标页面中存在至少一个分栏特征;以及S5、获取至少一个分栏特征的左边界位置值以及右边界位置值。本公开还提供了自动识别分栏的PDF文档处理装置、电子设备以及存储介质。
-
公开(公告)号:CN114020914A
公开(公告)日:2022-02-08
申请号:CN202111296341.4
申请日:2021-11-03
Applicant: 北京中科凡语科技有限公司
Abstract: 本公开提供了一种医疗文本分类方法,包括:将待分类文本通过词向量映射,生成词向量;将词向量输入文本卷积神经网络进行特征提取,生成特征向量;以及将特征向量通过分类器进行分类,生成待分类文本的类别。本公开还提供了一种医疗文本分类装置、电子设备以及可读存储介质。
-
公开(公告)号:CN114020912A
公开(公告)日:2022-02-08
申请号:CN202111294811.3
申请日:2021-11-03
Applicant: 北京中科凡语科技有限公司
IPC: G06F16/35 , G06F40/279 , G06F40/216
Abstract: 本公开提供了一种医疗文本分类方法,包括:将待分类文本表示为医疗实体关系模型;利用图神经网络生成医疗实体关系模型中的实体的实体表征,实体表征包含上下文信息;将实体表征进行池化,生成待分类文本的向量表示;以及通过KNN算法对向量表示的待分类文本进行分类,生成待分类文本的类别。本公开还提供了一种医疗文本分类装置、电子设备以及可读存储介质。
-
-
-
-
-
-
-
-
-