一种数据处理方法及装置
    1.
    发明公开

    公开(公告)号:CN114387599A

    公开(公告)日:2022-04-22

    申请号:CN202111517670.7

    申请日:2021-12-13

    Abstract: 本发明公开了一种数据处理方法及装置,可以获得待处理的字符串,待处理的字符串中包括已知字符和至少一个待识别字符,各待识别字符均存在至少两个相似字符;确定至少一个组合字符串,各组合字符串均是由已知字符和各待识别字符分别对应的一个相似字符经过有序组合而生成的;获得各组合字符串的分词信息;将分词数最少的分词信息确定为待处理分词信息;如果待处理分词信息的数量为多个,则确定各待处理分词信息中的分词匹配程度;将分词匹配程度最高的待处理分词信息确定为目标分词信息;将目标分词信息对应的组合字符串确定为正确字符串;基于正确字符串,确定待处理的字符串中的各待识别字符。本发明可以有效提高对文本的整体识别率。

    基于图计算的推荐方法及装置、存储介质及电子设备

    公开(公告)号:CN114676321A

    公开(公告)日:2022-06-28

    申请号:CN202210269207.3

    申请日:2022-03-18

    Abstract: 本发明提供了一种基于图计算的推荐方法及装置、存储介质及电子设备,其中,响应于推荐指令,确定各个待推荐对象;获取每个所述待推荐对象的预先构建的知识图谱;判断每个所述待推荐对象的知识图谱是否满足预先设置的动态规划条件;对于每个所述待推荐对象,在所述待推荐对象的知识图谱满足所述动态规划条件的情况下,应用预设的动态规划算法对所述待推荐对象的知识图谱进行图计算,获得所述待推荐对象的推荐评分;将已获得所述推荐评分的待推荐对象确定为目标待推荐对象,并根据每个所述目标待推荐对象的推荐评分对各个所述目标待推荐对象进行推荐。应用本发明实施例提供的方法,能够满足用户的推荐需求。

    一种应用于能源工业云网的多源异构数据融合方法和装置

    公开(公告)号:CN113887660A

    公开(公告)日:2022-01-04

    申请号:CN202111233311.9

    申请日:2021-10-22

    Abstract: 本申请提供了一种应用于能源工业云网的多源异构数据融合方法和装置,方法包括:将第一信息输入至数据接口规范生成模型中的智能体,获得智能体动作,第一信息包括第一环境状态和/或第一奖赏值,第一环境状态与多源异构数据相关,将智能体动作输入至数据接口规范生成模型中的学习环境,获得第二环境状态和第二奖赏值,根据第二奖赏值确定是否满足最优值函数,若是,则将第二环境状态作为多源异构数据对应的融合后数据,若否,则将第二环境状态作为第一环境状态,将第二奖赏值作为第一奖赏值,返回执行将第一信息输入至数据接口规范生成模型中的智能体。本申请基于数据接口规范生成模型对多源异构数据进行融合处理,提高了多源异构数据的融合效率。

    一种基于聚类的表格重构方法及系统

    公开(公告)号:CN113688684A

    公开(公告)日:2021-11-23

    申请号:CN202110843215.X

    申请日:2021-07-26

    Abstract: 本发明公开了一种基于聚类的表格重构方法及系统,该方法包括:S100:获取包括表格的PDF图片;S200:提取PDF图片中的横线和竖线,分别生成横线图片和竖线图片;S300:基于横线图片和竖线图片提取横线和竖线的交叉点;S400:对交叉点进行基于位置的聚类,基于聚类结果对表格进行分离;S500:提取单个表格所包含的交叉点,对交叉点进行去抖处理;S600:基于广度遍历思想,在交叉点间进行路径游走,重构表格。本发明能够从包括不规则表格的图片中识别并重构表格,相比于现有的表格重构方法,可提升表格重构精度,并可有效解决图片中可能会出现的表格扭曲问题,对不规则表格的重构尤其适用。

    一种用于意图识别的词义角色标注方法及系统

    公开(公告)号:CN113688627A

    公开(公告)日:2021-11-23

    申请号:CN202111069148.7

    申请日:2021-09-13

    Abstract: 本发明公开了一种用于意图识别的词义角色标注方法及系统,方法包括:输入句子序列、谓词序列、谓词上下文和谓词上下文区域标记;将谓词序列和谓词上下文扩展为与句子序列长度相同的序列;将句子序列、谓词序列、谓词上下文和谓词上下文区域标记转换为词向量序列;将句子序列、谓词序列、谓词上下文和谓词上下文区域标记的词向量序列输入双向LSTM模型;通过双向LSTM模型学习输入序列的特征表示,得到新的特征表示序列;将新的特征表示序列输入条件随机场;通过条件随机场对新的特征表示序列进行标注,得到标注结果。本发明能够有效的实现自动词义角色标注,减少意图识别中构建词义标注语料库的时间和成本。

    基于多交互注意力的端到端多模态问答方法及系统

    公开(公告)号:CN113297370A

    公开(公告)日:2021-08-24

    申请号:CN202110848497.2

    申请日:2021-07-27

    Abstract: 本发明公开了基于多交互注意力的端到端多模态问答方法及系统,包括:(1)接收问题和背景知识;(2)从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;(3)对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;(4)将筛选出的图像背景知识解析为图像特征表示,并构建可微场景图;(5)融合特征表示和可微场景图,获得背景知识的融合特征表示;(6)将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。本发明可有效利用多模态信息,提升多模态语义理解的准确度和全面性,从而提升多模态问答系统的准确率。

    文本分类方法及装置
    9.
    发明公开

    公开(公告)号:CN112182211A

    公开(公告)日:2021-01-05

    申请号:CN202011025556.8

    申请日:2020-09-25

    Abstract: 本发明提供了一种文本分类方法及装置,该方法包括:获取目标文本分类模型;对目标文本进行预处理,获得目标文本对应的目标文本向量;将目标文本向量输入分类模型,获得分类模型输出目标文本分别属于每个文本类别对应的类别概率;将目标文本分配至最大的类别概率对应的文本类别的类别目录中,完成对目标文本的分类。应用该方法,在需要对文本进行分类时先对文本进行预处理获得对应的文本向量,再通过分类模型对文本进行识别,获得分类模型输出的文本属于每个文本类别对应的概率,以确定该文本属于最大的概率对应的文本类别。通过该方法可以快速对文本进行分类,节约文本分类时间。

    一种商业指标的生成方法及装置、电子设备、存储介质

    公开(公告)号:CN114757489A

    公开(公告)日:2022-07-15

    申请号:CN202210269165.3

    申请日:2022-03-18

    Abstract: 本申请公开了一种商业指标的生成方法及装置、电子设备、存储介质,其中,所述方法包括:获取待分析用户的行为数据;其中,所述行为数据中包括有多段行为文本数据;对所述待分析用户的行为数据进行特征处理,得到每段所述行为文本数据对应的特征向量;基于每段所述行为文本数据对应的特征向量,对各段所述行文文本数据进行分类,得到属于目标类型的多段目标行为文本数据;其中,所述目标类型指定具有情感表达的行为文本数据类型;基于每段所述目标行为文本数据中的各个词汇,确定每段所述目标行为文本数据所属的情感类别;基于各段所述目标行为文本数据所属的情感类别,对各段所述目标文本行为数据进行意图识别,得到商业指标。

Patent Agency Ranking