基于图文协同注意力的跨模态检索模型构建及检索方法

    公开(公告)号:CN114201621B

    公开(公告)日:2024-04-02

    申请号:CN202111406136.9

    申请日:2021-11-24

    Abstract: 本发明公开了一种基于图文协同注意力的跨模态检索模型构建及检索方法,所述方法包括:获取训练图像和训练文本,分别提取图像样本和文本样本的局部特征;将图像样本所有的局部图像特征和文本样本所有的局部文本特征分别映射为特征向量,并将图像样本和文本样本的特征向量分别表示成矩阵,再得到各自的Key矩阵、Query矩阵和Value矩阵;基于该多个矩阵,计算出图像样本和文本样本的跨模态注意力特征、模态内注意力特征;将跨模态注意力特征和模态内注意力特征进行融合,得到图像样本的全局特征表示和文本样本的全局特征表示;基于所述全局特征表示,训练得到跨模态检索模型。本发明可直接对不同模态的数据进行相似度匹配,具有较高的匹配准确性。

    一种基于提示的用户跨域冷启动方法

    公开(公告)号:CN117422526A

    公开(公告)日:2024-01-19

    申请号:CN202311518835.1

    申请日:2023-11-15

    Abstract: 本发明公开了一种基于提示的用户跨域冷启动方法,包括:获取用户特有表征、用户通用表征和商品表征;通过用户特有表征和商品表征,获取场景提示向量;根据场景提示向量和用户通用表征,获取目标场景的特有表征,完成基于提示的用户跨域冷启动。本发明通过提出的场景提示生成方法,通过最大化目标场景的提示与目标场景中所有用户与商品之间的互信息的方式,对每个场景的特征进行全面捕捉;本发明中的基于场景提示的目标场景用户表征生成方法,通过考虑不同场景之间的关系以及每个场景的特征,在仅仅知道用户通用表征的情况下,依然可以实现在不同场景中对同一用户进行精准个性化推荐的效果,进而解决用户跨域冷启动问题。

    一种基于提示学习的自动化数据标注方法

    公开(公告)号:CN116738984A

    公开(公告)日:2023-09-12

    申请号:CN202310748270.X

    申请日:2023-06-25

    Abstract: 本发明公开了一种基于提示学习的自动化数据标注方法,包括:获取有标注数据集和无标注数据集;对所述有标注数据集的实体信息进行提取,获取实体词;基于所述实体词对所述无标注数据集进行筛选,获取筛选后的无标注数据集;构建提示模板组,基于预训练语言模型利用所述提示模板组对所述筛选后的无标注数据集进行测试,获取正向/负向数据;基于所述提示模板组将所述有标注数据集的中性情感数据输入所述预训练语言模型,获取填充完整的提示模板;基于所述填充完整的提示模板和所述正向/负向情感数据,构建完整的扩充数据集,实现基于提示学习的自动化数据标注。

    一种长文本的标签推荐模型构建方法及标签推荐方法

    公开(公告)号:CN116484123A

    公开(公告)日:2023-07-25

    申请号:CN202310486453.9

    申请日:2023-04-28

    Abstract: 本发明提供一种长文本的标签推荐模型构建方法及标签推荐方法,涉及自然语言处理技术领域,该模型构建方法包括:获取历史长文本,对历史长文本进行标注,得到文本标签、标准相似度、历史子句和子句的历史权重;根据历史权重得到历史关键句,对文本标签进行标签扩充,得到历史伪标签,并根据历史伪相得到历史标签序列;以上述数据训练初始预测模型,得到预测模型;以上述数据训练初始排序模型,得到重排序模型;根据预测模型和重排序模型得到标签推荐模型。本发明的有益效果:根据子句权重得到表示长文本含义的关键句,对文本标签进行扩充以得到便于模型理解的伪标签,实现长文本的标签推荐,且有效提升了模型的准确度。

    一种用于问答系统中的自动答案摘要方法及系统

    公开(公告)号:CN105740310A

    公开(公告)日:2016-07-06

    申请号:CN201510963623.3

    申请日:2015-12-21

    CPC classification number: G06F16/3344 G06F16/951 G06F17/2785 G06F17/2795

    Abstract: 本发明提供一种用于问答系统中的自动答案摘要方法及系统,其包括:获得用户查询问题与问答系统返回的候选答案集;从问题中提取概念,将概念与问题建立映射,得到问题概念集,从候选答案句子中提取概念,将概念与句子建立映射,得到句子概念集,对所有句子的概念集取并集得到答案概念集;对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,问题扩展概念集与答案概念集取交集获得命中概念集;对命中概念集中包含的概念进行句子质量计算,得到答案摘要。本发明利用概念网络中各个概念的关系,构建句子等权重,克服句子可能与问题无关的问题,然后通过整数规划的方法,选出答案中和问题最为相关的句子,构成最终的答案摘要。

    一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法

    公开(公告)号:CN102043910B

    公开(公告)日:2012-12-12

    申请号:CN201010600321.7

    申请日:2010-12-22

    Abstract: 一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法,涉及一种蛋白质远程同源性检测和折叠识别方法。本发明为了解决现有的蛋白质远程同源性检测和折叠识别方法中,二进制谱无法找到最优阈值,无法区分氨基酸出现频率的差别的问题。具体步骤:一、运行PSI-BLAST,输入测试蛋白质序列进行多序列比对,计算氨基酸i的伪计数;二、生成频率谱;三、将频率谱转化为Top-n-gram;四、获得测试蛋白质序列对应的潜在语义表达向量;五、将测试蛋白质序列对应的潜在语义表达向量输入SVM分类器进行分类,得到预测结果。应用于蛋白质同源性检测和折叠识别领域。

    语句级中英文混合输入方法

    公开(公告)号:CN102012748A

    公开(公告)日:2011-04-13

    申请号:CN201010566505.6

    申请日:2010-11-30

    Abstract: 语句级中英文混合输入方法,本发明涉及信息输入方法,尤其涉及一种中英文混合语句输入方法。它解决了现有的中英文混合输入方法采用手工标示输入的字母串中哪些需要转换成中文哪些是英文单词,无法保证连续的语句输入的问题。它包括下述步骤:用键盘输入字符串;由输入法管理系统对字符串进行中英文切分;所做的中英文切分是基于中文拼音库和英文词库的自动识别;输入法管理系统对切分后的字符串分别进行相应的中文和英文字符转换,并提供混合语句候选和中英文词语候选;所做出的中文和英文字符转换是基于中文词库和中英文统计库的自动识别;从通过插入、删除、选择等编辑命令,最终从候选列表中选定输出内容;输出中英文混合语句。用于文字输入。

Patent Agency Ranking