基于大模型融合精细化场景图思维链的图像详细描述方法

    公开(公告)号:CN118865388A

    公开(公告)日:2024-10-29

    申请号:CN202410915466.8

    申请日:2024-07-09

    Abstract: 本发明涉及基于大模型融合精细化场景图思维链的图像详细描述方法,针对待描述复杂图像,先获得图像的标题,其次通过主体提取模块识别图像中的主体对象,根据其基本信息构造初步的简单场景图,获得主体对象的详细描述内容,分析其属性并加入场景图中,获得完备的主体场景图,并向其中添加背景信息。再通过对象富化模块获得与主体对象强关联的非主体对象的基本信息,以此获得最终的精细化场景图。将图像、图像标题、精细化场景图和提示词模板结合,通过多模态大语言模型获得最终的详细图像描述。本发明实现了对复杂图像的详细描述,有效地减少了在图像描述任务中详细描述图像内容时常见的幻觉现象的发生,提高了描述的丰富性和可靠性。

    一种基于多维动态候选集的文本纠错方法

    公开(公告)号:CN118673908A

    公开(公告)日:2024-09-20

    申请号:CN202411147467.9

    申请日:2024-08-21

    Inventor: 姜明 陈成 张旻

    Abstract: 本发明公开了一种基于多维动态候选集的文本纠错方法,包括如下步骤:步骤1、从汉字识别文本纠错的SIGHAN系列数据集中获取输入文本S;步骤2、对于输入文本S,通过文本编码器编码将token嵌入、segment嵌入、position嵌入、词性嵌入通过向量加法进行合并,得到输入文本的最终嵌入表示,以及相应的嵌入序列E;步骤3、将得到的嵌入序列E,输入到检错网络,并利用注意力机制来检错可能发生错的字符,输出错误序列L以及错误序列L的错误概率P;步骤4、将错误序列L和嵌入序列E输入到语言模型中,使用软遮盖编码将两者组合成SOFT'编码;步骤5、将SOFT'编码作为输入,利用预训练的BERT语言纠错模块和特征融合模块组成的纠错网络对错误字符进行纠正,最终输出正确字符。

    一种基于大语言模型与MCTS算法的知识图谱问答检索方法

    公开(公告)号:CN118296114A

    公开(公告)日:2024-07-05

    申请号:CN202410204422.4

    申请日:2024-02-23

    Inventor: 张旻 费超磊 姜明

    Abstract: 本发明公开了一种基于大语言模型与MCTS算法的知识图谱问答检索方法,该方法首先进行原问题语义解析,对于输入问题Q,使用ELQ模型作为语义解析模块提取问题中的实体。其次进行知识树构建,对于已获取的实体,如果知识树未被创建,则将实体作为根节点构建,如果知识树已创建则将实体作为子节点构建。然后在知识树上进行蒙特卡洛树搜索算法,在给定总访问次数和知识树访问深度限制下不断有序地进行选择、扩展与求值、回溯这三个过程,直到满足决策条件。最后根据蒙特卡洛树搜索,进行问答检索的结果输出。本发明在大语言模型的自然语言生成能力的辅助下获得了更符合人类语言理解能力的答案。

    一种基于动态多层感知器与GPT校验器的实体细粒度标签分类方法

    公开(公告)号:CN117725467A

    公开(公告)日:2024-03-19

    申请号:CN202410085584.0

    申请日:2024-01-22

    Abstract: 本发明公开了一种基于动态多层感知器与GPT校验器的实体细粒度标签分类方法,包括:将实体提及和上下文语句分别通过BERT进行向量化表示,提取其中的[CLS]层特征分别作为两者特征表示;使用高速公路网络提取最终上下文语句特征;将实体提及通过两个普通MLP网络分别进行特征数量对齐与升维,得到最终实体提及特征,之后与最终上下文向量表示一起输入到动态MLP中进行特征融合并降维得到融合特征;将融合特征与原实体提及特征进行跳跃连接得到最终融合特征,将其通过分类器得到最终预测结果向量之后使用sigmoid函数转换为概率值,如果概率值大于0.5则确认为目标标签。该方法能够在实体细粒度标签分类任务中取得不错的效果,具有较好的鲁棒性,灵活性和准确性。

    一种基于提示多模型协同的零样本关系抽取方法

    公开(公告)号:CN116842953A

    公开(公告)日:2023-10-03

    申请号:CN202310806853.3

    申请日:2023-07-04

    Inventor: 张旻 曹旭涛 姜明

    Abstract: 本发明公开了一种基于提示多模型协同的零样本关系抽取方法,包括如下步骤:S1、构造数据生成提示;S2、构建GPT模型,将数据生成提示作为GPT模型的输入,使其输出未见关系的数据;S3、将未见关系的数据以及示例数据进行拼接,传入关系抽取模块,关系抽取模块分为关系分类算法和关系三元组抽取算法;S4、利用关系抽取模块进行关系抽取和关系三元组抽取。该方法利用生成提示引导GPT大模型进行合成数据生成,进行数据扩充,之后再通过构造实体提示和Schema提示,融入输入的待抽取句子中,利用UTC中的统一语义匹配USM实现零样本关系的抽取,依靠UIE实现零样本关系三元组的抽取。

    基于Transformer的多尺度行人重识别方法

    公开(公告)号:CN115631513B

    公开(公告)日:2023-07-11

    申请号:CN202211404764.8

    申请日:2022-11-10

    Inventor: 姜明 何铃杰 张旻

    Abstract: 本发明公开了基于Transformer的多尺度行人重识别方法。本发明提出了一种基于多尺度行人特征提取和Transformer的行人重识别网络。首先,我们设计了一个多尺度特征级联模块,旨在挖掘行人不同深度,不同尺度下的细节特征信息,从而获得更强壮的特征表达。其次,构建了基于transformer的特征提取,从全局范围学习行人特征。最后将Transformer输出的特征进行聚合,以获得更好的行人特征表达,从而提升模型的辨别能力。结果表明,这种方法具有更好的鲁棒性和自适应能力,有效的增强了模型的泛化能力。

    一种基于融合信息的外卖人员身份识别方法

    公开(公告)号:CN111709291B

    公开(公告)日:2023-05-26

    申请号:CN202010418961.X

    申请日:2020-05-18

    Abstract: 本发明公开了一种基于融合信息的外卖人员身份识别方法。本发明提出了一种基于多级特征和空间注意力机制的多目标检测网络MFCNet。该网络结构包括四部分,即特征提取主干网络模块、特征融合模块、多尺度信息提取模块以及空间注意力机制模块。针对MFCNet网络的训练,首先先使用PASCAL VOC数据集进行预训练,得到含有基础目标识别能力的预训练模型。然后通过收集外卖人员的多个属性特征,进行标记,做成数据集。最后在预训练模型的基础上,进行进一步的训练得到最终MFCNet识别模型,从而进行测试检测。本发明方法不但具有更好的鲁棒性和自适应能力。本发明不但采集了目标整体特征,而且通过多个附加目标信息的识别,能够较为准确的给出目标身份,适用性较强。

    基于群体行为特征和信用评价模型的决策方法

    公开(公告)号:CN115860490A

    公开(公告)日:2023-03-28

    申请号:CN202211512191.0

    申请日:2022-11-29

    Abstract: 本发明公开了一种基于群体行为特征和信用评价模型的决策方法。本发明包括如下步骤:1.统计社区业主车辆出行的规律,提取出社区业主车辆出行的群体行为特征;2.量化社区公共车位对外共享的服务能力,从统计意义上确定在优先保障业主停车条件下社区所能提供的最大共享停车数量;3.对业主的车辆出行行为进行共享量化建模,得到共享量化模型;4.对基于模糊综合评价的共享停车信用进行建模,得到共享停车信用模型;5.针对被拒的外来车辆构建用户停车拒绝概率模型;6.基于共享量化模型和共享停车信用模型和用户停车拒绝概率模型来指定停车接纳控制策略。本发明能在保障业主停车权利的同时,做到合理量化公共停车位的共享数量和时间,以解决公共停车位的共享问题。

    一种基于姿态估计和背景抑制的遮挡行人重识别方法

    公开(公告)号:CN115830637A

    公开(公告)日:2023-03-21

    申请号:CN202211593464.9

    申请日:2022-12-13

    Inventor: 姜明 何铃杰 张旻

    Abstract: 本发明公开了一种基于姿态估计和背景抑制的遮挡行人重识别方法,包括以下步骤:步骤(1)获得遮挡行人的全局特征和局部特征,并将局部特征重组为局部特征图;步骤(2)获得行人图像关键点的热度图和关键点置信度组,利用获得的局部特征图和热度图获得行人关键点特征组;步骤(3)通过Conv利用全局特征增强行人关键点特征组中每个关键点特征得到局部特征组,并通过关键点得到关键点邻接矩阵A,将局部特征组的和关键点邻接矩阵A作为GCN的输入,获得最终行人关键点特征;步骤(4)通过局部特征图和热度图得到行人特征,将其切分后作为最终特征;步骤(5)训练模型,该方法具有更好的鲁棒性和自适应能力。

Patent Agency Ranking