-
公开(公告)号:CN119832581A
公开(公告)日:2025-04-15
申请号:CN202411743106.0
申请日:2024-11-29
Applicant: 北京计算机技术及应用研究所
IPC: G06V30/414 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/0442
Abstract: 本发明涉及一种基于混合视觉策略的异构表格抽取方法,属于人工智能、大数据、计算机视觉、自然语言处理技术领域。本发明通过改进现有的表格解析技术,并结合深度学习和自然语言处理技术,提升表格数据的识别准确率与提取效率,为构建高质量的军事知识库奠定基础。本发明改善了当前表格数据识别中的技术瓶颈,也为未来军事情报分析和自动化决策系统提供了数据支持。
-
公开(公告)号:CN117521666B
公开(公告)日:2025-04-04
申请号:CN202311451928.7
申请日:2023-11-03
Applicant: 北京计算机技术及应用研究所
IPC: G06F40/30 , G06F40/211 , G06F40/117 , G06F16/334 , G06N3/0499 , G06N3/08
Abstract: 本发明涉及一种基于元学习扩散模型的限定域受限文本生成方法,属于人工智能、大数据、自然语言处理领域。本发明通过关键词抽取和在原始句子中随机插入特定的占位符标记[EMP],构造大量训练样本;采用局部扩散的方式固定关键词,从而使扩散模型能够完成Hard‑CTG任务,并引入元学习策略对扩散模型训练过程进行优化;引入了另外一个特殊的标记[SLOT]用以指示MDM进行插入的位置,在逆扩散过程中,[SLOT]所标识的位置会逐步由标准高斯噪声转换为一个实际的单词或[EMP],从而得到包含关键词输入的生成文本。本发明使得扩散模型可在条件文本生成领域发挥其强大的生成优势。
-
公开(公告)号:CN119721022A
公开(公告)日:2025-03-28
申请号:CN202411699641.0
申请日:2024-11-26
Applicant: 北京计算机技术及应用研究所
IPC: G06F40/279 , G06F40/216 , G06F40/30 , G06F18/22 , G06F40/186 , G06F40/211 , G06F40/253 , G06N20/00 , G06N3/045
Abstract: 本发明涉及一种基于关键词提示的细粒度关系抽取数据增强方法,属于人工智能、大数据、自然语言处理技术领域。此方法在句子合成过程中增加了关键词提示的上下文约束,以确保生成的句子在保持关系依赖性和语义一致性的同时,通过结合大语言模型的强大生成能力,生成具有丰富上下文多样性的句子,同时保持语义一致性,提高生成数据的多样性。
-
公开(公告)号:CN117390157B
公开(公告)日:2025-05-06
申请号:CN202311341725.2
申请日:2023-10-17
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/3329 , G06F16/36 , G06F16/35 , G06F40/30
Abstract: 本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。
-
公开(公告)号:CN119831030A
公开(公告)日:2025-04-15
申请号:CN202411730689.3
申请日:2024-11-29
Applicant: 北京计算机技术及应用研究所
Abstract: 本发明涉及一种基于领域数据配比的大语言模型知识注入方法,属于大语言模型、领域知识、自然语言处理技术领域。本发明设计了一个自我监督的持续预训练框架,该框架能够在不增加额外人工标注成本的情况下,利用选定的知识对LLMs进行知识增强;提出了一个基于同质性度量的知识筛选机制,用于从大规模知识图谱中精选与目标任务相关的高质量知识,有效提升了LLMs的领域感知。在多个低资源垂直领域的NER任务上进行了广泛的实验,实验结果验证了本方法的有效性,尤其是在提升模型对复杂实体类型识别能力方面表现出色。
-
公开(公告)号:CN117521666A
公开(公告)日:2024-02-06
申请号:CN202311451928.7
申请日:2023-11-03
Applicant: 北京计算机技术及应用研究所
IPC: G06F40/30 , G06F40/211 , G06F40/117 , G06F16/33 , G06N3/0499 , G06N3/08
Abstract: 本发明涉及一种基于元学习扩散模型的限定域受限文本生成方法,属于人工智能、大数据、自然语言处理领域。本发明通过关键词抽取和在原始句子中随机插入特定的占位符标记[EMP],构造大量训练样本;采用局部扩散的方式固定关键词,从而使扩散模型能够完成Hard‑CTG任务,并引入元学习策略对扩散模型训练过程进行优化;引入了另外一个特殊的标记[SLOT]用以指示MDM进行插入的位置,在逆扩散过程中,[SLOT]所标识的位置会逐步由标准高斯噪声转换为一个实际的单词或[EMP],从而得到包含关键词输入的生成文本。本发明使得扩散模型可在条件文本生成领域发挥其强大的生成优势。
-
公开(公告)号:CN117390157A
公开(公告)日:2024-01-12
申请号:CN202311341725.2
申请日:2023-10-17
Applicant: 北京计算机技术及应用研究所
IPC: G06F16/332 , G06F16/36 , G06F16/35 , G06F40/30
Abstract: 本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。
-
-
-
-
-
-