-
公开(公告)号:CN113342953A
公开(公告)日:2021-09-03
申请号:CN202110675321.1
申请日:2021-06-18
Applicant: 北京理工大学东南信息技术研究院 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F40/289 , G06Q50/26
Abstract: 本发明适用于智能问答领域,提供了一种基于多模型集成的政务问答方法。本发明将实际政务问答的复杂场景分解为多个部分,集成多种特定用途的在不同数据集上微调的预训练语言模型,分别进行FAQ问答对匹配、阅读理解以及层级检索以获取答案和可解释性证据,之后使用无监督答案验证方法对得到的答案和可解释性证据进一步验证,从而充分利用不同模型进行答案信息互补,提高政务问答的质量。采取的阅读理解模型经过无监督检索后能够快速推理并且层级检索方法非常高效,从而保证政务问答的实时性要求。多模型集成的使用能够进一步提高问答准确率,同时提供答案对应的可解释性证据。此外,无监督方法的特性使得该发明能够轻易移植到其他实际问答场景中。
-
公开(公告)号:CN119311796A
公开(公告)日:2025-01-14
申请号:CN202411264439.5
申请日:2024-09-10
Applicant: 北京理工大学东南信息技术研究院
IPC: G06F16/332 , G06F18/2411 , G06F18/214 , G06F40/186
Abstract: 本申请提供一种用于合成特定领域多轮对话数据的方法,方法包括:步骤一、进行数据集嵌入并进行降维;将文本形式的数据集转换为高维特征向量形式,并进行降维,转换为二维向量形式;步骤二、构建对话合成器的训练数据集;步骤三、使用对抗学习训练对话数据合成器;步骤四、使用对话合成器合成特定领域的数据集;步骤五、基于规则对合成数据进行清洗与筛选。本申请提供的方法填补特定领域对话数据的空缺,增强模型在特定领域的专业能力,降低合成数据的成本。
-
公开(公告)号:CN119337864A
公开(公告)日:2025-01-21
申请号:CN202411298131.2
申请日:2024-09-18
Applicant: 北京理工大学东南信息技术研究院
IPC: G06F40/232 , G06F40/30 , G06F40/186
Abstract: 本申请提供一种融合用户语义和过往纠错记录的纠错大模型迭代训练方法,方法包括:纠错元数据构造:利用大模型指令数据集的构造方式,对篇章句子在内的数据进行纠错元数据的构造;输入为用户指定的待纠错文本;通过接受批改大模型的输出,调用动态反馈模块将批阅反馈发送给用户决策模块;用户决策模块接受输出结果,进行纠错意见和纠错结果的满意度反馈,并将用户的满意度反馈结果进行记录和重新组装,返回给动态反馈模块。本申请能够更准确地识别和纠正作文中的错误。
-
公开(公告)号:CN119311797A
公开(公告)日:2025-01-14
申请号:CN202411264441.2
申请日:2024-09-10
Applicant: 北京理工大学东南信息技术研究院
IPC: G06F16/332 , G06F16/33 , G06N5/04 , G06F18/2411 , G06F18/214
Abstract: 本申请提供一种基于情感信息的人格识别方法,方法包括:步骤一,对会话中的人格识别进行定义,将会话中的人格识别问题形式化为自然语言推理I问题;步骤二,构建情感对话内容;步骤三,构建人格描述;整理并总结每个人格特质的积极和消极描述,描述用于在NLI问题中作为假设,提供关于行为特征和情感表达倾向的详细信息;步骤四,训练并推理自然语言推理。本申请提高了人机交互的互动质量和个性化体验。
-
公开(公告)号:CN112000818B
公开(公告)日:2023-05-12
申请号:CN202010663328.7
申请日:2020-07-10
Applicant: 中国科学院信息工程研究所
IPC: G06F16/432 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提供一种面向文本和图像的跨媒体检索方法及电子装置,提取一设定长度语音信息的g维MFCC特征,并将长度为m的g维MFCC特征转换为一维语音特征;对一设定文本进行编码,获取词级别文本表示,并将词级别文本表示中每一个词与一维语音特征进行拼接,得到语音引导文本特征;提取每一图片的区域特征,计算区域特征与语音引导文本特征的相似性分数,判断该图片是否包含设定语音信息及设定文本信息,得到检索结果。本发明利用语音信息的停顿信息,以及语音信息与图像和文本间的关联关系来提升图像‑文本匹配任务的性能,建模了融合语音信息的文本特征表示,引入基于局部注意力机制的细粒度特征融合方式进行跨模态特征融合,提升图文匹配效果。
-
公开(公告)号:CN115587180A
公开(公告)日:2023-01-10
申请号:CN202211111245.2
申请日:2022-09-13
Applicant: 中国科学院信息工程研究所
IPC: G06F16/35 , G06N3/094 , G06F16/36 , G06F40/289 , G06F18/214 , G06F18/241 , G06N3/0464
Abstract: 本发明涉及一种基于对抗学习的鲁棒性教学知识点识别方法与装置。本发明对三个方面进行改进:1)数据制作:通过对计算机网络的电子教材数据进行处理并总结归纳,构建出一套计算机网络科目的知识点识别数据集,作为模型的输入;2)模型改进:在ALBERT与TextCNN结合模型的基础上进行了模型结构的改动,在ALBERT的隐藏层输出中结合了输入句子中实体的信息,提高了模型捕捉实体信息的能力;3)方法改进:对模型的训练过程进行了新的改进,添加了对抗训练,有效地提高了模型的泛化能力与鲁棒性。本发明将ALBERT与TextCNN的结合模型运用于知识点识别任务中,并对模型结构与训练方法进行改进,能够有效地进行教学知识点的自动识别。
-
公开(公告)号:CN110300016B
公开(公告)日:2020-12-04
申请号:CN201910397763.7
申请日:2019-05-14
Applicant: 中国科学院信息工程研究所
IPC: H04L12/24
Abstract: 本发明提供一种基于差分预解集的网络信息扩散源头推断方法,属于信息技术处理领域,用G=(V,E)表示网络节点之间的连接关系,其中V表示网络节点集,E表示网络边集,从中选取差分预解集S,建立扩散源特征,收集级联信息,判断指标集合的模|Ic|的大小,如果大于预设值,则提取级联C的特征向量,对每个节点v∈V的扩散源特征进行调整,对所有的节点v∈V逐一计算范数,找到范数最小的那个节点推断为源头。本方法能够主动地对数据来源进行优化选取,提高输入数据的质量,大幅提升源头推断的精度。
-
公开(公告)号:CN110363282A
公开(公告)日:2019-10-22
申请号:CN201910489364.3
申请日:2019-06-06
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于图卷积网络的网络节点标签主动学习方法和系统。该方法包括:1)根据当前带标签节点集合L,采用图卷积网络GCN预测本轮迭代中各节点的标签;2)根据GCN的分类效果更新待标注节点的查询策略,根据查询策略获得相应的待标注节点;3)将根据查询策略得到的待标注节点进行集成,从本轮迭代中的不带标签节点集合U中选出最优的待标注节点进行标注,并加入带标签节点集合L中;4)迭代进行步骤1)~3),直到标注的节点数目达到预先设置的目标数目。所述查询策略包括标签覆盖率查询策略、信息熵查询策略、节点中心性查询策略、信息密度查询策略。本发明能够改善和解决图卷积网络当带标签节点过少时参数更新困难的问题。
-
公开(公告)号:CN110300016A
公开(公告)日:2019-10-01
申请号:CN201910397763.7
申请日:2019-05-14
Applicant: 中国科学院信息工程研究所
IPC: H04L12/24
Abstract: 本发明提供一种基于差分预解集的网络信息扩散源头推断方法,属于信息技术处理领域,用G=(V,E)表示网络节点之间的连接关系,其中V表示网络节点集,E表示网络边集,从中选取差分预解集S,建立扩散源特征,收集级联信息,判断指标集合的模|Ic|的大小,如果大于预设值,则提取级联C的特征向量,对每个节点v∈V的扩散源特征进行调整,对所有的节点v∈V逐一计算范数,找到范数最小的那个节点推断为源头。本方法能够主动地对数据来源进行优化选取,提高输入数据的质量,大幅提升源头推断的精度。
-
公开(公告)号:CN110233938A
公开(公告)日:2019-09-13
申请号:CN201910398052.1
申请日:2019-05-14
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于可疑性度量的团伙诈骗电话识别方法,采用无监督的方式,利用电话号码之间的呼叫记录信息,为每个电话号码定义可疑性度量,采用风险等级量化的方式识别团伙诈骗电话。本方法不需引入用户的主观标记结果,不仅能避免主观判断带来的缺陷,还能在较短时间内完成模型训练与线上使用,为用户遭受团体诈骗提供了一种简单、实用的识别方法,有效地缓解了滞后性所带来的问题。
-
-
-
-
-
-
-
-
-