-
公开(公告)号:CN116976351B
公开(公告)日:2024-01-23
申请号:CN202311228568.4
申请日:2023-09-22
Applicant: 之江实验室
IPC: G06F40/295 , G06F40/216 , G06F40/284 , G06F18/24 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于学科实体的语言模型构建方法,包括以下步骤:获取教学资源以构建对应的初始数据集;对初始数据集进行学科实体筛选,以构建对应的学科实体库;将所述学科实体库中的学科实体进行随机遮蔽以获得对应的遮蔽词,以所述学科实体与相应的遮蔽词组成数据集;构建语言神经网络包括前置编码层,特征提取层以及预测层;采用数据集对语言神经网络进行训练,以获得用于挖掘学科实体的学科实体语言模型;将待识别的教学资源输入至学科实体语言模型中,以输出文本中包含的学科实体。本发明还提供了一种学科实体识别装置。本发明提供的方法构建的语言模型可以获取教育领域(56)对比文件Shashank Patel 等.Summarization andSimplification of Medical Articles usingNatural Language Processing《.2022 13thInternational Conference on ComputingCommunication and Networking Technologies(ICCCNT)》.2022,第1-6页.王雨扬.基于知识图谱的在线教学资源库智能化改造关键技术研究与实现《.中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》.2023,第2023年卷(第2期),第24-25页.张璐.基于中文命名实体识别的高中化学试题检索方法研究及应用《.万方》.2023,第1.2节、第3章.张璐.基于中文命名实体识别的高中化学试题检索方法研究及应用《.万方》.2023,第1.2节、第3章.
-
公开(公告)号:CN116976351A
公开(公告)日:2023-10-31
申请号:CN202311228568.4
申请日:2023-09-22
Applicant: 之江实验室
IPC: G06F40/295 , G06F40/216 , G06F40/284 , G06F18/24 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于学科实体的语言模型构建方法,包括以下步骤:获取教学资源以构建对应的初始数据集;对初始数据集进行学科实体筛选,以构建对应的学科实体库;将所述学科实体库中的学科实体进行随机遮蔽以获得对应的遮蔽词,以所述学科实体与相应的遮蔽词组成数据集;构建语言神经网络包括前置编码层,特征提取层以及预测层;采用数据集对语言神经网络进行训练,以获得用于挖掘学科实体的学科实体语言模型;将待识别的教学资源输入至学科实体语言模型中,以输出文本中包含的学科实体。本发明还提供了一种学科实体识别装置。本发明提供的方法构建的语言模型可以获取教育领域海量的先验知识,从而构建更加全面的学科实体数据集。
-