数据构建方法、模型训练方法、检查方法及相关装置

    公开(公告)号:CN117688928A

    公开(公告)日:2024-03-12

    申请号:CN202311388350.5

    申请日:2023-10-24

    Abstract: 本申请公开了一种数据构建方法、模型训练方法、检查方法及相关装置,该方法包括:获取第一样本医疗用词分别与第一样本医疗用词的若干负向医疗标准词之间的相似度,其中,第一样本医疗用词的负向医疗标准词与第一样本医疗用词不具有映射关系;基于相似度,从第一样本医疗用词的若干负向医疗标准词中,选出第一样本医疗用词的至少一个搭配医疗标准词;利用第一样本医疗用词和至少一个搭配医疗标准词,构建得到负样本医疗数据,负样本医疗数据用于对语言大模型进行微调,经微调后的语言大模型用于确定医疗用词与医疗标准词之间是否具有映射关系。通过上述方式,本申请能够提高语言大模型对不具有映射关系的医疗用词与医疗标准词的检查能力。

    医疗语言模型训练方法、医疗问答方法及医疗对话系统

    公开(公告)号:CN117633166A

    公开(公告)日:2024-03-01

    申请号:CN202311373049.7

    申请日:2023-10-20

    Abstract: 本发明涉及人工智能技术领域,提供一种医疗语言模型训练方法、医疗问答方法及医疗对话系统,该训练方法首先确定医疗领域的样本问答对;然后将样本问答对输入至初始语言模型,得到初始语言模型输出的对应于样本问答对中样本问题的多个生成回复;最后确定多个生成回复的偏好信息和价值观信息,并基于多个生成回复及其偏好信息和价值观信息,对初始语言模型进行训练,得到医疗语言模型。该训练方法引入生成回复的偏好信息和价值观信息,并借助于此对初始语言模型进行训练,使得到的医疗语言模型可以具有较好的排序性能及价值观分类性能,可以输出一个最符合语言习惯且较大概率符合价值观的回复内容。

    医学文书生成方法、装置、电子设备及存储介质

    公开(公告)号:CN117393099A

    公开(公告)日:2024-01-12

    申请号:CN202311382015.4

    申请日:2023-10-23

    Abstract: 本申请提供一种医学文书生成方法、装置、电子设备及存储介质,所述医学文书生成方法,包括:根据患者医疗数据和医学文书生成需求,生成任务描述;所述任务描述包括对医学文书生成任务的描述信息,所述医学文书生成任务用于生成与所述患者医疗数据对应的、符合所述医学文书生成需求的医学文书;生成至少包括所述患者医疗数据以及所述任务描述的任务指令;将所述任务指令输入预先训练的文书生成模型,得到医学文书;其中,所述文书生成模型至少通过对预训练的生成式语言模型进行基于任务指令的医学文书生成训练得到。

    训练数据的评估方法、装置、电子设备和存储介质

    公开(公告)号:CN116628514A

    公开(公告)日:2023-08-22

    申请号:CN202310505745.2

    申请日:2023-05-05

    Abstract: 本申请提出一种训练数据的评估方法、装置、电子设备和存储介质,能够计算预先采集的问题数据与训练数据之间的相似度,若训练数据中存在至少一条与问题数据之间的相似度大于设定相似度阈值的目标训练数据,则确定问题数据解答成功,若所有问题数据的问题解答率小于设定的问题解答率阈值,则根据所有解答失败的问题数据,生成并输出训练数据的第一补充数据指示信息,其中,问题解答率表示所有问题数据中、解答成功的问题数据的数量在所有问题数据的占比。以便于能够根据第一补充数据指示信息对训练数据进行补充,使训练数据的完整性符合语音模型的训练要求,从而可以提升模型训练效果和训练效率。

    文本语义识别方法及其模型的获取方法及相关装置

    公开(公告)号:CN111144127B

    公开(公告)日:2023-07-25

    申请号:CN201911360687.9

    申请日:2019-12-25

    Abstract: 本申请公开了一种文本语义识别方法及其模型的获取方法及相关装置,其中,文本语义识别方法包括:从多个文本规则中筛选与待识别文本匹配的文本规则,其中,多个文本规则是对标注有文本语义的多个样本文本进行分析而得到的;基于匹配的文本规则和待识别文本,获取待识别文本的关键词序列;将待识别文本和关键词序列输入经训练得到的文本语义识别模型进行语义理解,获取待识别文本的文本语义;其中,文本语义识别模型是利用标注有文本语义的多个训练文本及其关键词序列训练预设神经网络得到的。上述方案,能够提高文本语义识别的准确性。

    语义表达式生成方法、装置及设备

    公开(公告)号:CN111460169B

    公开(公告)日:2023-06-02

    申请号:CN202010230282.X

    申请日:2020-03-27

    Abstract: 本发明公开了一种语义表达式生成方法、装置及设备。其中主要构思在于先从待处理文本中提炼出完整涵盖用户意图的各语义要素及各语义要素之间的关联关系,在此基础上,再从中梳理出能够清晰表示出文本语义的关键语义要素,并由此形成可以作为语义表达式的关键语义要素序列。本发明相比现有的语义表达生成方式,能够从整体上考虑提炼语义要素并考虑要素之间的关联关系,而在此基础上整理出的关键语义要素及形成的关键语义要素序列便更为准确、直接地表达出真实语义,并且本发明基于语义要素及相互关联关系的抽取和梳理,使得各语义要素的关键程度清晰展现,无需繁琐、冗余地进行比对、匹配等操作,便可高效地输出最终的语义表达式。

    一种文本分类方法及系统
    67.
    发明授权

    公开(公告)号:CN107180023B

    公开(公告)日:2022-01-04

    申请号:CN201610141931.2

    申请日:2016-03-11

    Abstract: 本发明公开了一种文本分类方法及系统,该方法包括:预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;获取待分类文本数据;提取待分类文本数据的分类特征;将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。由于本发明提供的方法可以用字特征、词特征、词性特征、依存句法特征等特征从多角度表达文本数据的语义信息,能更完整的表达文本数据的信息,使得利用所述分类特征进行文本类型预测时,获取的预测结果的准确度更高。

    总结模型的训练方法和工单生成方法及相关设备、装置

    公开(公告)号:CN113128176A

    公开(公告)日:2021-07-16

    申请号:CN202110227624.7

    申请日:2021-03-01

    Abstract: 本申请公开了一种总结模型的训练方法和工单生成方法及相关设备、装置,其中,总结模型的训练方法包括:获取样本文本;其中,样本文本对应有参考总结文本和对照文本;利用总结模型的编码网络对样本文本和对照文本进行编码,得到样本文本的第一表示和对照文本的第二表示;利用总结模型的解码网络对第一表示进行解码,得到样本文本的预测总结文本;基于第一表示和第二表示之间的相似度,得到总结模型的第一损失值,并基于预测总结文本和参考总结文本,得到总结模型的第二损失值;基于第一损失值和第二损失值,调整总结模型的网络参数。上述方案,能够提高文本总结的效率和准确性。

    篇章解析方法、电子设备及存储装置

    公开(公告)号:CN112257412A

    公开(公告)日:2021-01-22

    申请号:CN202011024707.8

    申请日:2020-09-25

    Abstract: 本申请公开了一种篇章解析方法、电子设备和存储装置,其中,篇章解析方法包括:获取待解析篇章;其中,待解析篇章包括若干段落;对若干段落进行识别,将属于同一主题类型且连续的段落,作为与主题类型对应的区段;分别确定与同一主题类型对应的区段之间的编辑关系。上述方案,能够加深篇章解析深度。

Patent Agency Ranking