-
公开(公告)号:CN118445392A
公开(公告)日:2024-08-06
申请号:CN202410577965.0
申请日:2024-05-10
Applicant: 中国科学院计算技术研究所
IPC: G06F16/332 , G06F16/33 , G06F40/284 , G06F40/30
Abstract: 本发明提出一种面向网页的阅读理解模型的训练方法、装置、存储介质,该方法包括:获取网页基于DOM树结构的路径信息,利用该路径信息表征网页的逻辑结构信息表示;获取网页基于网页快照的坐标信息,利用该坐标信息表征网页的空间结构信息表示;获取网页中的提示词,利用该提示词对初始问题文本进行信息增强,得到目标问题文本;将该逻辑结构信息表示与该空间结构信息表示融合,输入到网页阅读理解模型中;以及将该目标问题文本与该网页内容文本拼接,输入到该网页阅读理解模型中,获取答案。该方法提升了模型的网页理解能力,进而提高答案的准确性和相关性。