一种基于邮件列表的开源软件问答信息抽取方法

    公开(公告)号:CN106844329A

    公开(公告)日:2017-06-13

    申请号:CN201610953505.9

    申请日:2016-11-03

    Inventor: 邹艳珍 金庸 沈琦

    Abstract: 本发明公开了一种基于邮件列表的开源软件问答信息抽取方法。本方法为:1)从邮件归档服务器上爬取目标开源软件的邮件归档文件;依据邮件头部域将邮件归档文件分割成多封单独的邮件;2)将回复信息域为空的邮件设为一个会话的提问邮件,然后从得到的邮件中查找回复信息域的域值为该提问邮件的邮件标识ID的邮件,将其加入该会话;从而将同一主题下的邮件组织成邮件对话的形式;3)提取各邮件的正文信息并对邮件内容中代码元素进行标注;4)从提问邮件的正文信息中提取问题句及其上下文信息;然后基于问题句及其上下文信息和标注的代码元素构建查询条件,在该提问邮件的会话邮件中进行检索;然后从检索结果中选取一邮件作为回答信息。

Patent Agency Ranking