一种基于时间窗口文本相似度的文档隐式时间推断方法

    公开(公告)号:CN113051917B

    公开(公告)日:2022-11-18

    申请号:CN202110444587.5

    申请日:2021-04-23

    Applicant: 东南大学

    Inventor: 曹玖新 林杰 张晗

    Abstract: 本发明公开了一种基于时间窗口文本相似度的文档隐式时间推断方法,其步骤为:首先提取文本数据的背景词,考虑文本数据的背景词和歧义词对文本数据进行预处理;其次根据时间片划分基本单位划分文档语料,并通过传统的LDA主题模型和词向量模型对文档语料进行建模量化;接着基于余弦相似度,构建相邻时间片文本相似性衡量指标;然后设定时间窗口划分阈值,判定相邻时间片是否属于同一主题;最后将属于同一时间窗口的主题文档进行合并,输出文本数据所包含的隐式时间。该推断方法能够推断出文档中所包含的隐式时间,可有效地改进传统的动态主题模型,进行动态自适应时间窗口划分。

    一种基于时间窗口文本相似度的文档隐式时间推断方法

    公开(公告)号:CN113051917A

    公开(公告)日:2021-06-29

    申请号:CN202110444587.5

    申请日:2021-04-23

    Applicant: 东南大学

    Inventor: 曹玖新 林杰 张晗

    Abstract: 本发明公开了一种基于时间窗口文本相似度的文档隐式时间推断方法,其步骤为:首先提取文本数据的背景词,考虑文本数据的背景词和歧义词对文本数据进行预处理;其次根据时间片划分基本单位划分文档语料,并通过传统的LDA主题模型和词向量模型对文档语料进行建模量化;接着基于余弦相似度,构建相邻时间片文本相似性衡量指标;然后设定时间窗口划分阈值,判定相邻时间片是否属于同一主题;最后将属于同一时间窗口的主题文档进行合并,输出文本数据所包含的隐式时间。该推断方法能够推断出文档中所包含的隐式时间,可有效地改进传统的动态主题模型,进行动态自适应时间窗口划分。

Patent Agency Ranking