领域短语词典构建方法
    11.
    发明公开

    公开(公告)号:CN111985215A

    公开(公告)日:2020-11-24

    申请号:CN202010841791.6

    申请日:2020-08-19

    Abstract: 本申请公开了一种领域短语词典构建方法,包括:挖掘短语;构建领域词库;构建词典模型。挖掘短语包括:将原始数据进行预处理和分词,随后对分词结果采用相邻词频短语挖掘方法,提取出句子中所有可能出现的短语集合。构建领域词库,包括:使用TF-IDF算法训练短语集合得到带权重的词,再通过权重阈值将词划分为领域相关词和无关词。本申请的领域短语词典构建方法,运用统计词频和词语权重量化短语与领域相关性程度,将深度学习网络与构建领域词典方向相结合,显著提升了领域词典的健壮性,在消费品领域词典构建上有良好的表现,提升了消费品缺陷领域词典的构建效果,能够达到较高的正确率、召回率和F1值。

    藏文热点事件检测方法
    13.
    发明公开

    公开(公告)号:CN114090863A

    公开(公告)日:2022-02-25

    申请号:CN202111212885.8

    申请日:2021-10-19

    Abstract: 本申请公开了一种藏文热点事件检测方法,包括:获取热词;获取词对;对所述热词和所述词对进行聚类。获取热词包括:计算词频权重;计算词频增长率权重;计算网站影响力权重;融合所述词频权重、所述词频增长率权重以及所述网站影响力权重进行热词热度度量。本申请的方法通过在热度度量方法中融合词频、词频增长率、网站影响力特征,并经热度过滤,提高热词抽取的有效性;通过建立词对生成模型和词对语义引力模型,并经热度筛选,获得较高质量的词对集合;运用凝聚式层次聚类算法获得热点事件,采用热词和词对描述事件,进而满足事件描述细粒度的要求,能够较为有效地检测热点事件,具有较高的应用价值,达到的正确率、召回率和F值均较高。

    体育新闻战报主题分类方法

    公开(公告)号:CN110704610A

    公开(公告)日:2020-01-17

    申请号:CN201910404983.8

    申请日:2019-05-15

    Abstract: 本发明涉及一种体育新闻战报主题分类方法,包括:步骤1)对语料进行预处理;步骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别特征对句子主题进行分类。步骤2)包括:首先制定标注规则,完全按照类别定义进行标注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语料平均分给多个人进行标注。本发明提出的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用于为领域模板库构建提供支持,可以很好地满足实际应用的需要。

    一种基于图卷积拓扑特征和关键词特征的文本检索方法

    公开(公告)号:CN115329046A

    公开(公告)日:2022-11-11

    申请号:CN202211001959.8

    申请日:2022-08-21

    Abstract: 本发明涉及自然语言处理领域的文本检索技术,提升了现有方法在语义匹配上的不足,包括以下步骤:围绕在工程咨询报告范围获取实验所需数据,每个标题标注60段文本数据;将数据以[CLS]标题[SEP]段落[SEP]的形式传入BERT模型,得到标题和段落的向量表示;基于向量分别构建图拓扑结构,并利用图卷积神经网络GCN获取全局结构特征;针对具有上下文信息和全局特征的向量表示,利用排序模型得到第一个得分;将段落对应关键词利用Word2Vec得到向量表示,基于余弦相似度得到第二个得分,对两个得分加权平均得到最终匹配结果;训练模型并更新参数,在测试集上提取文本特征并进行检索。本发明能够提升文本检索的准确性。

    食品安全数据监管集成方法
    17.
    发明公开

    公开(公告)号:CN112785461A

    公开(公告)日:2021-05-11

    申请号:CN202110157622.5

    申请日:2021-02-05

    Abstract: 本申请公开了一种食品安全数据监管集成方法,包括:依据区块链技术和数据挖掘技术实现动态监督,通过数据挖掘分析日常检查内容,为检查结果提供参考,并最终将检查结果、任务结果和整改信息存储到超级账本中。本申请实施例提供的食品安全数据监管集成方法,利用区块链内的上链信息结合数据挖掘技术,通过分析区块链中已有的监管信息,能够帮助监管人员提供预判,缩小应检必检的餐饮单位范围,便于制定详尽合理的监管策略,降低监管人员的工作量,从而达到利用机器替代人工的目的。

    一种体育新闻自动写作模板库构建方法

    公开(公告)号:CN110516216A

    公开(公告)日:2019-11-29

    申请号:CN201910404549.X

    申请日:2019-05-15

    Abstract: 本发明涉及一种体育新闻自动写作模板库构建方法包括写作模板计算、触发条件构建,首先根据已分好的类别对模板数据进行相似度计算找到相同的模板,其次是利用CRF对模板进行触发条件识别,最终形成触发条件-模板;写作模板计算包括基于余弦相似度的写作模板计算、基于Word2Vec的写作模板计算。本发明提供的体育新闻自动写作模板库构建方法,取得了极佳的正确率、召回率和F值,能够通过计算向量空间上的相似度来表示文本语义上的相似度来实现相关词扩展,为体育新闻自动写作提供强有力的支持,从而为实现准确高效地体育新闻自动写作提供极佳的条件,可以很好地满足实际应用的需要。

Patent Agency Ranking