文档内容展示方法、模型训练方法、装置、设备及介质

    公开(公告)号:CN118152558A

    公开(公告)日:2024-06-07

    申请号:CN202410339155.1

    申请日:2024-03-22

    Abstract: 本公开提供了一种文档内容展示方法、模型训练方法、装置、设备及介质,涉及数据处理领域,可用于大数据、深度学习、文档处理、页面显示等技术领域,文档内容展示方法包括:获取待展示的目标文档;获取目标文档的文档特征和请求目标文档的用户的用户特征;根据文档特征和用户特征,确定目标文档的拦截率;按照拦截率,对目标文档进行内容展示。从而,有针对性地为文档确定个性化的拦截率,提高文档内容展示量的合理性,进而提高文档的转化率。

    标签提取方法、装置和电子设备

    公开(公告)号:CN111222328A

    公开(公告)日:2020-06-02

    申请号:CN201811469780.9

    申请日:2018-11-26

    Inventor: 叶君健 薛璐影

    Abstract: 本发明公开了一种标签提取方法、装置和电子设备,其中,方法包括:对待处理的文本数据进行分词,以得到所述文本数据对应的分词序列,所述分词序列包括按照分词顺序排列的多个分词;获取所述分词序列中每个分词的左熵和右熵;对所述分词序列中的分词进行依存分析,得到所述分词序列中各个分词之间的依赖关系;根据所述依赖关系,对所述分词序列中的所述多个分词进行分割,得到分词集合;根据所述分词集合、每个分词的左熵和右熵,确定所述文本数据的目标标签。该方法结合分词的左熵和右熵以及依赖关系,能实现词与词进行组合得到具有一定语义信息的较长的标签的提取,提高了标签提取的准确性,从而方便用户更加深刻的理解和运用文本数据。

    文本数据多层次分类方法、装置、电子设备和存储介质

    公开(公告)号:CN110781292A

    公开(公告)日:2020-02-11

    申请号:CN201810828188.7

    申请日:2018-07-25

    Abstract: 本申请提出一种文本数据多层次分类方法、装置、电子设备和存储介质,其中,装置包括:数据层及多级子分类组件,数据层用于将文本数据进行向量编码处理,以生成与文本数据对应的词向量;每级子分类组件用于对数据层生成的词向量及前一级子分类组件生成的分类结果,进行特征提取及分类处理,以确定文本数据在该级所属的类别。该分类装置通过将上一级子分类组件的分类结果,作为下一级子分类组件的分类依据,从而利用层次化的父子关系对文本数据进行逐级分类,提高了层次分类结果的准确性。

    文档处理方法及装置
    6.
    发明公开

    公开(公告)号:CN107818091A

    公开(公告)日:2018-03-20

    申请号:CN201610815787.6

    申请日:2016-09-12

    CPC classification number: G06F17/30634 G06F17/30876

    Abstract: 本发明提供一种文档处理方法和装置。所述方法包括:根据多个历史文档查询请求,挖掘文档查询的核心词;根据所述核心词,挂载所述核心词对应的文档,以在收到包括所述核心词对应的文档查询请求时,展示所述核心词对应的所述文档。通过采用本发明的技术方案,能够使得互联网公司的文库资源被有效地展现,从而在文档查询请求时可以获取到更多的文档查询结果,也能够有效地提高文档查询的效果。

    文档处理方法及装置
    7.
    发明授权

    公开(公告)号:CN107818091B

    公开(公告)日:2023-01-06

    申请号:CN201610815787.6

    申请日:2016-09-12

    Abstract: 本发明提供一种文档处理方法和装置。所述方法包括:根据多个历史文档查询请求,挖掘文档查询的核心词;根据所述核心词,挂载所述核心词对应的文档,以在收到包括所述核心词对应的文档查询请求时,展示所述核心词对应的所述文档。通过采用本发明的技术方案,能够使得互联网公司的文库资源被有效地展现,从而在文档查询请求时可以获取到更多的文档查询结果,也能够有效地提高文档查询的效果。

    文本分类噪声监测方法、装置、设备及计算机可读介质

    公开(公告)号:CN110717033A

    公开(公告)日:2020-01-21

    申请号:CN201810668995.7

    申请日:2018-06-26

    Abstract: 本发明提出一种文本分类噪声监测方法、装置、设备及计算机可读介质。该方法包括:获得属于同一文本类别的标题对的相似度分布,所述标题对的相似度为属于同一文本类别的任意两个标题的相似度;根据设定的置信水平,获取所述相似度分布的置信区间;根据所述相似度分布的置信区间,确定出噪声标题对。本发明实施例通过计算标题对之间的相似度,可以获取对应的相似度分布,通过相似度分布的置信区间确定噪声样本,从而可以保证噪声监测的准确性。

    电子出版物的推荐方法及装置

    公开(公告)号:CN104536989A

    公开(公告)日:2015-04-22

    申请号:CN201410753684.2

    申请日:2014-12-10

    Inventor: 薛璐影 刘水

    CPC classification number: G06F16/9535

    Abstract: 本发明提供一种电子出版物的推荐方法及装置,通过获取指定电子出版物的标识信息,进而根据指定电子出版物的标识信息,获得指定电子出版物所属的推荐组,推荐组为根据至少两个电子出版物中每个电子出版物的属性数据和每个电子出版物的名称数据获得,使得能够展现推荐组中除了指定电子出版物之外的其他电子出版物,由于不再完全依赖电子出版物的标题执行推荐操作,而是结合电子出版物的属性数据,执行推荐操作,使得推荐结果即所展现的其他电子出版物能够基本满足用户的需求,因此,能够避免现有技术中由于用户通过应用反复浏览电子出版物列表或者反复进行搜索而导致的增加应用与服务器之间的数据交互的问题,从而降低了服务器的处理负担。

    版式文档的处理方法及装置

    公开(公告)号:CN104536948A

    公开(公告)日:2015-04-22

    申请号:CN201410754250.4

    申请日:2014-12-10

    Inventor: 薛璐影 刘水

    Abstract: 本发明提供一种版式文档的处理方法及装置。本发明实施例通过获取版式文档的元数据,进而根据所述版式文档的元数据,获得所述版式文档的标题,使得能够根据所述版式文档的标题,获得所述版式文档的目标目录数据,无需人工参与,操作简单,而且正确率高,从而提高了版式文档处理的效率和可靠性。

Patent Agency Ranking