加噪方法、装置、电子设备及存储介质

    公开(公告)号:CN117909731A

    公开(公告)日:2024-04-19

    申请号:CN202311768520.2

    申请日:2023-12-21

    发明人: 贾敬伍 张杰 于皓

    IPC分类号: G06F18/214 G06F40/216

    摘要: 本申请实施例提供了一种加噪方法、装置、电子设备和存储介质,该加噪方法包括:获取微调数据集,微调数据集包括N条数据,每条数据包括n个特定字段;统计每条数据中n个特定字段中目标字段的文本长度;根据文本长度将第一数据集划分为第一数据子集和第二数据子集,第一数据子集中包括M条数据,第二数据子集中包括N‑M条数据;从第一数据子集或第二数据子集中选取第一数据作为待加噪数据;从第一数据子集或第二数据子集中选取第二数据作为噪声数据,将待加噪数据和噪声数据进行拼接,得到加噪数据。

    文档处理方法、装置及电子设备
    12.
    发明公开

    公开(公告)号:CN117632869A

    公开(公告)日:2024-03-01

    申请号:CN202311635619.5

    申请日:2023-12-01

    摘要: 本申请提供一种文档处理方法、装置及电子设备,该方法包括:获取文档要求以及文档要求对应的内容数据;根据文档要求以及内容数据,生成文档页面布局模板,文档页面布局模板包括N个待填充版块;根据文档页面布局模板、文档要求以及内容数据,生成N个填充内容,N个填充内容与N个待填充版块一一对应;将N个填充内容填充到文档页面布局模板对应的版块中,得到目标文档,以提高文档生成的灵活性。

    文本生成方法、智能问答方法、装置和电子设备和介质

    公开(公告)号:CN117609461A

    公开(公告)日:2024-02-27

    申请号:CN202311621289.4

    申请日:2023-11-30

    摘要: 本申请提供了文本生成方法、智能问答方法、装置和电子设备和介质。所述文本生成方法,包括:获取初始文本内容;对初始文本内容进行切片处理,得到多个第一文本切片;将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片;将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,所述问题信息的答案位于所述问题信息所对应的合并文本切片内。本申请可以提高所生成的目标文本的质量。

    一种视频数据的处理方法、装置、电子设备及存储介质

    公开(公告)号:CN116886992B

    公开(公告)日:2023-12-01

    申请号:CN202311140162.0

    申请日:2023-09-06

    摘要: 本发明提供一种视频数据的处理方法、装置、电子设备及存储介质,本发明涉及信息处理技术领域,该方法包括:对待分段视频数据进行语音识别,得到语音文本数据;基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据;根据所述目标文本数据确定第一时间戳和第二时间戳;基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。本发明通过将获取到的语音文本数据与预设话术文本数据进行匹配,选择相似度较高的作为目标文本数据,并根据目标文本数据在待分段视频数据对应的时间戳对待分段视频数据进行剪切,提高了视频分段的准确率。

    一种视频数据的处理方法、装置、电子设备及存储介质

    公开(公告)号:CN116886992A

    公开(公告)日:2023-10-13

    申请号:CN202311140162.0

    申请日:2023-09-06

    摘要: 本发明提供一种视频数据的处理方法、装置、电子设备及存储介质,本发明涉及信息处理技术领域,该方法包括:对待分段视频数据进行语音识别,得到语音文本数据;基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据;根据所述目标文本数据确定第一时间戳和第二时间戳;基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。本发明通过将获取到的语音文本数据与预设话术文本数据进行匹配,选择相似度较高的作为目标文本数据,并根据目标文本数据在待分段视频数据对应的时间戳对待分段视频数据进行剪切,提高了视频分段的准确率。

    多标签文档分类方法、装置、电子设备及介质

    公开(公告)号:CN115878793B

    公开(公告)日:2023-08-25

    申请号:CN202210583304.X

    申请日:2022-05-25

    摘要: 本申请公开了一种多标签文档分类方法、装置、电子设备及介质。其中方法包括:确定待标注的初始文档;基于若干种目标文档类别,确定初始文档所属目标文档类别的第一类别标签;基于预构建的文本类别识别模型,确定初始文档所属的文本类别第二类别标签;对第一类别标签和第二类别标签进行融合,得到融合标签;依据融合标签对初始文档进行标注,得到带有融合标签的目标文档。本申请解决相关多标签分类技术中存在长尾分布的问题,同时实现了利用机器学习技术实现文档分类的自动化、智能化识别的目的,进而通过两种类别标签的融合,不仅实现了均衡文档分类,避免某些文本类别数量过多或多差的问题,还提高了文档分类的质量。

    一种适用于多场景的智能问答方法、装置及存储介质

    公开(公告)号:CN115858741A

    公开(公告)日:2023-03-28

    申请号:CN202210852270.X

    申请日:2022-07-19

    摘要: 本申请公开了一种适用于多场景的智能问答方法、装置及存储介质,其中该方法,包括:建构意图语料库、知识问答语料库和闲聊语料库;基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。

    姓名生成方法及装置、电子设备、计算机程序产品

    公开(公告)号:CN118171655B

    公开(公告)日:2024-07-12

    申请号:CN202410586587.2

    申请日:2024-05-13

    发明人: 贾敬伍 张杰 于皓

    摘要: 本公开提供了一种姓名生成方法及装置、电子设备、计算机程序产品,该方法包括:获取自动语音识别文本;从所述自动语音识别文本中提取目标语句,其中,所述目标语句中包括用于描述姓名的上下文文本;从所述目标语句中提取姓名文本和姓名的解释文本;根据所述姓名文本和所述姓名的解释文本,生成目标姓名。本公开实施例能够提升从自动语音识别文本中抽取姓名的准确率。

    一种问答方法及装置
    20.
    发明公开

    公开(公告)号:CN117370494A

    公开(公告)日:2024-01-09

    申请号:CN202311287682.4

    申请日:2023-10-07

    IPC分类号: G06F16/33 G06N5/02 G06F16/332

    摘要: 本申请公开了一种问答方法及装置。其中,所述问答方法包括:获取待应答的问题;获取所述问题中的关键词;根据所述关键词在知识图谱中进行检索,得到所述关键词对应的知识图谱本体结构图,所述知识图谱本体结构图中包括所述关键词对应的实体和/或实体与相邻实体之间的关系;根据所述问题和所述知识图谱本体结构图生成查询语句;根据所述查询语句生成所述问题对应的答案。本申请的问答方法,不局限于回答单实体、单关系的简单问题,也可以回答多实体、多关系的复杂问题,泛化性较好,且获取到的知识图谱本体结构图为知识图谱中的实时数据,因此准确性较高。