-
公开(公告)号:CN115249472B
公开(公告)日:2024-09-27
申请号:CN202110455076.3
申请日:2021-04-26
申请人: 北京中关村科金技术有限公司
IPC分类号: G10L13/02 , G10L13/10 , G06F40/211 , G06F40/253 , G06F40/284 , G06F40/30
摘要: 本申请公开了一种结合上文语境实现重音统筹的语音合成方法及装置。其中,该方法包括:获取待合成语音的目标句和目标句的上文语境句;根据预设的预测算法,确定目标句的多维特征,其中多维特征包括语义特征、语法特征和词汇特征;根据上文语境句的文本信息,确定目标句的信息特征,其中信息特征用于指示目标句中待分配重音的信息焦点;将多维特征和信息特征输入预设的重音确定模型,输出多维重音和信息重音,其中多维重音包括语义重音、语法重音和词汇重音;以及根据多维重音和信息重音,确定与目标句对应的目标语音。
-
公开(公告)号:CN116580407A
公开(公告)日:2023-08-11
申请号:CN202310540078.1
申请日:2023-05-12
申请人: 北京中关村科金技术有限公司
IPC分类号: G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本公开提供了一种文本检测模型的训练方法、文本检测方法及装置,该方法包括:获取样本图像、样本图像的标注和待训练的初始文本检测模型;基于特征提取子模型提取与样本图像对应的特征图;将特征图输入至预测子模型中进行噪声去除处理和文本位置预测处理,得到文本在样本图像中的预测位置信息,噪声去除处理用于去除标注中的第一预设噪声;根据预测位置信息和标注位置信息,得到目标损失值,并基于目标损失值调整初始文本检测模型的参数,得到目标文本检测模型,目标损失值用于表示预测位置信息所表示的第一位置和标注位置信息所表示的第二位置之间的误差。根据本公开的实施例能够提升得到的文本检测模型的训练效果和预测结果的准确性。
-
公开(公告)号:CN116092105B
公开(公告)日:2023-06-16
申请号:CN202310371196.4
申请日:2023-04-07
申请人: 北京中关村科金技术有限公司
IPC分类号: G06V30/412 , G06N3/08 , G06N3/0464
摘要: 本申请公开了一种表格结构的解析方法和装置,该方法包括:获取包含目标表格的表格图像;获取预先训练的表格识别模型,所述表格识别模型包括特征提取层、特征合并层、编码层、解码层和输出层;使用所述表格识别模型对所述表格图像进行识别,得到所述目标表格的横线识别结果和竖线识别结果;根据所述目标表格的横线识别结果和竖线识别结果,确定所述目标表格的表格结构。本申请实施例在对表格图像进行识别时,能够充分挖掘表格图像中目标表格的浅层和深层特征,提高识别到的横竖线的准确度,进而在基于识别到的横竖线确定表格结构时,能够得到准确度较高的表格结构,有效改善表格结构的解析效果。
-
公开(公告)号:CN116092105A
公开(公告)日:2023-05-09
申请号:CN202310371196.4
申请日:2023-04-07
申请人: 北京中关村科金技术有限公司
IPC分类号: G06V30/412 , G06N3/08 , G06N3/0464
摘要: 本申请公开了一种表格结构的解析方法和装置,该方法包括:获取包含目标表格的表格图像;获取预先训练的表格识别模型,所述表格识别模型包括特征提取层、特征合并层、编码层、解码层和输出层;使用所述表格识别模型对所述表格图像进行识别,得到所述目标表格的横线识别结果和竖线识别结果;根据所述目标表格的横线识别结果和竖线识别结果,确定所述目标表格的表格结构。本申请实施例在对表格图像进行识别时,能够充分挖掘表格图像中目标表格的浅层和深层特征,提高识别到的横竖线的准确度,进而在基于识别到的横竖线确定表格结构时,能够得到准确度较高的表格结构,有效改善表格结构的解析效果。
-
公开(公告)号:CN115905851A
公开(公告)日:2023-04-04
申请号:CN202210725535.X
申请日:2022-06-23
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F18/214 , G06F16/332
摘要: 本申请提供的一种模型的确定方法、装置、电子设备及计算机可读存储介质,通过将所述第一意图语料数据集输入至预先建立的第一模型中,确定所述第一意图语料数据集中各个意图语料数据对应的标签信息,然后基于所述第一意图语料数据集及所述第一意图语料数据集中各个意图语料数据对应的标签信息对所述第一模型进行训练,得到第二模型,基于所述第二模型的预测效果和所述第一模型的预测效果确定第一目标模型,能够避免得到的第一目标模型的预测效果变差。
-
公开(公告)号:CN115878793A
公开(公告)日:2023-03-31
申请号:CN202210583304.X
申请日:2022-05-25
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F16/35 , G06F18/241 , G06F18/25 , G06F18/214 , G06N20/00
摘要: 本申请公开了一种多标签文档分类方法、装置、电子设备及介质。其中方法包括:确定待标注的初始文档;基于若干种目标文档类别,确定初始文档所属目标文档类别的第一类别标签;基于预构建的文本类别识别模型,确定初始文档所属的文本类别第二类别标签;对第一类别标签和第二类别标签进行融合,得到融合标签;依据融合标签对初始文档进行标注,得到带有融合标签的目标文档。本申请解决相关多标签分类技术中存在长尾分布的问题,同时实现了利用机器学习技术实现文档分类的自动化、智能化识别的目的,进而通过两种类别标签的融合,不仅实现了均衡文档分类,避免某些文本类别数量过多或多差的问题,还提高了文档分类的质量。
-
公开(公告)号:CN115859948A
公开(公告)日:2023-03-28
申请号:CN202210673281.1
申请日:2022-06-14
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F40/216 , G06F40/289 , G06F16/2458 , G06N5/025
摘要: 本申请公开了一种基于关联分析算法挖掘领域词汇的方法、装置及存储介质,其中该方法,包括:获取问题以及与问题关联的段落;将问题和段落输入预训练好的深度学习模型,输出文本向量;将文本向量输入第一卷积神经网络,预测问题的答案在段落中的首位置;将文本向量输入第二卷积神经网络,预测答案在段落中的尾位置;基于预测的首位置和尾位置,从段落中确定问题的答案。
-
公开(公告)号:CN115858797A
公开(公告)日:2023-03-28
申请号:CN202210125902.2
申请日:2022-02-10
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F16/36 , G06F16/335 , G06F40/247
摘要: 本申请提供了一种基于OCR技术生成中文近义词的方法及系统,在本申请提供的方法中,先获取需要寻找近义词的中文请求词,再结合中文请求词和形近字字典,组建与中文请求词语义相近的多个候选词,然后从多个候选词中选取并输出所述中文请求词的近义词。基于本申请提供的一种基于OCR技术生成中文近义词的方法及系统,不仅可以大量减少的近义词获取成本,还可以在缺少语料的情况下,通过生成方式得到近义词、扩充语料,还可以针对手写输入法产生的错误字词,可以进行有效识别。
-
公开(公告)号:CN115250375A
公开(公告)日:2022-10-28
申请号:CN202110455083.3
申请日:2021-04-26
申请人: 北京中关村科金技术有限公司
IPC分类号: H04N21/433 , H04N21/439 , H04N21/44 , H04N21/4415 , G10L15/26 , G10L25/60 , G06V20/40 , G06V40/16 , G06V40/40
摘要: 本申请公开了一种基于固定话术的音视频内容合规性检测方法及装置。其中,该方法包括:获取待进行合规性检测的音视频文件,其中音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件;对音视频文件进行分离,得到待进行质检的音频文件和视频文件;计算音频文件的音频质检分值和视频文件的视频质检分值;以及根据音频质检分值和视频质检分值,计算音视频文件的音视频质检分值。
-
公开(公告)号:CN114765703A
公开(公告)日:2022-07-19
申请号:CN202110043812.4
申请日:2021-01-13
申请人: 北京中关村科金技术有限公司
IPC分类号: H04N21/488 , H04N21/435 , G10L13/08 , G10L13/04
摘要: 本申请公开了一种TTS语音对应字幕的染色方法、装置以及存储介质。其中该方法包括:根据每行字幕的行宽与所有字幕的行宽总和的比例,从经由文本转语音技术得到的音频文件中确定每行字幕对应的音频片段;根据每行字幕所对应的音频片段在音频文件中的音频位置,确定在完成每行字幕的显示的时刻下音频文件的音频播放进度;在绘制当前帧的屏幕画面的情况下,确定音频文件的当前播放进度;根据音频播放进度和当前播放进度,确定当前帧的屏幕画面中显示的字幕的染色范围;以及根据所确定的染色范围,对当前帧的屏幕画面中显示的字幕进行染色。
-
-
-
-
-
-
-
-
-