-
公开(公告)号:CN109670043A
公开(公告)日:2019-04-23
申请号:CN201811523214.1
申请日:2018-12-13
Applicant: 南京邮电大学
IPC: G06F16/35 , G06F17/27 , G06N3/04 , H04N21/4545 , H04N21/488
Abstract: 本发明揭示了一种面向直播场景的实时字幕过滤及系统实现方法,包括如下步骤:S1、对字幕数据做预处理;S2、利用Word2Vec算法中的Skip-gram模型根据维基中文语料库训练出每个词的词向量;S3、将训练好的词向量按照字幕数据的词序组合成表示字幕数据的特征矩阵;S4、对卷积神经网络进行训练,将特征矩阵输入到训练好的卷积神经网络中;S5、根据卷积神经网络的输出结果判断字幕数据是否为不良字幕信息,若是则在屏幕上过滤掉,反之则不过滤;S6、设置计数报警器,对过滤的字幕数据进行计数、监管。本发明解决了现有技术中的字幕过滤实时性以及准确性不高的问题,给观众带来了更为舒适的用户体验,使用效果优异。
-
公开(公告)号:CN110277100A
公开(公告)日:2019-09-24
申请号:CN201910529995.3
申请日:2019-06-19
Applicant: 南京邮电大学
Abstract: 一种基于Alexnet改进的声纹识别方法、存储介质和终端,所述方法包括:对输入的语音信号进行快速傅里叶分析,得到对应的语谱图;采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征;基于所提取的声纹特征对所述语音信号的说话者身份进行分类识别。上述的方案,可以提高声纹识别的准确性。
-
公开(公告)号:CN109525787B
公开(公告)日:2021-03-16
申请号:CN201811523195.2
申请日:2018-12-13
Applicant: 南京邮电大学
Abstract: 本发明揭示了一种面向直播场景的实时字幕翻译及系统实现方法,包括如下步骤:S1、使用训练数据集训练深度卷积神经网络;S2、对输入的每帧语音进行傅里叶变换,将时间和频率作为图像的两个维度,获取输入的语音信号的语谱图;S3、将获取的语谱图输入已经训练好的深度卷积神经网络,得到与语音信号相对应的文本数据;S4、将所述文本数据实时显示在屏幕上。本发明能够对每个人的讲话进行实时翻译,并及时显示在屏幕上,从而有效地提升了转写的效率,为观众带来了更为优异的用户体验。
-
公开(公告)号:CN109525787A
公开(公告)日:2019-03-26
申请号:CN201811523195.2
申请日:2018-12-13
Applicant: 南京邮电大学
Abstract: 本发明揭示了一种面向直播场景的实时字幕翻译及系统实现方法,包括如下步骤:S1、使用训练数据集训练深度卷积神经网络;S2、对输入的每帧语音进行傅里叶变换,将时间和频率作为图像的两个维度,获取输入的语音信号的语谱图;S3、将获取的语谱图输入已经训练好的深度卷积神经网络,得到与语音信号相对应的文本数据;S4、将所述文本数据实时显示在屏幕上。本发明能够对每个人的讲话进行实时翻译,并及时显示在屏幕上,从而有效地提升了转写的效率,为观众带来了更为优异的用户体验。
-
-
-