一、噪声环境下统计分类语音检测的自适应算法(论文文献综述)
常欣[1](2021)在《多通道信号降噪与谱分析研究》文中提出声信号处理技术一直以来都是信号处理领域中的热门研究方向之一。现实条件下,被检测的目标信号通常携带有较强的噪声,淹没了信号的本质,这对后续的特征分析带来了诸多干扰。如今,在计算机算力爆发式增长,传感器、检测器尺寸与成本下降的今天,多通道信号降噪为声信号的降噪处理开辟了一条新道路。本文从声音信号的降噪处理与声音信号谱的分析两个方面进行研究,先对多通道信号降噪,后进行特征分析,最后通过辨识实验串联二者,验证算法性能。(1)本文设计用8个通道的麦克风采集器采集强噪声背景下的目标声音信号。为实现多通道信号的降噪处理,经典方法是利用阵列信号的空间特性,提取不同采集器中的观测数据后再通过计算其子空间矩阵实现降噪。在本文仿真实验下,对添加了白噪声的干净信号使用改进的变步长NLMS自适应算法降噪,对比未改进的NLMS自适应算法,信噪比平均提高了10d B左右;但在背景噪声为有色噪声时,关于噪声的先验知识不足,噪声信号相关矩阵Rn是不容易获取并用来滤除有色噪声的,故而本文将基于信号子空间的多通道降噪算法与改进的VAD算法相结合,实验中,在对真实环境下的强有色噪声滤除上取得了良好的效果。对比未改进的算法,改进算法降噪处理后的信号其信噪比平均提高了10d B左右。(2)由于各目标声音信号的特征信息不一致,本文从各类型声信号的时域波形图与语谱图特征出发,对各类型信号的特征特性进行了阐述。同时为了获取目标声信号的频率特征,本文提出了一种基于多通道信号的互相关峰值统计频率特征提取算法,实验中目标信号频率特征的提取效果显着。(3)在最后的实验章节中设计辨识实验串联信号降噪处理与特征分析,在仿真实验与真实实验下分别对目标信号降噪并提取频率特征,结合实验室自建数据库现有数据并通过分类器对提取了对数梅尔特征的目标声信号进行类型辨识实验。最后在仿真实验与真实实验下的结果表明,对照无降噪处理无特征提取信号组的直接参与声信号类型的辨识实验,经过降噪处理与频率特征提取的信号组实验中辨识率提升显着,在实验室自建的数据库中辨识识别率提高了30%以上。
赵小芬[2](2021)在《基于语音识别技术的垃圾分类收集系统研究》文中进行了进一步梳理目前,传统的垃圾分类依然采用人工分类方式,不仅分类效率低下,而且极易出现分类错误的现象。为了解决人工垃圾分类准确率低下的问题,本文将语音识别技术应用于垃圾分类,围绕基于语音识别技术的垃圾分类收集系统展开研究,结合语音识别算法、语音信号模型搭建对嵌入式软硬件进行详细设计。重点研究语音识别技术中的相关算法,对传统算法进行研究之后,提出改进策略,并将改进前后的算法进行对比分析。最后根据系统功能需求,设计出满足实际需求的软件系统和硬件系统。论文主要工作总结如下:(1)系统功能分析与总体方案构建。从系统功能需求出发,在秉承先进性、易用性、系统性、经济性四大基本原则的基础之上对系统总体功能进行分析,根据系统要求,需包含语音采集、语音信号预处理、语音信号训练和识别、垃圾桶盖自动开启与闭合、垃圾桶满溢检测等功能。最后根据系统需求及分析构建系统总体方案。(2)语音信号预处理相关算法研究。首先对输入语音信号进行前期处理操作。接下来分别对语音增强算法、语音端点检测算法、语音信号特征提取算法进行研究。分析传统算法存在的不足,并在其基础上进行改进,将改进后的算法与传统算法进行对比分析。经算法评价,改进语音增强算法相较于对比算法,感知语音质量评估值(PESQ)提升14.71%~45.70%、信源失真率(SDR)由-5.00~11.00提升至2.00~14.00、对数谱距离(LSD)下降18.14%~25.47%;语音端点检测算法在信噪比低于-10dB时,检测准确率达到85%以上,且平均检测时间缩短至传统端点检测算法的1/3;语音信号特征提取算法在信噪比为-10dB时,相较于传统算法,语音识别率平均提升24.05%。时间性能上,相较于传统算法,平均训练时间降低23.20%、平均识别时间减少32.37%。(3)语音声学模型构建。首先对传统语音信号模型进行研究,重点对目前主流的语音信号训练模型进行研究,建立深度神经网络模型。在此基础上研究自适应深度神经网络模型,并通过改进正则化自适应准则、改进输出层分类激活函数等方式,实现复杂环境下的语音识别。通过在多种语音数据集下叠加背景噪声进行测试实验,结果表明,相较于目前流行的GMM-HMM及传统DNN语音声学模型,识别词错误率分别下降5.15%、3.11%。然后对卷积神经网络模型进行研究,设计出三层结构优化卷积神经网络的语音识别建模方法。通过多种评价指标对改进前后的模型进行对比分析,结果表明,本文研究的方法相较于对比算法,在中文语音数据集下平均识别错误率下降22.05%,在英文语音数据集下平均识别错误率下降20.27%,相对于传统卷积神经网络模型损失值减小40.00%。(4)系统硬件选型与设计。通过对控制器的选型及分析,建立以STM32为处理器的主控模块。根据系统实际应用场景与功能需求,分别对语音识别模块、垃圾桶容量检测模块、垃圾桶盖开启与闭合模块、液晶显示模块进行详细设计。(5)系统软件设计与整体功能测试。首先搭建软件开发平台,采用Kei15软件作为程序开发工具。接下来对Linux内核进行裁剪与移植,然后分别对主控中心、语音识别模块、电机驱动模块等进行软件设计。根据系统要求建立语音库,最后对系统功能进行整体测试。本文研究设计的基于语音识别技术的垃圾分类收集系统,无需记忆垃圾类型,只需报出垃圾名称即可实现语音自动识别、垃圾桶盖自动开启与闭合、垃圾桶满溢检测等功能。系统不仅在一定程度上可以降低人为记忆繁杂垃圾种类的记忆强度,而且还可以降低人工垃圾分类的错误率。论文重点对语音识别相关算法进行研究,分析传统算法存在的不足,并给出优化策略。经算法评价,优化后算法性能均得到提升。
程铭[3](2020)在《基于语音识别的家居设备控制系统研究与实现》文中研究说明随着科学的不断发展以及智能终端的普及,人们对生活方式有了新的认识,开始追求舒适、方便和智能的家居环境,所以智能家居领域得到迅速的兴起。语音识别控制技术作为常见的指令控制方式,在智能家居的应用越来越广泛,基于语音识别的家居设备控制系统已经成为人工智能领域研究的焦点。本文以基于语音识别的家居设备控制系统为研究对象,开展了如下工作:一、研究面向家居噪声环境的分层自适应去噪算法:首先,研究噪声在不同标准下的分类;其次,介绍了几种传统的去噪方法的原理,并且根据每种去噪方法的去噪结果,分析了各自的优缺点;最后,在纯净的语音指令中加入机器噪声和人为噪声来模拟家居噪声环境,提出用分层自适应去噪算法对不同种类的噪声进行去噪,并对该算法的有效性进行了验证。二、研究面向家居口语环境的组合神经网络语音识别算法:首先,分别研究了深度神经网络DNN和长短时记忆神经网络LSTM的模型结构和训练算法;其次,结合LSTM利用记忆单元可以记录很长的历史信息的特征以及DNN可以有效的提取数据中的高层次信息特征的特点,提出在DNN隐藏层的第一层加入LSTM的想法,构建了DNN和LSTM相结合的组合神经网络;然后,利用组合模型对不同语种的语音数据集训练声学模型,同时引入信息熵的概念,提出了一种语种匹配流程,通过比较两种声学模型的输出概率的信息熵的大小,得到最佳输出结果;最后对本文提出的组合神经网络DNN-LSTM的性能以及语种匹配流程的进行了验证,验证其可行性。三、设计并实现了基于语音识别的家居设备控制系统:首先,对本文的语音识别家居设备控制系统的软件功能与硬件组成进行了详细的说明;其次,划分系统功能模块并作详细介绍;最后,测试了该系统的识别率以及识别速度,测试结果证明了本系统在性能上的优越性。
刘中越[4](2021)在《野外环境下的声目标识别技术研究》文中认为在边防区域的野外环境下,通过对入侵目标声音信号的分析处理,完成入侵目标的探测识别,以实现边防区域的智能化实时监控。传统的目标探测识别方法是使用多传感器进行组合探测,其中,声音传感器易受噪声和其它声源的干扰,导致声目标识别的准确率下降。针对上述问题,本文设计了一个野外环境下的人车识别方案,并对其中的端点检测算法进行优化改进。本文主要围绕基于声音传感器的声目标识别技术进行重点研究,并从以下四部分展开讨论:(1)在野外环境下,采集到的声目标信号难免会受背景噪声的干扰,使目标信号失去原有的特性。因此,需要对采集到的信号进行降噪处理,以提高目标信号信噪比。由于野外环境下的背景噪声复杂多变,所以采用基于RLS与LMS的自适应噪声抵消算法进行降噪处理,并通过仿真实验结果进行对比分析,最终选取收敛速度与收敛精度都更好的RLS算法完成对信号的降噪处理。(2)把采集到的声音信号进行降噪处理后,对出现的声目标信号进行端点检测。当有入侵的声目标出现时,采用基于短时能量的改进端点检测算法对其进行端点检测,通过一次长帧粗检测与一次短帧细检测,精确地定位出目标信号的起止点,进而排除掉无效的背景噪声段。另外,设计一个基于短时平均幅度的门限判决方案,在完成端点检测之后对是否有入侵目标出现做一次预判断。(3)对时频域特征参数提取的基本原理及提取步骤进行简要叙述,并对不同特征参数在声目标识别中的适用性进行对比分析。通过对不同特征参数的分析及后续的实验结果对比,选取梅尔频率倒谱系数作为人车识别的特征参数。(4)为声目标识别系统选取一个合适的分类器,完成野外环境下的人车目标识别。本文根据运动目标的声音信号与说话人类似的特点,以人车声信号的MFCC作为特征,采用基于高斯混合模型(GMM)的分类器完成人车目标识别。最后通过对实验结果和野外环境下的现场测试结果进行综合分析,证明本文设计的识别方案可以完成野外环境下的人车识别,且识别率与识别速度均可满足实际需求。
张皓然[5](2020)在《微弱声信号的特征提取与辨识》文中进行了进一步梳理由于计算机技术飞速发展以及声信号辨识与定位技术的不断完善,信息探测技术已经成为当今战场中不能缺失的一部分,声信号探测由于自己全天候、易隐蔽和探测性能好的优点,成为了各个国家研究的焦点。但是在真实探测中存在着强噪声的影响,导致目标声信号变得“微弱”,难以辨识出当今战场中各种目标声信号。因此,展开对微弱声信号降噪处理、特征提取以及辨识研究具有重要的现实意义,本文从预处理、特征提取以及微弱声信号辨识三大部分进行分析和设计,构建微弱声信号辨识系统。(1)针对传统活动语音检测在强噪声环境下的局限性,提出了一种基于能量概率最大值的自适应活动语音检测算法,能够有效地分离带噪声信号段与背景噪声段。另一方面将自适应活动语音检测算法与最小均方误差对数谱幅度估计降噪算法相结合,同时将每帧的噪声幅度谱进行自适应平滑,相较于传统最小均方误差对数谱幅度估计算法而言,降噪后的目标声信号的信噪比能够提高10-18dB。(2)针对脚步声模型的特性和传统频率提取算法不能有效提取微弱声信号频率的问题,提出了一种互相关与傅里叶变换相结合的声信号频率特征提取算法,经实验验证该算法能够有效提取出微弱声信号的主要频率成分,从4类声信号中分离出脚步声。并采用了基于人耳听觉特性的梅尔频率倒谱系数特征和相对频谱变换-感知线性预测特征作为目标声信号分类的特征参数。(3)建立audio-4数据库,包括脚步声、枪声、直升机声以及人声。选择支持向量机作为微弱声信号辨识的分类器,进行了微弱声信号仿真实验和微弱声信号真实实验设计,实验验证了利用本文降噪手段与采用频率特征相结合的方式能够使微弱声信号辨识性能有效提升,相较于直接对微弱声信号进行辨识而言,辨识率能提高40%左右。
曾剑飞[6](2019)在《低信噪比条件下的语音端点检测算法研究》文中指出语音端点检测作为各种语音信号处理系统的前端操作,在语音信号处理领域中具有重要的意义。低信噪比条件下的语音端点检测是语音处理领域的一个技术难题,阻碍了语音处理技术向嘈杂环境、短波通信等应用领域的拓展。为探寻一种理想的语音端点检测算法,既能够保证在低信噪比的环境下拥有较好的正确率,又能够满足较少的先验知识与运算量的要求。本文对低信噪比条件下的语音端点算法进行了研究,并提出相应解决思路。本文总结归纳了近几十年来语音端点检测研究的进展和成果,从语音端点检测的准确性、稳定性、自适应性和运算量上对常用的几种语音端点算法进行分析,发现在低信噪比条件下,传统的语音端点检测算法都存在检测准确率急剧下降的问题。针对这一问题,本文从提升降噪效果、提升端点检测算法鲁棒性两方面开展研究。在语音降噪方面,本文提出了一种改进的谱减降噪算法,该算法采用端点检测、分段噪声估计、动态参数调整等办法,解决了常规谱减算法存在的无话段估计困难、噪声估计不精确、音乐噪声较大等问题。在端点检测方面,本文提出了一种改进的子带能熵比端点检测算法,该算法采用子带划分、优化能量计算方式、优化谱熵计算、两级平滑处理方式等办法,有效提升了算法在不同噪声条件下的鲁棒性。在上述研究的基础上,本文还提出了一种改进谱减与子带能熵比结合的算法,该算法采用先验信噪比估计、谱减降噪、子带能熵比端点检测等办法,有效提升了算法在低信噪比条件下的鲁棒性。最后,本文使用NOISEX-92噪声库和纯净语音文件合成不同噪声类型和信噪比的带噪语音,对常规端点检测算法和本文提出的改进算法进行比较分析,验证了本文所提算法的有效性。本文开展的研究与所提出的改进算法,为低信噪比条件下的语音端点检测提供了新的思路和解决方案,具有一定的参考价值。
窦文[7](2019)在《基于内容的伪造语音盲检测技术研究》文中指出随着互联网技术的飞速发展,通过网络交流已成为人们沟通的主流形式。音频以其使用简单、获取容易等特点,成为主要的沟通媒介之一。但是音频编辑软件的出现对音频文件的安全应用造成了严重的威胁。使用音频编辑软件可以轻易地篡改音频内容,例如插入、删除,对说话人声音进行变调甚至变声等等,被篡改的音频越来越难以通过人耳进行分辨。针对这类问题,伪造音频盲检测技术被许多学者进行了研究和改进。伪造音频盲检测又被称为音频被动取证技术,区别于音频主动取证技术,盲检测技术完全依靠接收端的信息,不需预先嵌入信息即可完成对伪造音频的检测,从而有效的保证音频文件的真实性和完整性。语音信号作为一种音频信号有着广泛的应用,如军事语音指令、网络语音订单、法庭语音证据等。伪造语音盲检测技术也具有很高的实际应用价值,在近年来逐渐受到广大学者的关注。本文针对音频编辑软件篡改语音,提出了两个伪造语音盲检测算法,分别针对变调语音以及变声器变声语音进行算法设计,主要工作如下:1)提出了一个基于类耳蜗系数的音调篡改检测算法。算法结合语音信号增强技术和类耳蜗系数,实现了对音调篡改的检测。提出的算法简单介绍如下:首先,算法将语音通过最小均方误差(Least Mean Square,LMS)滤波器进行预处理,然后提取类耳蜗系数并对其进行多分辨率化,进而构造LMS-MRCG(Least Mean Square-Multi Resolution Cochleagram)特征。检测时使用背景通用模型(Universal Background Model,UBM)作为分类器进行检测。实验结果表明,该算法能够有效地检测变调语音并能准确分类变调类型,无噪情况下检测率可达97.50%。同时,算法具有较好的抗噪能力,在有噪声情况下(特别是在低信噪比环境下)仍可保持85.83%以上的检测率。2)提出了一个针对变声器变声语音检测算法。变声语音与单纯的变调相比可变因素较多,并且更为逼真。在提出的算法中,首先对语音使用基于倒谱法的端点检测实现有话段与无话段的区分,然后针对有话段语音进行特征提取。在特征提取中,算法选择结合基音频率与耳蜗模拟模型生成的GF(Gammatone Feature)特征,并与一阶差分GF与二阶差分GF构成组合特征,其中检测分类器选择高斯混合模型(Gaussian Mixture Model,GMM)。实验结果表明,该算法对变声器变声语音整体检测率可达98.33%,单个变声类型的检测率在有噪声情况下也可保持87.80%以上,因此提出的算法是一种有效的变声语音检测算法。
朱春利[8](2019)在《基于多特征融合的语音端点检测方法研究》文中研究表明随着信息技术的发展,语音智能化逐渐走上成熟,端点检测作为语音信号处理中一个核心技术而显得十分重要。语音端点检测的目的是从带噪语音信号中有效判别出语音的端点,从而减少语音信号处理的运算量和提高系统的性能。现有的端点检测方法在信噪比(Signal Noise Ratio,SNR)较高的环境下往往具有较好的检测效果,但随着信噪比的降低,端点检测效果很不理想,甚至失效。针对此问题,本文通过改进前端语音降噪算法,并结合改进后的多特征融合策略进行语音的双门限端点检测,并通过与其它方法进行实验仿真对比,验证了本文方法的优越性。本文的研究工作及创新点主要表现在以下几个方面:(1)结合语音增强技术,提出了基于最小均方(the Least Mean Square,LMS)自适应滤波减噪与多特征改进的语音单字端点检测方法,在处理噪声的过程中引入多次中值滤波平滑处理,有效减少了语音信号所含的野点噪声,并将改进后的对数能量和短时平均过门限率相融合进行双门限端点检测。(2)针对谱减法中短时傅里叶变换(Short-Time Fast Fourier Transform,SFFT)不能对非平稳信号进行有效分析,提出基于S谱减与多特征改进融合的连续语音端点检测方法,将S变换引入到谱减法中,使得语音具有更强的抗噪声性能,并利用改进的Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)倒谱距离与均匀子带方差特征相融合的方法实现双门限双参数法检测。(3)为了提高语音端点检测阈值设定的自适应性,采用了基于语音前导无话段噪声估计的动态阈值设定策略,使得该阈值会随着每段语音的前导无话段计算噪声的情况而动态变化。(4)针对传统的评测方法存在操作性不足、误差性较大的问题,提出了置信度评测机制,通过端点检出率、漏检率、算法复杂度等指标来计算端点检测正确率,增强了实验的可信度和可靠性。
童思博[9](2016)在《基于深度学习的语音端点检测》文中提出音频信息作为人类交流和感知的重要载体,发挥着无可替代的作用,而音频信息在应用中很大程度上依赖于语音端点检测(voice activity detection,VAD)。对音频信号的语音部分进行准确的检测和识别是进一步处理与应用的重要前提与必要步骤。随着新世界互联网的高速发展,传统的浅层机器学习模型在遇到了性能瓶颈。直到2006年,Hinton提出的深度学习方法开启了深度学习在学术界和工业界研究和应用的浪潮,其能够更好描述海量数据复杂特征的能力为解决语音端点检测在实际应用中可能遇到的问题提供了一种新的解决思路。本文将探索深度学习在音频事件检测中的应用。首先针对噪声环境下的语音端点检测问题,详细阐述了深度神经网络、循环神经网络与卷积神经网络的实现算法,并且做出了详细的对比分析。同时我们在实验中发现,以传统的帧级准确率作为评估准则的评测方法很难有效估计面向语音识别问题的VAD性能。因而,我们将帧级评估与段落级评估结合在一起,提出了一种新的评估框架,能够更准确的评估VAD系统的性能。另外,我们探索了基于深度学习的VAD算法的抗噪性,提出一种被称作噪声感知自适应的算法,将当前环境信息加入到输入层,通过深度学习自身的非线性处理能力学习背景环境对语音信号的非线性影响。
二、噪声环境下统计分类语音检测的自适应算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、噪声环境下统计分类语音检测的自适应算法(论文提纲范文)
(1)多通道信号降噪与谱分析研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究目标 |
1.4 本文章节安排 |
第二章 声信号处理的理论概述 |
2.1 引言 |
2.2 声信号处理模型 |
2.3 声信号处理的常见方法 |
2.3.1 声信号的预处理 |
2.3.2 降噪滤波的常见方法 |
2.3.3 信号谱分析的常见方法 |
2.3.4 多通道处理的常见方法 |
2.4 声信号处理质量的评测标准 |
2.4.1 客观标准 |
2.4.2 主观标准 |
2.5 本章小结 |
第三章 声信号的降噪处理 |
3.1 引言 |
3.2 噪声分析 |
3.2.1 噪声场特性 |
3.2.2 噪声特性 |
3.3 自适应降噪算法 |
3.3.1 自适应系统结构 |
3.3.2 改进的变步长NLMS自适应降噪算法 |
3.4 基于信号子空间的多通道信号降噪算法 |
3.4.1 信号子空间原理概述 |
3.4.2 信号子空间多通道降噪算法 |
3.4.3 有色噪声下的信号子空间多通道降噪算法 |
3.4.4 改进的多通道降噪算法 |
3.5 实验验证 |
3.6 本章小结 |
第四章 声信号谱的特征分析 |
4.1 引言 |
4.2 特征提取与特征分析 |
4.2.1 对数梅尔时频特征提取算法 |
4.2.2 目标声信号谱的特征分析 |
4.3 基于多通道的互相关峰值统计频率特征提取算法 |
4.3.1 算法原理 |
4.3.2 实现步骤 |
4.3.3 实验验证 |
4.4 本章小结 |
第五章 声信号处理实验分析 |
5.1 引言 |
5.2 数据集的选用 |
5.3 分类器的选用 |
5.3.1 分类器简述 |
5.3.2 支持向量机原理 |
5.4 实验设计 |
5.4.1 实验目的 |
5.4.2 硬件设备的组建 |
5.4.3 实验布局 |
5.5 实验结果与分析 |
5.5.1 声信号的降噪实验结果与分析 |
5.5.2 声信号的辨识实验结果与分析 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
致谢 |
参考文献 |
攻读学位期间取得的研究成果 |
(2)基于语音识别技术的垃圾分类收集系统研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 课题研究背景及其意义 |
1.2 国内外研究现状分析 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 主要内容及章节安排 |
2 系统总体方案设计 |
2.1 系统需求分析 |
2.1.1 功能需求 |
2.1.2 系统设计原则 |
2.2 系统总体功能分析 |
2.3 系统整体方案构建 |
2.4 本章小结 |
3 语音信号处理相关算法研究 |
3.1 语音信号前期处理分析 |
3.2 语音增强算法研究 |
3.2.1 改进语音增强算法 |
3.2.2 双重约束NMF与改进OMP算法的语音增强 |
3.2.3 结果及分析 |
3.3 端点检测算法研究 |
3.3.1 EEMD与OS-DL联合去噪算法方案构建 |
3.3.2 端点检测方法改进 |
3.3.3 结果及分析 |
3.4 语音信号特征参数提取算法研究 |
3.4.1 Mel特征参数提取算法分析 |
3.4.2 改进MFCC语音特征参数提取算法研究 |
3.4.3 结果与分析 |
3.5 本章小结 |
4 语音识别声学模型构建 |
4.1 传统语音信号模型研究 |
4.1.1 动态时间规整算法 |
4.1.2 隐马尔科夫模型 |
4.2 DNN声学模型建立 |
4.2.1 自适应DNN声学模型 |
4.2.2 复杂环境下的DNN语音识别 |
4.2.3 实验结果及分析 |
4.3 CNN声学模型建立 |
4.3.1 改进卷积神经网络算法 |
4.3.2 三层结构优化CNN的语音识别 |
4.3.3 实验结果与分析 |
4.4 本章小结 |
5 系统硬件选型与设计 |
5.1 系统总体架构设计 |
5.2 主控制器模块选型 |
5.3 语音处理模块设计 |
5.3.1 语音识别芯片选型及分析 |
5.3.2 语音信号采集电路设计 |
5.4 电机驱动电路设计 |
5.5 超声波测距模块电路设计 |
5.5.1 超声波发射模块电路设计 |
5.5.2 超声波接收模块电路设计 |
5.6 显示电路设计 |
5.7 本章小结 |
6 系统软件设计与整体功能测试 |
6.1 软件开发平台搭建 |
6.1.1 Kei15软件开发平台搭建 |
6.1.2 Linux内核移植 |
6.2 主控中心软件设计 |
6.3 语音识别模块软件设计 |
6.3.1 语音信号采集子程序设计 |
6.3.2 语音信号端点检测子程序设计 |
6.3.3 语音信号特征提取子程序设计 |
6.4 电机驱动程序设计 |
6.5 语音库的建立 |
6.6 系统整体测试与分析 |
6.6.1 语音识别功能测试与分析 |
6.6.2 垃圾桶满溢状态测试与分析 |
6.6.3 系统整体功能测试与分析 |
6.7 本章小结 |
7 总结与展望 |
7.1 工作总结 |
7.2 未来工作与展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(3)基于语音识别的家居设备控制系统研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 语音识别概述 |
1.2.1 基本概念 |
1.2.2 发展历史 |
1.2.3 基本步骤 |
1.3 语音识别研究综述 |
1.3.1 相关理论研究进展 |
1.3.2 相关系统开发进展 |
1.4 主要工作与内容安排 |
第二章 语音识别技术基础 |
2.1 语音识别基本原理 |
2.2 预处理 |
2.2.1 预加重 |
2.2.2 加窗分帧 |
2.2.3 端点检测 |
2.3 特征提取 |
2.3.1 线性预测系数 |
2.3.2 线性预测倒谱系数 |
2.3.3 梅尔频率倒谱系数 |
2.4 声学模型 |
2.4.1 声学基元选择 |
2.4.2 高斯混合模型 |
2.4.3 隐马尔科夫模型 |
2.5 语言模型 |
2.6 字典与解码器 |
2.7 本章小结 |
第三章 面向家居噪声环境的分层自适应去噪算法 |
3.1 引言 |
3.2 噪声分类 |
3.3 传统的去噪方法 |
3.3.1 谱减法 |
3.3.2 维纳滤波法 |
3.3.3 小波阈值去噪法 |
3.4 自适应去噪算法 |
3.5 实验结果与分析 |
3.6 本章小结 |
第四章 面向家居口语环境的组合神经网络语音识别算法 |
4.1 引言 |
4.2 深度神经网络 |
4.2.1 DNN模型结构 |
4.2.2 DNN模型训练 |
4.2.3 激活函数的选择 |
4.3 长短时记忆神经网络 |
4.3.1 LSTM模型结构 |
4.3.2 激活函数的选择 |
4.4 基于深度学习的组合神经网络DNN-LSTM |
4.5 声学模型的训练与语种匹配 |
4.6 实验测试与验证 |
4.6.1 实验数据集 |
4.6.2 声学模型训练的实验测试与结果分析 |
4.6.3 语种匹配的实验测试与结果分析 |
4.7 本章小结 |
第五章 基于语音识别的家居设备控制系统实现与测试 |
5.1 需求分析 |
5.2 系统架构 |
5.3 系统实现 |
5.3.1 模型训练功能 |
5.3.2 语音识别功能 |
5.4 系统测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 未来展望 |
参考文献 |
附录 攻读硕士学位期间申请的专利 |
致谢 |
(4)野外环境下的声目标识别技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 声目标识别技术应用国内外研究现状 |
1.2.2 信号降噪技术国内外研究现状 |
1.2.3 特征参数提取实际应用现状 |
1.3 本文主要工作内容 |
1.4 技术路线 |
第2章 自适应噪声抵消算法研究 |
2.1 自适应噪声抵消系统 |
2.1.1 自适应噪声抵消系统概述 |
2.1.2 自适应噪声抵消系统基本原理 |
2.2 自适应滤波算法 |
2.2.1 最佳滤波准则 |
2.2.2 基于LMS的自适应噪声抵消算法 |
2.2.3 归一化LMS(NLMS)算法 |
2.2.4 基于RLS的自适应噪声抵消算法 |
2.3 仿真结果对比分析 |
2.4 本章小结 |
第3章 端点检测与预判断 |
3.1 端点检测 |
3.2 预处理 |
3.3 双门限端点检测 |
3.3.1 双门限端点检测基本原理 |
3.3.2 双门限端点检测实现步骤 |
3.4 基于短时能量的改进端点检测算法 |
3.4.1 检测流程设计 |
3.4.2 端点检测结果分析 |
3.5 基于短时平均幅度的预判断 |
3.5.1 预判断的门限设置思路 |
3.5.2 预判断的门限判决方案设计 |
3.6 本章小结 |
第4章 声目标信号特征提取 |
4.1 时域特征分析 |
4.2 频域特征分析 |
4.2.1 短时傅里叶变换(STFT) |
4.2.2 快速傅里叶变换(FFT) |
4.2.3 频域特征参数提取 |
4.3 本章小结 |
第5章 声目标识别方法研究与结果分析 |
5.1 常用的声音目标识别方法 |
5.2 基于高斯混合模型(GMM)的声目标识别 |
5.2.1 基于高斯混合模型的分类算法设计 |
5.2.2 数据采集 |
5.2.3 实验方案设计 |
5.3 仿真实验与结果分析 |
5.3.1 不同特征参数下的目标识别结果分析 |
5.3.2 端点检测对识别结果的影响 |
5.3.3 自适应消噪对识别结果的影响 |
5.3.4 基于短时平均幅值的预判断结果分析 |
5.3.5 现场实验结果分析 |
5.4 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
(5)微弱声信号的特征提取与辨识(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题背景 |
1.2 国内外研究现状 |
1.3 论文主要创新点 |
1.4 论文的主要内容和章节安排 |
第二章 微弱声信号理论研究 |
2.1 引言 |
2.2 微弱声信号的辨识概念 |
2.2.1 微弱声信号定义 |
2.2.2 常见的微弱信号辨识方法 |
2.3 微弱声信号辨识原理及流程 |
2.4 本章小结 |
第三章 微弱声信号预处理 |
3.1 引言 |
3.2 VAD检测 |
3.2.1 VAD基本模块 |
3.2.2 基于单参数双门限VAD检测 |
3.2.3 基于能量概率最大值的自适应VAD检测 |
3.3 自适应滤波降噪算法 |
3.3.1 LMS自适应滤波算法 |
3.3.2 NLMS自适应滤波算法 |
3.4 基于实时的MMSE-LSA降噪算法 |
3.5 本章小结 |
第四章 微弱声信号的特征提取 |
4.1 引言 |
4.2 目标声模型产生机理及特性分析 |
4.2.1 直升机的发声机理 |
4.2.2 人声的发声机理 |
4.2.3 枪声的发声机理 |
4.2.4 脚步声的发声机理 |
4.3 目标声模型特征提取算法 |
4.3.1 MFCC特征提取算法 |
4.3.2 PLP-RATSA特征提取算法 |
4.4 互相关与傅里叶变换相结合的声信号频率特征提取算法 |
4.4.1 基本原理 |
4.4.2 算法实现 |
4.5 本章小结 |
第五章 微弱声信号的辨识与实验分析 |
5.1 引言 |
5.2 微弱声信号辨识分类器设计 |
5.2.1 分类器概述 |
5.2.2 SVM的基本原理和分类器设计 |
5.3 真实实验设计 |
5.3.1 数据集建立 |
5.3.2 实验场景与方案设计 |
5.4 实验结果分析 |
5.4.1 纯净声信号辨识实验 |
5.4.2 微弱声信号仿真辨识实验 |
5.4.3 微弱声信号真实辨识实验 |
5.5 本章小结 |
第六章 总结和展望 |
6.1 工作总结 |
6.2 工作展望 |
致谢 |
参考文献 |
攻读学位期间取得的研究成果 |
(6)低信噪比条件下的语音端点检测算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 本文研究的背景及意义 |
1.2 国内外相关行业的研究概况 |
1.2.1 基于时域特征参数的检测算法 |
1.2.2 基于变换域参数的检测算法 |
1.2.3 基于距离和失真度的检测算法 |
1.2.4 基于信息论的检测算法 |
1.2.5 基于统计模型和模式分类的检测算法 |
1.2.6 基于人工神经网络的检测算法 |
1.2.7 其他算法 |
1.3 本文研究的主要内容 |
1.4 章节安排 |
第二章 常规语音端点检测算法与问题分析 |
2.1 语音端点检测的常规流程 |
2.1.1 预处理 |
2.1.2 特征提取 |
2.1.3 端点判决 |
2.1.4 后处理 |
2.2 基于短时能量和短时过零率的双门限端点检测 |
2.2.1 算法原理 |
2.2.2 问题分析 |
2.3 基于频带方差的语音端点检测算法 |
2.3.1 算法原理 |
2.3.2 问题分析 |
2.4 基于谱熵的语音端点检测算法 |
2.4.1 算法原理 |
2.4.2 问题分析 |
2.5 基于卷积神经网络的端点检测方法 |
2.5.1 算法原理 |
2.5.2 问题分析 |
2.6 本章小结 |
第三章 改进的谱减降噪算法 |
3.1 带噪语音和信噪比 |
3.1.1 噪声类型与信噪比 |
3.1.2 噪声对语音的影响 |
3.2 常规语音降噪算法 |
3.2.1 LMS自适应滤波器算法 |
3.2.2 谱减算法 |
3.3 改进的谱减算法 |
3.3.1 改进方法 |
3.3.2 实现步骤 |
3.4 实验与对比 |
3.4.1 实验准备 |
3.4.2 实验流程 |
3.4.3 实验结果 |
3.5 本章小结 |
第四章 低信噪比条件下的端点检测算法 |
4.1 低信噪比条件下的语音端点检测 |
4.1.1 存在的主要问题 |
4.1.2 主要解决思路 |
4.1.3 算法评价方法 |
4.2 常规算法的优势与不足 |
4.2.1 子带谱熵算法 |
4.2.2 能熵比算法 |
4.2.3 算法的优势与不足 |
4.3 改进的子带能熵比算法 |
4.3.1 算法改进 |
4.3.2 实现步骤 |
4.3.3 算法仿真 |
4.4 改进谱减与子带能熵比结合的端点检测算法 |
4.4.1 算法原理 |
4.4.2 实现步骤 |
4.4.3 算法仿真 |
4.5 本章小结 |
第五章 实验与性能比较 |
5.1 实验准备 |
5.1.1 平台与数据选择 |
5.1.2 流程设计 |
5.2 实验结果 |
5.2.1 混叠Babble噪声的端点检测 |
5.2.2 混叠Factory1 噪声的端点检测 |
5.2.3 混叠HFChannel噪声的端点检测 |
5.2.4 混叠Pink噪声的端点检测 |
5.2.5 混叠White噪声的端点检测 |
5.2.6 不同噪声间的横向对比 |
5.2.7 不同信噪比间的横向对比 |
5.3 实验总结 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(7)基于内容的伪造语音盲检测技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 论文组织结构 |
第2章 基本知识概述 |
2.1 伪造语音盲检测技术 |
2.2 预处理方法 |
2.3 伪造语音盲检测技术中常用的声学特征 |
2.3.1 短时时域特征与短时频域特征 |
2.3.2 线性预测分析 |
2.3.3 MFCC |
2.4 伪造语音盲检测中常用的分类模型 |
2.4.1 分类模型评估与选择 |
2.4.2 支持向量机 |
2.4.3 聚类 |
2.4.4 决策树 |
2.5 本章小结 |
第3章 基于类耳蜗系数的抗噪音调篡改检测算法 |
3.1 引言 |
3.2 算法设计 |
3.2.1 LMS-MRCG特征提取 |
3.2.2 音调篡改检测 |
3.3 特征性能分析与算法实验结果 |
3.3.1 LMS-MRCG特征性能分析 |
3.3.2 LMS-MRCG生成参数选取 |
3.3.3 算法实验结果 |
3.4 结论 |
第4章 一种有效的变声器语音篡改检测算法 |
4.1 引言 |
4.2 算法设计 |
4.2.1 基于倒谱距离的端点检测 |
4.2.2 基音频率与GF组合特征提取 |
4.2.3 变声器语音篡改检测 |
4.3 算法性能分析与实验结果 |
4.3.1 端点检测性能分析 |
4.3.2 基音频率与GF组合特征性能分析 |
4.3.3 算法实验结果 |
4.4 本章小结 |
总结与展望 |
致谢 |
参考文献 |
攻读硕士期间发表的论文 |
(8)基于多特征融合的语音端点检测方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题的研究背景及意义 |
1.2 国内外研究现状及发展趋势 |
1.2.1 研究概况 |
1.2.2 国内外语音端点检测方法的发展 |
1.3 论文的主要研究内容与章节安排 |
第二章 语音信号处理基础 |
2.1 语音信号的特点与模型 |
2.1.1 语音信号的产生机制及特性 |
2.1.2 语音信号的数学模型 |
2.2 语音信号数字化与预处理 |
2.2.1 语音信号的数字化 |
2.2.2 语音信号的预处理 |
2.3 语音去噪方法介绍 |
2.3.1 语音去噪对于端点检测的意义 |
2.3.2 噪声的分类与特性 |
2.3.3 传统的语音去噪方法 |
2.4 典型语音端点检测模块 |
2.4.1 特征提取 |
2.4.2 噪声估计 |
2.4.3 判决机制 |
2.5 本章小结 |
第三章 基于特征的语音端点检测典型算法 |
3.1 基于特征参数的端点检测方法 |
3.1.1 基于特征参数的端点检测方法的一般步骤 |
3.1.2 双门限端点检测法 |
3.2 基于时域特征参数的端点检测 |
3.2.1 语音能量特征 |
3.2.2 语音过零率特征 |
3.2.3 自相关特征 |
3.3 基于频域特征参数的端点检测 |
3.3.1 倒谱距离特征 |
3.3.2 频带方差特征 |
3.3.3 谱熵特征 |
3.4 传统特征参数端点检测的缺陷 |
3.5 基于多特征参数融合的端点检测 |
3.5.1 能零比的端点检测 |
3.5.2 能熵比的端点检测 |
3.6 本章小结 |
第四章 基于LMS减噪与多特征改进的语音单字端点检测方法 |
4.1 自适应滤波减噪 |
4.1.1 LMS算法基本原理 |
4.1.2 LMS自适应算法 |
4.2 LMS减噪与改进双门限端点检测 |
4.2.1 改进的短时对数能量 |
4.2.2 改进的短时平均过门限率 |
4.2.3 中值滤波平滑处理 |
4.3 实现结果与分析 |
4.3.1 实验环境 |
4.3.2 实验置信度性能评测 |
4.3.3 实验准确性结果与分析 |
4.3.4 实验稳健性结果与分析 |
4.4 本章小结 |
第五章 基于S谱减与多特征改进融合的连续语音端点检测方法 |
5.1 基于MFCC倒谱距离特征提取 |
5.1.1 MFCC特征提取 |
5.1.2 MFCC倒谱距离 |
5.2 基于S谱减法的MFCC倒谱距离特征提取 |
5.2.1 S谱减法降噪 |
5.2.2 S谱减MFCC倒谱距离特征提取 |
5.3 基于均匀子带分离频带方差特征提取 |
5.4 动态阈值更新与端点检测 |
5.5 实验结果与分析 |
5.5.1 实验环境 |
5.5.2 实验置信度性能评测 |
5.5.3 实验结果与分析 |
5.6 本章小结 |
第六章 结论与展望 |
6.1 结论 |
6.2 展望 |
参考文献 |
作者在攻读硕士学位期间公开发表的论文 |
作者在攻读硕士学位期间所参与的项目 |
致谢 |
(9)基于深度学习的语音端点检测(论文提纲范文)
摘要 |
ABSTRACT |
主要符号对照表 |
第一章 绪论 |
1.1 语音端点检测概述 |
1.2 研究目标及主要贡献 |
1.2.1 研究目标及意义 |
1.2.2 主要贡献 |
1.3 本文组织结构 |
第二章 语音端点检测 |
2.1 传统的基于特征阈值分类法 |
2.1.1 基于短时能量的检测方法 |
2.2 基于模型的检测方法 |
2.2.1 声学特征提取 |
2.2.2 混合高斯模型 |
2.3 决策后处理 |
2.3.1 基于隐马尔科夫模型的后处理 |
2.3.2 基于规则的后处理 |
2.4 本章小结 |
第三章 语音端点检测效果的评测 |
3.1 帧级评测指标 |
3.1.1 帧级准确率 |
3.1.2 ROC曲线与DET曲线 |
3.1.3 其他帧级评测指标 |
3.2 边界级评测指标 |
3.3 面向语音识别的VAD评测框架 |
3.3.1 起始边界准确率 |
3.3.2 结束边界准确率 |
3.3.3 边界精度 |
3.4 实验分析 |
3.4.1 人工数据上的实验 |
3.4.2 基于不同后处理参数的真实VAD实验 |
3.4.3 基于不同VAD算法的实验 |
3.4.4 基于噪声环境的真实VAD实验 |
3.5 本章小结 |
第四章 基于深度学习的语音端点检测 |
4.1 深度神经网络 |
4.2 使用误差反向传播进行参数训练 |
4.2.1 训练准则 |
4.2.2 训练算法 |
4.3 循环神经网络 |
4.3.1 沿时反向传播学习算法 |
4.3.2 结合了长短时记忆单元的循环神经网络 |
4.4 卷积神经网络 |
4.4.1 CNN的结构描述 |
4.4.2 前向传播 |
4.4.3 反向传播 |
4.5 不同深度学习方法的实验比较分析 |
4.5.1 不加后处理VAD系统性能对比 |
4.5.2 从段落角度进行分析 |
4.5.3 后处理之后的性能对比 |
4.6 本章小结 |
第五章 基于神经网络的噪声自适应训练 |
5.1 噪声自适应算法 |
5.1.1 训练阶段环境编码的估计 |
5.1.2 测试阶段环境编码的估计 |
5.2 实验比较 |
5.3 本章小结 |
全文总结 |
参考文献 |
攻读学位期间发表的学术论文目录 |
四、噪声环境下统计分类语音检测的自适应算法(论文参考文献)
- [1]多通道信号降噪与谱分析研究[D]. 常欣. 西南科技大学, 2021(08)
- [2]基于语音识别技术的垃圾分类收集系统研究[D]. 赵小芬. 陕西科技大学, 2021(09)
- [3]基于语音识别的家居设备控制系统研究与实现[D]. 程铭. 南京邮电大学, 2020(03)
- [4]野外环境下的声目标识别技术研究[D]. 刘中越. 沈阳理工大学, 2021(01)
- [5]微弱声信号的特征提取与辨识[D]. 张皓然. 西南科技大学, 2020(08)
- [6]低信噪比条件下的语音端点检测算法研究[D]. 曾剑飞. 华南理工大学, 2019(01)
- [7]基于内容的伪造语音盲检测技术研究[D]. 窦文. 西南交通大学, 2019(03)
- [8]基于多特征融合的语音端点检测方法研究[D]. 朱春利. 上海大学, 2019(03)
- [9]基于深度学习的语音端点检测[D]. 童思博. 上海交通大学, 2016(02)