一、非监督、多级嘴唇区域分割方法(论文文献综述)
徐兴歆[1](2020)在《基于改进型生成对抗网络的图像翻译》文中提出图像翻译旨在将图像从源域转换到目标域。近年来,生成对抗网络在多种图像翻译任务中取得了显着成功。不过,这些方法在生成细节纹理方面仍然面临很大的挑战。这主要是因为,现有方法普遍忽略了图像结构信息对于转换过程的指导作用;且通常采用单一的生成器结构,难以描述图像中不同尺度、不同层次的结构细节。因此,本文首先提出了一种结构辅助的生成对抗网络,并将其应用于人脸照片-素描转换任务;然后,提出了一种基于异构互补网络的通用图像翻译框架。本文的贡献主要包含以下两点:(1)首先,本文提出了基于辅助结构的人脸照片-素描合成模型。人脸照片-素描合成旨在基于给定人脸照片/素描生成其对应的素描/照片。考虑到人脸这一特殊的结构,本文利用人脸解析掩码作为辅助输入,来辅助人脸照片-素描的生成。此外,本文利用感知损失,使生成图像保留输入图像中的身份信息;最后,本文采用多层堆叠网络进行细节优化,并对其进行了深入分析和验证。实验表明,本文的方法在可以合成具有逼真纹理并保持身份信息的人脸照片/素描,且在多种挑战性数据集上明显优于现有方法。(2)其次,本文提出了基于异构互补生成对抗网络的通用图像翻译方法。具体而言,本文分别使用深层U型网络和浅层残差网络构建了两个生成器。网络结构的不同,使得两者可以在不同尺度、不同位置上发挥不同的作用。之后,本文使用门控融合网络将两个生成器的输出进行加权融合,以产生最终输出。门控融合单元可以自动计算两个生成器在不同位置上的重要性,从而促使两者相互补充。最后,本文提出了一种多层集成判别器,使用多层次和多尺度特征促使生成器输出高质量的图像细节。在多种数据集上的定量和定性分析表明,在多种图像翻译任务中,本文的方法都显着提高了生成图像的质量。整体而言,本文提出了两种改进型生成对抗网络,并将其用于多种图像翻译任务中,有效提升了生成图像的视觉质量,取得了优于现有方法的性能。本文工作对于图像翻译的理论研究和应用推广有着重要的价值。
高宁[2](2019)在《面向驾驶人疲劳检测的人脸分析方法研究》文中认为疲劳驾驶是造成交通事故的重要原因之一。通过分析人脸视频来估计驾驶人疲劳状态的方法具有非侵入的特点,因而在疲劳检测研究中备受关注。针对整个人脸或眼睛、嘴巴等人脸部件的状态变化进行量化分析,进而建立疲劳评价指标,是目前应用最广泛、公认最客观的方法。然而,实际行车环境中由于人脸受到部分遮挡、局部噪声、光照变化、姿态变化等因素的影响,难以对人脸或部件区域进行正确有效的特征表示,极大增加了人脸分析的难度。本文针对实际应用环境中的人脸配准、姿态估计、眼睛运动与变化趋势的判断,眨眼行为的时域检测等诸多核心问题,研究面向驾驶人疲劳检测的人脸分析方法。具体研究内容和贡献如下:(1)提出集成全局匹配和局部精修的二维人脸配准方法。目前人脸配准方法中的局部最优匹配缺乏全局约束,而全局外观在局部细节上表示不充分,导致配准误差较大。为此将多模式人脸信息编码为整脸或部件区域的表示特征,分别采用不同回归方式更新人脸形状并加权融合,同时达到人脸的全局最优匹配和局部细节修正。实验结果表明该方法能在部分遮挡和局部光照变化的条件下改善人脸配准精度。(2)提出采用多级分段回归策略进行非受限人脸配准并估计姿态的方法。传统的单一回归方式难以准确高效地建立从二维图像到三维参数的高维非线性映射,导致配准误差增加和计算量浪费。为此针对不同阶段的纹理变化特性,逐步缩小回归尺度,依次对反映人脸变化的刚性参数和弹性参数进行精细程度不同的调整。实验结果表明该方法能改善图像描述的稳定性,提高人脸大姿态偏转时的配准精度和计算效率。(3)提出融合多通道时空信息来量化分析眼睛状态的方法。基于单帧图像分析的眼睛状态判别方法忽略了时序信息,不能反映动态变化趋势,缺乏对运动过程的整体约束,导致检测效能降低。为此融合帧内图像、帧间运动、时空显着性信息等不同通道的眼睛状态分析结果,得到更具描述性和区分性的量化表示用于眨眼检测。实验结果表明相比单一描述特征,该方法提高了眼睛状态量化分析的精度和可靠性。(4)提出基于差异化时空多尺度分析检测眨眼行为的方法。眨眼在整个时间序列中呈非均匀分布,对持续睁眼和眨眼采用相同的处理方式,极大增加了计算量。为此将眨眼作为一种特定的行为模式,进行时空多尺度分析。针对不同片段的特定内容,采用差异化特征表示和检测手段,采用逐层拒绝、判别和确认的策略,精确定位眨眼过程。实验结果表明相比传统行为检测方法,该方法减少了计算量,并取得了更高的眨眼检测精度。集成以上各项研究成果并应用于驾驶人疲劳检测系统中,能增加提取几何特征、帧内图像特征和帧间时序特征的精度,进而提高眼睛状态量化分析、眨眼检测的准确性,最终改善疲劳检测的效能和可靠性,有助于实际系统的应用和推广。
宋潇[3](2019)在《双目立体视觉深度估计及应用研究》文中进行了进一步梳理基于双目立体视觉的深度估计是计算机视觉中的基础问题,在三维人脸重建与识别、人体姿态估计、三维场景恢复等领域均有重要应用。本论文对双目深度估计任务进行了深入研究,此外本文还将双目深度估计应用到人脸活体检测任务中,主要研究成果如下:论文设计并实现了一个融合边缘检测的双目立体匹配网络,针对性地提升了图像细节及边缘处视差预测的质量。本论文提出的多任务学习网络,在主流数据库上取得了当前领先水平的双目立体匹配及深度估计效果。该结构由一个边缘检测子网络和一个视差估计子网络构成,并包含两个高效的功能模块:上下文信息金字塔模块,用于编码双目立体匹配任务中的多尺度全局信息;残差金字塔模块,建模视差预测及修正在单一解码器结构中完成。此外,为实现边缘检测任务与双目立体匹配任务间的多任务学习,论文设计了一种边缘感知的视差平滑性损失函数,通过论文提出的多阶段训练策略,证明基于论文提出的模型,边缘检测任务与双目立体匹配任务可以相互促进。论文对基于双目视觉深度特征与表观特征相结合的人脸活体检测问题进行了研究,提出了两种人脸防伪算法。第一种人脸防伪算法为模板脸配准的双目深度特征与空间金字塔编码的微纹理特征相结合的真伪人脸特征组合判定算法,通过设计的模板脸匹配算法刻画真假人脸在立体结构上的差异,利用双目深度特征与表观微纹理特征的互补性进行人脸活体判断;为进一步提升算法鲁棒性,论文提出了第二种人脸防伪算法即深度学习检测网络与空间金字塔编码的微纹理特征相结合的真伪人脸特征组合判定算法。在主流数据库上的实验证明,论文提出的算法取得了当前领先水平的人脸活体检测效果。
欧新宇[4](2017)在《基于深度学习和上下文语义的视觉内容识别与分析研究》文中提出随着互联网技术的飞速进步以及深度学习展现出强大的性能,基于图像和视频的各种应用也得到了前所未有的发展。然而,伴随着这些应用给日常生活带来便利的同时,也给社会带来了许多潜在的负面影响。因此,如何高效、准确地从这些纷繁复杂的海量数据中甄别出有用的信息和过滤有害的信息,已经是大数据环境下亟待解决的问题。随着深度学习的发展,计算机视觉任务的应用领域也得到了空前的扩展,包括:图像分类、目标识别、目标检测、图像分割、对象跟踪等。本文将在深度学习的框架下,以四个计算机视觉的典型应用为基础,通过结合多种不同的上下文关系,开展面向大数据的视觉内容的识别与分析研究。这四个任务分别是:成人内容识别、特定图像检索、自然场景解析和人像妆容迁移。首先,针对成人内容识别任务中类别空间稀少和正负样本空间内样本多样化导致的分类难的问题,提出基于高层语义的细到粗策略和基于多上下文混合建模的联合决策方案。传统成人内容识别通常都是二分类问题(“是成人”或“不是成人”),而复杂的样本会导致部分样本类内距大于类间距,增大分类器训练的困难。本文提出的细到粗策略,通过在训练中细化类别来改善分类器的性能。此外,通过全局上下文、局部上下文和跨上下文等多种上下文建模方式,从不同的角度去理解样本,最大限度地解决样本多样化问题。与传统特征融合方式不同,策略融合并不直接融合特征,它在最大限度保证基于分类的全局上下文准确性的同时,利用基于检测的局部上下文信息生成置信度较高的决策来尽力修正被误判的样本,从而实现召回率和准确率的同时提高。此外,模块化的设计方案,允许通过更新全局上下文建模或局部上下文建模实现整个网络性能的提升。其次,针对场景解析任务中对象尺度较小、交互性多(遮挡)、隐藏性强(易湮没于复杂的背景中)等特性带来的对象识别困难的问题,提出一种基于深度学习的对象区域增强网络。该网络集成了针对任务设计的两个核心模块:对象区域增强策略和黑洞填充策略。前者将检测到的语义置信度较高的对象区域直接对应到卷积特征图的特定类别通道上的局部区域,并通过加权特征来改进上下文关系,完成对困难对象区域的识别;后者通过屏蔽额外背景类来避免解析网络将部分困难区域判定为额外背景类的错误。此外,模块化的设计方案使模型不但可以通过更换模块实现整体解析性能的提升,还可以将两个策略应用到其他现有的场景解析网络中。然后,针对以人脸解析为基础的典型应用—妆容迁移中的两个难点问题:(1)如何获得精确的人脸解析结果;(2)如何按需保持(如:脸型、五官)和迁移(如:唇彩、眼影)人像的特征,提出了对称加权交叉熵损失和深度局部妆容迁移网络。前者对特定的局部上下文区域进行加权,并强制对眼影、嘴唇等特殊区域进行对称性约束;后者利用不同类型的特征分别描述形状敏感和纹理敏感两种局部区域,最后通过迭代算法逐渐将局部妆容特征从参考人像迁移到未化妆的人像上。端到端的生成网络,不但可以产生自然的妆容迁移效果,还可以实现妆容浓淡程度的自由调节,这使得该系统的可用性大大增强。最后,针对大数据环境下图像检索效率和性能的问题,提出一种基于深度学习的层次化深度语义哈希方案。该网络可以端到端地同时输出样本的高层语义和哈希编码。通过基于概率的语义级相似性和哈希级相似性的融合相似性计算方案,首先利用几乎零开销的高层语义信息过滤大量语义不相关的样本,然后再利用哈希编码在小很多的候选建议集中完成相似性检索。该方案在百万级的Imagenet数据集上,可以保证在检索性能不降低的前提下,实现大约150倍的速度提升。综上所述,本文所研究的多种上下文语义融合策略,不但在计算机视觉的理论层面具有一定的参考价值,更关键的是本文的研究对于设计和开发鲁棒、实用的应用系统也具有一定的借鉴意义。
裴利梅[5](2014)在《唇语识别技术的研究》文中进行了进一步梳理唇读技术可以通过说话人的口型运动特征对说话人的信息进行捕获,该技术被广泛应用于语音识别、身份识别、人机智能接口以及多媒体系统等领域。一个完整的唇读系统主要包括三个单元:唇部的检测与定位、唇部特征提取、唇读识别。本文主要针对唇读系统的唇部的检测定位单元和唇部特征提取单元进行了详细的研究。唇部的检测与定位是唇读识别的首要环节,其定位的效果将影响整个唇读系统的工作。由于唇部有比较明显的色度特征,近年来,国内外在利用颜色特性检测唇部方面开展了广泛的研究,取得了一定的成果,但尚无非常完善的唇部检测算法。本文基于人脸的彩色图像,对不同人种的唇色和肤色的色度分布进行了细致研究,在此基础上提出了一种基于色度信息的自适应滤波算法,结合唇部在人脸中的几何特征和唇色在YCrCb空间的色度分离特性,采用自适应的色度滤波器,有效地分割出唇轮廓,准确的检测并提取了唇轮廓。为验证算法效果,进行两组实验,将提出的算法和常用于唇部检测的Red Exclusion算法进行比较。实验结果表明,文中的方法在有效性、鲁棒性以及不同人种的肤色支持等方面有明显的改进,而算法复杂度则没有显着增加。特征提取在唇读中具有核心地位,目标就是得到低维、低冗余度且具代表意义的特征向量。本文主要研究基于像素的特征提取方法,提出一个级联的特征提取流程,首先对图像采用相应的变换,然后对变换结果降维,最后进行特征归一化。基于对几种变换方法的比较与分析,提出利用PCA对DCT和Gabor小波变换结果降维的DCT-PCA和Gabor-PCA方法。为验证方法的有效性,本文将提出的改进方法与直接选择变换系数的方法进行了识别率的对比,结果表明本文选用的方法的最优识别率分别能达到77.4%和77.9%,与直接选择变换系数的方法相比识别率提高了约10%。
杨恒翔[6](2014)在《基于图像的嘴唇特征提取及口型分类研究》文中研究指明近年来,计算机唇读技术作为辅助语音识别的重要手段而受到了越来越多研究人员的关注,而计算机唇读的主要研究内容包括了基本口型特征的提取、描述与表示方法以及口型识别与理解等,包含了对来自多个通道相关信息的综合理解。本文主要对人脸口型图像中进行人脸定位、唇部区域定位、唇部特征提取及口型分类的方法做了系统的研究。在深入分析当前主流唇读方法的基础上,首先对人脸图像进行了几何校正及基于直方图均衡化的光照补偿预处理,然后将人脸图像转换到YCbcr颜色空间中,采用基于高斯肤色模型的人脸检测方法从人脸图像中检测出了准确的人脸区域,通过Fisher变换将人脸区域投影到肤色和唇色易于区分的空间中后完成了唇部区域定位,并提出了对唇部区域的几何约束条件来排除一些非唇部像素点的干扰。其次利用Lab颜色空间中a分量对外唇区域的分离性及L分量对内唇区域的分离性完成了唇部内外唇区域分割,为唇部特征提取的变形模板匹配方法提供了初始参数,之后又提出了一种对变形模板匹配结果进行优化的方法,实验证明该优化方法取得了很好的效果。在此基础上本文又提出将唇部形状特征和唇部灰度特征作为口型分类的特征向量,完成了对口型分类方法的分析,将人脸口型图像按照汉语元音的发音特点分为了a口型、o口型、e口型和i口型四类,最后选取了数据库中的人脸口型图像对本文中所采用的研究方法进行了实验验证并给出了相应的实验结果和实验数据。
孙威[7](2013)在《基于彩色与深度图像的唇读技术研究》文中提出唇读技术是一门新型的多种交叉学科研究技术,涵盖了图像处理、模式识别、计算机视觉中的关键技术。由于视觉方面的优势,广泛应用于辅助聋儿康复、辅助语音识别、手势识别和个人身份认证等方面。本课题通过对国内外研究成果的总结,对唇读技术的各个关键模块进行了较为深入细致的研究。主要工作包括:(1)自建了小型彩色与深度图像数据库。由于本课题研究方向的特殊性,需要彩色图像与深度图像相对应的数据库,而目前并没有这样的成熟的数据库,因此自建了小型的彩色图像与深度图像相对应的数据库,并完成前期视频分割,得到发音的关键帧图像。(2)对唇部区域定位进行了相关的研究。采用基于人脸检测与五官相对结构的唇部区域定位方法对唇部区域进行精确的定位,并通过大量实验,研究得到唇部区域相对于鼻子在人脸区域分布的最佳参数。实验表明该方法以及通过该方法得到的参数可以精确的标定唇部区域并且尽量排除其他干扰。(3)在唇部分割技术的研究方面,提出基于彩色与深度图像的唇部分割方法。对于彩色图像,采用基于Lab色彩空间a分量的唇部提取方法进行唇部提取,同时在阈值选择方面进行了研究,通过实验证明应用Otsu法能够得到更好的分割阈值。对于深度图像通过彩色图像的映射得到深度图像的唇部区域,对深度图像的唇部区域利用k均值聚类进行分割。并且在两种图像的结合方法和除噪方法上进行了研究。实验证明基于彩色与深度图像的唇部分割方法能有精确有效的将唇部像素和非唇部像素分离。(4)在唇部特征提取方面,研究了基于投影法和可变模板相结合的特征提取方法。首先利用投影法较为精确的找到可变模板的初始化点,然后令可变模板在初始化点周围小幅度迭代,这样的方法大量减少了迭代的次数,提高了可变模板的匹配速度。另外,在识别方法上利用SVM分类方法进行了分类实验,实验证明该方法能够提高唇读系统的识别率。
唐亮[8](2013)在《维吾尔语统计语言模型中建模基元的研究》文中研究指明语言模型是描述自然语言内在规律的数学模型,在自然语言处理过程中占据着重要的地位,但目前维吾尔语语言模型的研究尚处于起步探索阶段,因此构建一个可靠的语言模型对于维吾尔语自然语言处理系统很关键。维吾尔语语言模型是维吾尔语自然语言处理技术的重要基石,它可以应用于语音识别、机器翻译、信息检索等领域,它的研究对促进新疆地区的少数民族语言自然语言处理技术的发展具有重要的意义。本文针对当前维吾尔语语言模型存在的语料库资源匮乏问题、数据稀疏问题以及困惑度较高等问题,试图找出使困惑度最低的平滑算法和建模单元(基元)建立语言模型。具体研究工作如下所示:为解决数据稀疏问题,研究了多种平滑算法,包括加法平滑算法、Good-Turing平滑、Witten-Bell平滑、Katz平滑、绝对折扣平滑、Kneser-Ney平滑。实验结果表明绝对折扣平滑算法的困惑度最低。本文将基于电话信道的维吾尔口语对话的文本、双语教学系统中的课本教材以及一些日常用语作为实验数据,然后对这些实验数据进行预处理和加工处理,并将处理后的数据作为本实验中建立维吾尔语语言模型的文本语料。预处理后对维吾尔语文本语料进行分词,这里采用两种分词方法:一种是基于词典的维吾尔语词切分,一种是非监督式形态切分。在基于维吾尔语分词的基础上,对传统的N-gram统计语言模型做出改进。将维吾尔语单词切分成不同单元,以它们作为基元(模型粒度)建立了3种维吾尔语语言模型,并提出基于词素类的N-gram语言模型。本文利用SRILM1.5.12工具包和MITLM0.4工具包进行实验。结果表明,基于词素的维吾尔语语言模型的困惑度远低于基于词的维吾尔语语言模型的困惑度,前者比后者降低了约2/3。
李倩玉[9](2013)在《基于多元统计的口型特征提取》文中研究表明随着计算机通信和网络技术的迅猛发展,尤其是近年来安卓系统和1OS系统的流行,人们迫切需要一种更智能、更人性化的人机交互方式。这种新的交互方式使人们脱离鼠标和键盘的束缚,更多地通过表情、唇动等信息来交流,其中口型信息是最直接有效的途径,因此研究口型识别技术有重要的现实意义。口型识别系统中,口型特征提取决定了系统性能的优劣,本课题在研究口型特征提取方法现状的基础上,提出了基于主成分分析法的口型特征提取方法,并进行了方法优化,克服了主成分分析法计算量大、实时性差的缺点。在此基础上研发了一套口型识别实验系统,包括图像预处理、读取训练集和测试集口型图像、口型特征提取和口型识别四个部分。对所有训练集和测试集图像进行口型分割、归一化和灰度化的预处理,再利用优化的主成分分析法提取训练集和待识别嘴型图像的特征。同时分析了口型识别中常见的两类错误,并提出相应的解决措施。为了验证基于主成分分析法的口型识别实验系统的性能,利用建立的汉语元音发音嘴型图像库,从识别准确率和实时性两方面进行了一系列实验。实验结果表明嘴型i、o和u平均识别率分别为90%、80%和63%,嘴型a和e的识别率比较低,只有百分之十几左右,系统运行的平均时间为13.37秒。
梁亚玲[10](2011)在《基于单视觉通道唇读系统的研究》文中指出唇读(lipreading/ speechreading)是人工智能,图像处理,模式识别等相关研究领域综合发展所产生的一个新的研究方向,被广泛的应用于噪声环境下提高自动语音的识别率,也用于安防系统的身份认证,远距离语义识别,听觉障碍人士的语言学习,老年人的唇部语义学习及残障人士辅助系统的唇部命令识别等。目前关于唇读的研究集中在将视频通道作为音频通道的一种补充来提高语音的识别率。在真正的高噪声环境下,语音信道的信息量急剧下降,系统的识别率主要取决于视觉通道,研究基于单视觉通道的语义识别就非常重要。目前基于单视觉通道唇读的研究处于较为初级的阶段,研究对象为小词汇量,且识别率相对较低。将词汇量扩大到较大词汇量,提高单视觉通道唇读的识别率是本文的研究目标。本文针对单视觉唇读系统中几个关键问题,进行了较为系统,深入及广泛的研究,主要的研究工作及成果包括以下几个方面:(1)对国内外的数据库进行了相应的研究,结合本文的研究对象采用哈工大的数据库HITBICAVDatabase作为主库,在该库的基础上选取不同音标的字建立了一个适合本文研究的数据子库database9603。并对该数据库中的每幅图像提取感兴趣区域生成了可直接用于特征提取和识别的数据库。自建了一个小型的双模态唇读数据库,并对自建数据库进行相应的预处理工作。(2)针对唇部感兴趣区域的提取问题,提出了基于人脸结构和灰度信息的感兴趣区域提取方法。该方法通过对大量人脸结构的分析发现,人嘴的宽度与双眼的距离相当,因此采用双眼瞳孔来定位唇部的左右边界,并完成对唇部图像的缩放以及水平位置的调整。利用灰度投影检测唇角,定位唇部的垂直位置。该方法提取的图像具有相对固定的参照,能够真实反映唇部的大小和形状信息。对镜头的缩放以及头部的倾斜具有较好的鲁棒性。针对唇部的提取问题,提出了基于LAB空间a分量的唇部提取(分割)方法。通过对色度空间各分量可分离性的研究,通过fisher准则寻找到能够将唇部和非唇部(肤色,牙齿,胡须等)进行有效分割的彩色分量‘a’。该方法可较好的将唇部提取出来,并根据图像特征自动生成阈值,便于唇部提取的自动化。针对基于轮廓的唇部提取,本文提出了基于流形的唇部轮廓提取方法。实验结果表明,本文提出的唇部轮廓提取方法更逼近唇部的真实轮廓图像。文中还将‘a’分量方法与流形的方法结合起来,提取唇部,实验结果表明基于色度和轮廓的方法提取的唇部效果更好。(3)对唇部特征表示进行研究。提出了DT-CWT+PCA的唇部特征提取方法,DT-CWT具有近似的平移不变性及良好的方向性,能够较好的提取唇部感兴趣区域的边缘信息及频域信息,且能克服感兴趣区域(ROI)提取过程中存在的位移问题。实验结果表明该特征提取方法提高了识别率。针对DT-CWT+PCA的方法中将DT-CWT的幅值系数重新排列导致丧失数据本身几何信息的缺点,提出了基于DT-CWT+LBP+PCA空频域相结合的特征提取方法。该方法提取的特征既能体现唇部的频域信息和空间域信息,又能反应其局部信息和全局信息,且对位移和旋转具有不变性。实验结果表明基于DT-CWT和LBP的空频域特征提取方法很大程度上提高了唇读的识别率。(4)对唇部特征有效降维问题进行研究。提出了基于DCT+ONPP的特征提取方法,正交邻域保持投影(ONPP)在降维的同时保持了数据本身的几何结构信息。实验结果表明该方法能够提高识别率。在基于监督的学习方法,本文提出了采用局部敏感的判别分析方法(LSDA)对唇部图像提取特征。LSDA结合了LDA和LPP两者的优点,充分体现了唇部局部几何特征。实验结果表明与LDA及传统的方法相比,本文方法识别率更高,且该方法的识别率高于非监督的降维方法。(5)针对唇读系统中各样本帧数不同的问题,提出了基于唇部灰度能量图的概念,并结合唇部能量图提出相应的特征提取方法。唇部灰度能量图是通过唇部灰度图像的叠加平均得到的,在投影的过程中完成了样本特征维数的归一化。唇部灰度能量图在保留唇部图像本身静态特征的同时也反映了其动态特征,有效去除传统方法中对单帧分别提取特征时各帧特征之间的相关性,大大降低了特征的维数,缩短了识别时间,提高了识别率。唇部灰度能量图的提出,使得基于人脸识别和基于监督的特征提取方法非常容易移植到基于唇部灰度能量图的唇部特征提取上来。基于此本文将DT-CWT+LBP和LDA的特征表示和特征降维方法应用到唇部灰度能量图上来提取特征。实验结果表明传统的特征表示和特征降维方法仍然适用于唇部灰度能量图,且基于能量图的方法比传统方法的识别率高。
二、非监督、多级嘴唇区域分割方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、非监督、多级嘴唇区域分割方法(论文提纲范文)
(1)基于改进型生成对抗网络的图像翻译(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 多元生成器 |
1.2.2 GAN中的注意力学习 |
1.2.3 多级判别器 |
1.3 论文的研究内容 |
1.3.1 基于人脸结构信息的人脸照片-素描合成 |
1.3.2 异构互补的图像翻译 |
1.4 论文的组织结构 |
第二章 相关理论与技术 |
2.1 深度学习 |
2.2 生成对抗网络 |
2.3 深度学习框架 |
2.3.1 Tensor Flow |
2.3.2 Py Torch |
2.4 图像数据集与评价标准 |
2.4.1 图像翻译数据集 |
2.4.2 图像质量评价标准 |
2.5 本章小结 |
第三章 基于辅助结构的人脸-素描生成对抗网络 |
3.1 算法动机 |
3.2 算法设计 |
3.2.1 问题描述 |
3.2.2 人脸解析 |
3.2.3 辅助结构的生成对抗网络 |
3.2.4 堆叠改进网络 |
3.2.5 网络架构 |
3.2.6 优化方法 |
3.3 实验结果与分析 |
3.3.1 实验设置 |
3.3.2 消融实验 |
3.3.3 人脸素描生成 |
3.3.4 鲁棒性评估 |
3.3.5 训练过程的分析 |
3.4 本章小结 |
第四章 异构互补的图像翻译 |
4.1 算法动机 |
4.2 算法设计 |
4.2.1 问题描述 |
4.2.2 基于对抗生成网络的图像翻译 |
4.2.3 粗尺度转换网络 |
4.2.4 精细尺度的生成器 |
4.2.5 门控混合网络 |
4.2.6 多层次集成判别器 |
4.3 实验设置 |
4.4 实验结果与分析 |
4.4.1 消融实验 |
4.4.2 定量评估 |
4.4.3 定性评估 |
4.4.4 注意力的可视化 |
4.4.5 模型泛化能力评估 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 未来工作展望 |
致谢 |
参考文献 |
附录 作者在读期间发表的学术论文及参加的科研项目 |
(2)面向驾驶人疲劳检测的人脸分析方法研究(论文提纲范文)
摘要 |
ABSTRACT |
主要符号表 |
1 绪论 |
1.1 研究背景和意义 |
1.2 研究现状 |
1.2.1 基于驾驶人生理信号的疲劳检测方法 |
1.2.2 基于驾驶人行为特性的疲劳检测方法 |
1.2.3 基于驾驶人面部特征的疲劳检测方法 |
1.2.4 基于多特征融合的疲劳检测方法 |
1.3 本文工作 |
1.3.1 本研究方向有待解决的关键问题 |
1.3.2 本文的总体思路 |
1.3.3 本文的研究内容 |
1.3.4 本文的结构 |
2 集成全局匹配和局部精修的二维人脸配准方法 |
2.1 引言 |
2.2 本章方法概述 |
2.3 人脸形状初始化 |
2.4 基于形状参数回归的全局配准 |
2.5 基于特征点位置更新的局部配准 |
2.6 全局和局部配准的加权集成 |
2.7 实验结果与分析 |
2.7.1 实验准备 |
2.7.2 性能分析 |
2.7.3 对比实验 |
2.8 本章小结 |
3 基于三维形状模型和多级分段回归的非受限人脸配准方法 |
3.1 引言 |
3.2 本章方法概述 |
3.3 建立三维人脸的低维表示空间 |
3.4 基于部件级回归的人脸模型初定位 |
3.5 基于图像级回归的参数初步调整 |
3.6 基于特征点级回归的参数精细调整 |
3.7 实验结果与分析 |
3.7.1 实验准备 |
3.7.2 性能分析 |
3.7.3 对比实验 |
3.8 本章小结 |
4 融合多通道时空信息的眼睛状态量化分析方法 |
4.1 引言 |
4.2 本章方法概述 |
4.3 眼睛区域分割与开合度计算 |
4.4 基于随机回归森林的眼睛开合度计算 |
4.5 基于帧间光流特征的眼睛状态判断 |
4.6 基于反投影概率图的眼睛状态判断 |
4.7 实验结果与分析 |
4.7.1 实验准备 |
4.7.2 性能分析 |
4.7.3 对比实验 |
4.8 本章小结 |
5 基于差异化时空多尺度分析的眨眼行为检测方法 |
5.1 引言 |
5.2 本章方法概述 |
5.3 眼睛区域的配准与分割 |
5.4 基于时域二值化的片段级拒绝 |
5.5 基于多尺度时空特征的行为级判别 |
5.6 融合兴趣点局部特征和CNN特征的相位级确认 |
5.7 实验结果与分析 |
5.7.1 实验准备 |
5.7.2 性能分析 |
5.7.3 对比实验 |
5.8 本章小结 |
6 结论与展望 |
6.1 结论 |
6.2 创新点 |
6.3 展望 |
参考文献 |
攻读博士学位期间科研项目及科研成果 |
致谢 |
作者简介 |
(3)双目立体视觉深度估计及应用研究(论文提纲范文)
摘要 |
abstract |
主要关键词、术语、缩略词对照表 |
第一章 绪论 |
1.1 研究背景及目的 |
1.2 研究现状与发展趋势 |
1.3 研究内容和创新 |
1.4 论文组织结构 |
第二章 研究现状综述 |
2.1 双目立体匹配 |
2.1.1 数据集 |
2.1.2 传统方法 |
2.1.3 基于深度学习的监督方法 |
2.1.4 基于深度学习的非监督方法 |
2.1.5 与其他视觉任务结合的方法 |
2.2 基于深度的人脸活体检测 |
2.2.1 数据集 |
2.2.2 方法 |
2.3 本章小结 |
第三章 融合边缘检测的双目立体匹配方法 |
3.1 双目立体视觉系统模型 |
3.2 概述 |
3.3 方法 |
3.3.1 总体结构 |
3.3.2 上下文信息金字塔 |
3.3.3 残差金字塔 |
3.3.4 边缘线索融合 |
3.3.5 多阶段训练策略 |
3.4 实验 |
3.4.1 数据集 |
3.4.2 性能指标 |
3.4.3 实施细节 |
3.4.4 对比实验 |
3.4.5 多任务学习有效性 |
3.4.6 模型鲁棒性分析 |
3.4.7 模型性能 |
3.5 本章小结 |
第四章 双目视觉深度特征与表观特征结合的人脸活体检测 |
4.1 概述 |
4.2 双目深度特征与微纹理特征结合的活体检测方法 |
4.2.1 模板脸配准的双目深度特征 |
4.2.2 空间金字塔编码的微纹理特征 |
4.2.3 分类 |
4.3 深度检测网络与微纹理特征结合的活体检测方法 |
4.3.1 用于人脸活体检测的深度学习检测网络SSD |
4.3.2 决策级级联策略 |
4.4 实验 |
4.4.1 数据集 |
4.4.2 性能指标 |
4.4.3 训练及测试协议 |
4.4.4 实验设置 |
4.4.5 深度检测网络与微纹理特征结合的活体检测实验 |
4.4.6 双目深度特征与微纹理特征结合的活体检测实验 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 全文工作总结 |
5.1.1 融合边缘检测的双目深度估计研究 |
5.1.2 基于深度的人脸活体检测应用研究 |
5.2 研究展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文 |
攻读学位期间参与的项目 |
攻读学位期间申请的专利 |
(4)基于深度学习和上下文语义的视觉内容识别与分析研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题来源 |
1.2 研究背景与意义 |
1.3 视觉内容上下文语义的定义和分类 |
1.4 国内外研究现状 |
1.5 存在的问题 |
1.6 研究内容与目标 |
1.7 论文组织结构 |
2 基于多上下文语义的成人内容识别 |
2.1 引言 |
2.2 问题描述 |
2.3 基于高层语义的细到粗策略 |
2.4 基于多上下文联合的深度网络 |
2.5 实验与分析 |
2.6 小结 |
3 基于局部语义增强的场景解析 |
3.1 引言 |
3.2 问题描述 |
3.3 基于对象区域增强的深度网络 |
3.4 实验与分析 |
3.5 小结 |
4 基于上下文融合的人像妆容迁移 |
4.1 引言 |
4.2 问题描述 |
4.3 深度局部妆容迁移网络 |
4.4 实验与分析 |
4.5 小结 |
5 基于层次化语义哈希的图像检索 |
5.1 引言 |
5.2 问题描述 |
5.3 基于层次化语义的相似性算法 |
5.4 实验与分析 |
5.5 小结 |
6 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
致谢 |
参考文献 |
附录1 攻读博士学位期间发表的学术论文目录 |
附录2 攻读博士学位期间参与的科研课题 |
附录3 攻读博士学位期间所获的奖励 |
(5)唇语识别技术的研究(论文提纲范文)
摘要 |
Abstract |
目录 |
Contents |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.1.1 课题研究的背景 |
1.1.2 课题研究的意义 |
1.2 国内外研究现状 |
1.2.1 唇部的检测与定位 |
1.2.2 唇部特征提取 |
1.2.3 唇读识别 |
1.3 本文研究的主要内容 |
1.4 本文章节安排 |
第2章 唇部检测与定位基础知识 |
2.1 人脸检测 |
2.1.1 人脸检测基础 |
2.1.2 人脸检测常用方法 |
2.2 唇部检测与定位方法比较 |
2.3 彩色图像处理 |
2.3.1 彩色空间及空间转换函数 |
2.3.2 MATLAB 与图像处理 |
2.3.3 图像分割 |
2.4 本章小结 |
第3章 唇部检测与定位实现 |
3.1 唇色肤色色度分布研究 |
3.1.1 色度分布规律研究 |
3.1.2 研究图像库 |
3.2 色度分布新算法的提出 |
3.2.1 色度滤波算法 |
3.2.2 图像预处理 |
3.2.3 色彩空间选择与变换 |
3.2.4 唇色分布情况 |
3.2.5 唇部检测与定位算法 |
3.3 实验结果和对比 |
3.4 本章小结 |
第4章 唇部特征提取基础知识 |
4.1 简介 |
4.2 特征提取的基本概念 |
4.2.1 问题的提出 |
4.2.2 一些基本概念 |
4.3 特征提取常用方法简介 |
4.3.1 简介 |
4.3.2 基于模板的方法 |
4.3.3 基于像素的方法 |
4.4 MATLAB 与特征提取 |
4.5 本章总结 |
第5章 唇部特征提取实现 |
5.1 PCA 特征提取 |
5.1.1 简介 |
5.1.2 PCA 相关概念 |
5.1.3 PCA 数学模型及主成分分析的步骤 |
5.1.4 PCA 图像降维实验 |
5.2 DCT 特征提取 |
5.2.1 基本概念 |
5.2.2 DCT 域的区域的能量集中性 |
5.2.3 DCT 离散余弦变换实验 |
5.3 Gabor 特征提取 |
5.3.1 简介 |
5.3.2 Gabor 小波变换概念 |
5.3.3 Gabor 滤波器 |
5.3.4 Gabor 小波变换实验 |
5.4 基于 DCT-PCA、Gabor-PCA 的特征提取 |
5.4.1 简介 |
5.4.2 实验及对比分析 |
5.5 本章总结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附录 算法部分主程序 |
(6)基于图像的嘴唇特征提取及口型分类研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及研究意义 |
1.2 研究进展及现状 |
1.3 本文研究内容 |
1.4 本文章节安排 |
第二章 口型分类识别相关技术 |
2.1 视音频双模态语料库 |
2.2 唇部区域检测和定位技术 |
2.3 唇部特征提取技术 |
第三章 人脸图像预处理及嘴唇区域定位 |
3.1 几何失真校正 |
3.2 基于直方图修正的光照补偿 |
3.3 YCbCr 颜色空间 |
3.4 基于肤色模型的人脸检测 |
3.5 嘴唇区域定位 |
第四章 内外唇区域分割及效果评价 |
4.1 颜色空间选取及转换 |
4.2 外唇区域分割 |
4.3 内唇区域分割 |
4.4 内外唇区域分割评价 |
4.4.1 图像拍摄参数对分割效果的影响 |
4.4.2 不同方法之间效果及性能的对比 |
第五章 唇部特征提取及口型分类 |
5.1 基于变形模板的唇部关键点提取 |
5.2 变形模板及其匹配 |
5.3 评价函数定义及优化结果 |
5.4 唇部特征提取及选择 |
5.4.1 唇部形状特征选择 |
5.4.2 唇部灰度特征选择 |
5.5 口型分类 |
第六章 口型分类实验验证 |
6.1 人脸检测实验 |
6.2 唇部区域精确定位 |
6.3 内外唇区域分割 |
6.4 唇部特征提取 |
6.5 口型分类实验 |
第七章 总结与展望 |
7.1 本文工作总结 |
7.2 未来展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(7)基于彩色与深度图像的唇读技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究的背景与意义 |
1.1.1 背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 国外发展情况 |
1.2.2 国内发展情况 |
1.3 本文主要研究内容和论文结构 |
第二章 唇读相关技术理论及图像处理方法 |
2.1 唇读相关技术介绍 |
2.1.1 唇部的检测与定位 |
2.1.2 唇部特征提取 |
2.1.3 唇动分类识别方法 |
2.2 色彩空间 |
2.3 图像处理的相关方法 |
2.3.1 图像增强技术 |
2.3.2 图像分割技术 |
2.3.3 形态学图像处理 |
2.4 本章小结 |
第三章 唇读数据库和唇部区域定位技术 |
3.1 自建数据库介绍 |
3.2 经典唇部区域定位方法介绍 |
3.3 基于人脸检测与五官结构的唇部区域定位方法 |
3.3.1 人脸检测与鼻孔检测方法 |
3.3.2 基于人脸中与鼻孔相对位置的唇部区域的定位 |
3.4 本章小结 |
第四章 基于彩色与深度图像的唇部分割技术 |
4.1 基于色度的唇部提取方法 |
4.1.1 相关方法简述 |
4.1.2 基于 Lab 空间 a 分量的唇部提取方法 |
4.2 基于深度图像的内唇提取方法 |
4.2.1 深度图像信息的获取 |
4.2.2 基于深度图像的唇部分割 |
4.3 彩色与深度图像结合的阈值分割与后期除噪 |
4.4 本章小结 |
第五章 唇部特征提取方法与分类实验 |
5.1 基于投影法与可变模板的特征提取方法 |
5.1.1 基于可变模板的特征提取 |
5.1.3 基于二值图像投影法的特征提取 |
5.1.4 实验过程与结果分析 |
5.2 基于 SVM(支持向量机)的分类实验 |
5.2.1 SVM 方法介绍 |
5.2.2 实验及结果分析 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读硕士期间的研究成果 |
(8)维吾尔语统计语言模型中建模基元的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 选题意义 |
1.3 语言模型研究现状 |
1.3.1 国内外语言模型的产生和发展 |
1.3.2 语言模型工具包简介 |
1.4 维吾尔语语言模型中的关键技术分析 |
1.4.1 语料库建设与加工 |
1.4.2 数据稀疏问题 |
1.4.3 参数学习及自适应能力问题 |
1.5 本文的研究工作 |
1.5.1 研究内容 |
1.5.2 论文组织 |
第二章 维吾尔语的语音学与形态学概述 |
2.1 维吾尔语简介 |
2.2 维吾尔语的语音结构 |
2.2.1 元音和辅音 |
2.2.2 维吾尔语音节结构 |
2.3 维吾尔语形态分析 |
2.3.1 构词规则 |
2.3.2 维吾尔语单词结构 |
2.3.3 维吾尔语语法规则 |
2.4 本章小结 |
第三章 统计语言模型及算法分析与研究 |
3.1 统计语言模型综述 |
3.1.1 统计语言模型的缘起 |
3.1.2 统计语言模型的应用前沿 |
3.1.3 统计语言模型的衡量指标 |
3.2 基于 N 元语法的统计语言模型 |
3.3 平滑算法 |
3.3.1 加法平滑算法 |
3.3.2 绝对减值算法 |
3.3.3 线性插值算法 |
3.3.4 Good-Turing 平滑算法 |
3.3.5 Written-Bell 平滑算法 |
3.3.6 Katz 平滑算法 |
3.3.7 绝对折扣平滑算法 |
3.3.8 Kneser-Ney 平滑算法及修改的 Kneser-Ney 平滑算法 |
3.3.9 几种平滑算法的复杂性及比较 |
3.4 本章小结 |
第四章 维吾尔语语言模型改进分析 |
4.1 传统的基于词的语言模型 |
4.2 改进的不同模型粒度的语言模型 |
4.2.1 基于词素的维吾尔语语言模型 |
4.2.2 基于音节的维吾尔语语言模型 |
4.3 本章小结 |
第五章 语料处理及实验分析 |
5.1 语料库收集 |
5.1.1 语料库的发展和现状 |
5.1.2 实验数据说明 |
5.1.3 语料标注 |
5.2 语料加工 |
5.2.1 实验工具介绍 |
5.2.2 预处理 |
5.3 N 元词串抽取 |
5.4 分词 |
5.4.1 基于词典的词切分 |
5.4.2 非监督式形态切分 |
5.4.3 分词结果衡量标准 |
5.5 统计语言模型构建 |
5.6 不同语言模型的相关实验 |
5.6.1 基于单词的维吾尔语语言模型实验 |
5.6.2 基于词素的维吾尔语语言模型实验 |
5.6.3 对比实验 |
5.7 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 下一步工作与展望 |
致谢 |
参考文献 |
(9)基于多元统计的口型特征提取(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.1.1 选题背景 |
1.1.2 选题意义 |
1.2 国内外研究现状 |
1.3 本课题研究内容 |
第2章 口型识别系统综述 |
2.1 唇部定位与检测 |
2.2 口型特征提取 |
2.3 训练与识别 |
2.3.1 基于神经网络的识别方法 |
2.3.2 基于隐马尔科夫模型的识别方法 |
2.4 本章小结 |
第3章 口型特征提取 |
3.1 主成分分析法概念及原理 |
3.1.1 主成分分析法模型 |
3.1.2 主成分分析法原理 |
3.2 提高主成分分析法效率 |
3.3 特征空间标准正交基 |
3.4 利用主成分分析法进行特征提取 |
3.4.1 求解口型特征向量 |
3.4.2 确定主成分个数 |
3.5 本章小结 |
第4章 基于多元统计口型识别系统设计 |
4.1 图像预处理 |
4.1.1 嘴唇分割 |
4.1.2 归一化 |
4.1.3 灰度化 |
4.2 读训练集和测试集图像 |
4.3 口型特征提取 |
4.4 口型识别 |
4.4.1 第一类识别错误解决方案 |
4.4.2 第二类识别错误解决方案 |
4.5 本章小结 |
第5章 基于多元统计的口型识别系统实现 |
5.1 口型图像数据库 |
5.2 预处理 |
5.2.1 归一化 |
5.2.2 灰度化 |
5.3 在VC平台上实现口型识别系统 |
5.3.1 读写位图口型图像 |
5.3.2 实现主成分分析算法 |
5.3.3 实现口型特征提取 |
5.3.4 实现口型识别 |
5.3.5 实现结果保存 |
5.3.6 统计系统运行时间 |
5.4 实验和分析 |
5.4.1 实验设计 |
5.4.2 实验结果与分析 |
5.5 本章小结 |
第6章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间发表的论文及其它成果 |
致谢 |
(10)基于单视觉通道唇读系统的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 唇读主要研究内容 |
1.2.1 数据库 |
1.2.2 唇部的检测定位与分割 |
1.2.3 唇部特征提取 |
1.2.4 识别方法 |
1.3 唇读的研究现状 |
1.3.1 国外研究现状 |
1.3.2 国内研究现状 |
1.4 本文的研究内容与创新点 |
1.5 论文的内容安排 |
第二章 唇读数据库 |
2.1 引言 |
2.2 国外相关的数据库 |
2.3 国内主要的双模态数据库介绍 |
2.4 本文所使用的数据库 |
2.4.1 采用现有的数据库 |
2.4.2 自建数据库 |
2.5 本章小结 |
第三章 唇部的检测定位与分割 |
3.1 引言 |
3.2 唇部感兴趣区域的定位和分割方法 |
3.2.1 典型方法介绍 |
3.2.2 基于人脸结构和中心扩展的感兴趣区域分割 |
3.3 基于色度的唇部提取方法 |
3.3.1 相关方法介绍 |
3.3.2 基于LAB 空间a 分量的唇部提取方法 |
3.4 基于轮廓的唇部提取方法 |
3.4.1 主动轮廓模型方法 |
3.4.2 可变模板法 |
3.4.3 流形用于轮廓提取的理论基础 |
3.4.4 基于流形的轮廓提取方法基本思路 |
3.4.5 实验及其结果 |
3.5 基于LAB 色度空间和流形的唇部提取方法(LABME) |
3.5.1 参数设置 |
3.5.2 实验步骤 |
3.5.3 实验结果及其分析 |
3.6 本章小结 |
第四章 唇部特征提取 |
4.1 引言 |
4.2 唇部特征提取方法简介 |
4.2.1 特征唇方法 |
4.2.2 基于DCT 变换的唇部特征提取 |
4.2.3 基于DCT+PCA 的唇部特征提取 |
4.2.4 基于DCT+LDA 的唇部特征提取 |
4.3 DCT +ONPP 的唇部特征提取方法 |
4.3.1 流形降维相关方法介绍 |
4.3.2 ONPP 简介 |
4.3.3 基于DCT 与ONPP 的唇部特征提取方法 |
4.3.4 实验及其结果 |
4.4 DCT+LSDA |
4.4.1 LSDA 简介 |
4.4.2 基于LSDA 的唇部特征提取方法 |
4.5 基于DT-CWT+PCA 的特征提取方法 |
4.5.1 双树复小波简介 |
4.5.2 DT-CWT+PCA 方法思路 |
4.5.3 实验及其结果 |
4.6 DT-CWT+LBP+PCA |
4.6.1 局部二值模式简介 |
4.6.2 思路及步骤 |
4.6.3 识别方法 |
4.6.4 实验结果及其分析 |
4.7 DT-CWT+ONPP 的特征提取方法 |
4.8 本章小结 |
第五章 基于唇部灰度能量图的特征提取 |
5.1 引言 |
5.2 能量图相关的理论 |
5.2.1 步态能量图GEI |
5.2.2 运动历史图像(Motion History Image, MHI)和运动能量图MEI |
5.2.3 联合时空图 |
5.2.4 时空能量图(Spactio-temporal energy,STE) |
5.3 唇部灰度能量图 |
5.3.1 唇部灰度能量图(Lip Gray Energy Image,LGEI) |
5.3.2 数据的预处理 |
5.3.3 LGEI 的抗噪性 |
5.3.4 唇部灰度能量图用于唇读 |
5.4 唇部灰度能量图的扩展 |
5.5 基于唇部灰度能量图和DCT+PCA 的唇部特征提取方法 |
5.5.1 LGEI+DCT+PCA 的基本思路 |
5.5.2 实验及其结果分析 |
5.6 基于唇部灰度能量图的其它特征提取方法 |
5.6.1 LGEI+DCT+LDA |
5.6.2 LGEI+DT-CWT+LBP |
5.7 本章小结 |
结论 |
1. 总结 |
2. 未来工作展望 |
参考文献 |
攻读博士学位期间完成的学术论文 |
致谢 |
附件 |
四、非监督、多级嘴唇区域分割方法(论文参考文献)
- [1]基于改进型生成对抗网络的图像翻译[D]. 徐兴歆. 杭州电子科技大学, 2020(04)
- [2]面向驾驶人疲劳检测的人脸分析方法研究[D]. 高宁. 大连理工大学, 2019(08)
- [3]双目立体视觉深度估计及应用研究[D]. 宋潇. 上海交通大学, 2019(06)
- [4]基于深度学习和上下文语义的视觉内容识别与分析研究[D]. 欧新宇. 华中科技大学, 2017(10)
- [5]唇语识别技术的研究[D]. 裴利梅. 江苏科技大学, 2014(03)
- [6]基于图像的嘴唇特征提取及口型分类研究[D]. 杨恒翔. 天津大学, 2014(05)
- [7]基于彩色与深度图像的唇读技术研究[D]. 孙威. 电子科技大学, 2013(01)
- [8]维吾尔语统计语言模型中建模基元的研究[D]. 唐亮. 电子科技大学, 2013(01)
- [9]基于多元统计的口型特征提取[D]. 李倩玉. 华北电力大学, 2013(S2)
- [10]基于单视觉通道唇读系统的研究[D]. 梁亚玲. 华南理工大学, 2011(12)