一、遗传算法在数据挖掘多种分类器合并中的应用(论文文献综述)
王云鹤[1](2021)在《基于多目标进化学习的生物数据分析方法研究》文中进行了进一步梳理生物信息学是以计算机为辅助工具,采用数学和统计学方法对生物学领域问题进行建模、分析或仿真的一门交叉学科。随着生物技术的突破性发展,生物数据得到海量积累。单细胞RNA测序(sc RNA-Seq)数据和癌症基因表达数据作为两种典型的生物数据,为挖掘蕴含于其中的深层生物学规律提供了基础,同时也为生物数据分析带来了维度和噪声挑战。在对sc RNA-Seq数据和癌症基因表达数据进行分析时,准确分组和识别数据尤为关键。对sc RNA-Seq数据进行准确识别是一种聚类问题,是深入生物分析的基础;对癌症基因表达数据集的正确分组是一种分类问题,即对患者进行准确癌症诊断,有助于确定针对患者的个性化癌症治疗方案。因此研究高效学习方法分析以上两种生物数据已然成为生物信息学领域的重要方向。本文围绕sc RNA-Seq数据和癌症基因表达数据开展一系列研究工作,着重建立sc RNA-Seq数据聚类分析方法以及癌症诊断方法。针对生物数据特点,打破传统学习算法的局限性,在进化过程中采用多个学习有效性指标作为目标函数优化诊断结果,捕获不同数据集的多个属性,以提高算法的识别和诊断能力。根据上述思路,本文基于多目标进化学习提出四种生物数据分析方法,具体而言,主要研究内容为:(1)提出基于多目标进化深度学习的sc RNA-Seq数据聚类分析模型。首先采用差异基因表达分析技术去除高维原始数据中冗余和不相关基因,识别出不同生物学条件下差异表达基因。基于此数据,通过深度自动编码器将自识别的基因数据投影到不同低维非线性嵌入子空间中。然后将基本聚类算法应用于各种非线性嵌入子空间中,产生多个基本聚类结果。算法初始化种群时,对个体进行特殊编码以生成包含不同基本聚类结果的多个聚类集成。为指导种群进化,算法采用两个聚类有效性指标和基础簇数目作为目标函数。基于以上三个目标建立多目标聚类问题模型后,利用基于超体积的多目标优化框架优化模型得出最终聚类结果。为验证所提分析方法有效性,采用六个真实sc RNASeq数据集进行多次实验,并与八种聚类算法和三种多目标优化算法相比较,实验结果表明所提模型在聚类sc RNA-Seq数据方面具有显着优势。除此之外,针对模型每个策略进行实验分析,从多个角度验证了模型的有效性。(2)提出基于多目标稳健连续聚类的sc RNA-Seq数据聚类分析方法。针对稳健连续聚类算法中连接权值不稳定问题,本文所提分析方法采用两个聚类有效性指标作为目标函数建立多目标聚类模型,并使用基于分解的多目标方法动态优化连接权值。此外,为选择适合不同sc RNA-Seq数据集的收缩参数,所提方法将其加入连接权值向量同时进行动态优化。在优化过程中使用档案集保留非支配解集并使用产生的子个体更新档案集,最终输出档案集中最优聚类结果。为评估所提算法的聚类能力,计算六个真实sc RNA-Seq数据集的两个评价指标值。实验结果表明,与其它算法相比所提算法具有高效聚类能力。同时可视化分析和生物可解释性分析也体现出算法所挖掘的生物学意义。(3)提出基于多目标分解集成布谷鸟搜索算法的癌症诊断模型。首先基于四个目标函数建立多目标分类模型,目标包括两个基于熵的度量:相关性和冗余度以及特征数量和准确率。然后,算法初始化种群并计算种群适应度,采用基于分解的多目标框架对种群进行优化,得出最终分类结果。在算法中,为计算种群中个体目标函数值,提出一种二进制编码方式编码每个个体并选择出基因子集。此外,提出两种改进搜索策略,并将其与多个遗弃概率值放入候选池中,设计一种可以根据之前迭代成功概率从候选池中选择搜索策略以及遗弃概率的集成机制,它可以增进高质量候选解的概率。为验证所提分析方法的分类有效性,选取三十五个癌症基因表达数据集和一个结肠腺癌数据集从多目标角度和分类角度对模型进行评价。实验结果表明该分析模型可以有效解决癌症诊断问题,其它分析结果也验证了所提模型框架的有效性。(4)提出基于多目标粒子群混合算法的癌症诊断方法。首先对种群进行初始化,然后基于四个目标函数优化种群,根据支配关系将非支配解集存储在档案集中,最终输出最优分类结果。在种群进化过程中,利用二进制编码策略计算个体目标函数值;为平衡算法的收敛能力和全局能力,算法提出变异算子和局部搜索算子。其中变异算子可以增强粒子群的探索能力;局部搜索算子基于差分进化算法中“best/1”算子,根据个体最优粒子和两个随机粒子生成,以发现邻域中高质量潜在解。为验证所提方法性能,选取七种多目标算法、六种分类算法以及五种特征选择方法进行比较,在三十五个癌症基因表达数据集和六个真实疾病数据集上计算多个评价指标值。不同角度的实验结果以及主要操作算子等分析全面验证了所提方法的癌症诊断有效性。
刘亚芬[2](2020)在《基于GA的CART决策树改进算法与应用》文中研究指明自20世纪中期互联网技术的不断发展,信息技术跟随着迅猛发展,用户随时随地都产生了大量的图像、文本、音频、视频等信息。如何从这些不断增长的数据中得出对人们有利用价值的信息?于是,诞生了数据挖掘技术。数据挖掘就是不断的在数据中寻找有用信息,通过各种不同的分析方式和分析工具建立起各种数学模型与数据之间的联系,然后通过对这些构建好的模型与数据进行分析以及预测。分类预测是数据挖掘中的一项重要领域,在数据挖掘中,分类预测占有重要地位。决策树算法就是分类中一种易于理解并且使用范围较广的算法,决策树相较于其他方法有预测速率快、高精度且生成的分类规则易于解释等好处,因此是分类预测中比较常用的方法。常用的决策树算法有ID3算法、C4.5算法和CART算法,ID3算法适用于处理小规模数据集且无法处理离散属性。C4.5算法改善了ID3算法的缺点,能同时处理连续属性,且在剪枝的时候加入了初步正则化思想,防止过拟合,但C4.5算法只能处理分类问题,无法处理回归问题。CART算法在此问题上进行了改进,既能处理分类问题也能处理回归问题,且用Gini系数代替信息增益率进行分裂,降低了数据的计算量。但CART算法同样有着自身的不足,CART算法是采用二分法进行分割,二分法最大的缺陷是局部最优,本文的切入点就是解决二分法局部最优的问题,创新点就是利用遗传算法全局优化的特性,通过遗传算法找到最优的分裂点,对CART算法进行优化。当数据集的特征个数偏多,训练模型的时间花销就越大,训练得出的模型就会更加复杂,那么模型的推广能力也会有所下降。通过实验证实,使用遗传算法来找到最优的特征建树,能大大的提高分类的精度。本文在构建决策树的过程中,使用的是CART算法,大多数情况下CART构建的决策树模型比其他算法构建的模型准确率更高,且当样本越大,数据量越复杂,变量越多,算法的效果就越显着。但是CART算法也有自身的缺陷,CART算法是通过二分法进行分裂,但是二分法最大的缺陷是局部最优,每一次计算只能找到当前这步的最优值,很容易陷入局部收敛,遗传算法作为全局最优搜索算法之一,其过程是通过不断的选择、交叉和变异操作,寻找到最优个体,文中是利用遗传算法代替二分法找到最优分裂点。遗传算法因具有优秀的性能,在优化问题中应用颇多,遗传算法在寻找最优分类规则中应用得较为成熟,而在决策树算法中,从本质上最终也是得到分类规则,从这方面来看,通过遗传算法对决策树改进也是可行的。虽然遗传算法也不能保证在理论上得到百分之百的最优,但是也提供了寻优的可能,且后续实验中也证明了使用遗传算法代替二分法寻找的最优分裂点能提高分类的精度。
张贞梅[3](2019)在《面向不平衡数据的集成学习算法研究》文中研究表明在人们的日常生产、生活中,由于数据本身或抽样过程中人为因素的影响,不平衡数据集是广泛存在的。在这些不平衡数据集中,数量比较稀少的少数类样本往往与一些异常且重要的情况关系比较密切。在很多现实应用中,传统方法对这些少数类样本进行有效分类、识别是比较困难的。集成学习作为目前数据挖掘领域中的一个重要研究分支,受到研究者的广泛关注。集成学习通过把多个子学习器集成起来对机器学习问题进行研究,显着提高学习系统的泛化能力,比传统单一的数据挖掘算法更有优势。本文的主要研究对象为不平衡数据的分类和聚类问题,把集成学习方法作为工具,分别从使用抽样技术对原始不平衡数据样本集的样本分布进行调整、从数据抽样技术与改进的算法相结合等方面出发,以提高不平衡数据集分类和聚类的性能为目标,围绕数据层面如何合理有效地调整样本分布、在算法层面对已有算法的参数进行优化改进,提出了一些改进的算法,本文的主要研究内容如下:(1)基于欠抽样技术的K-AdaBoost聚类集成算法结合AdaBoost算法和K-means技术,面向不平衡数据集提出了一种站于欠抽样的K-AdaBoost算法。算法首先使用基于K-means聚类的欠抽样技术,在不破坏多数类样本结构的基础上,减少多数类样本的数量,提高数据集的平衡度;其次,在新的训练样本集上再次应用K-means算法得到多个类簇,通过计算测试样本到各类簇中心的距离,基于相似度和各类簇对基学习器的权重进行加权组合,得到测试样本对各基学习器的权重;最后,按照权重把各基学习器组合成强学习器,最终对测试样本进行预测。(2)基于ADASYN的R-AdaBoost分类集成算法面向不平衡数据集提出了一种基于ADASYN的R-AdaBoost分类集成算法。首先,算法基于ADASYN技术生成m个合成样本,对原始数据集起到平衡作用;其次,使用基学习器对新的数据集进行分类并得到每个子分类器的分类结果。在对样本的权重值进行更新时,引入Focal Loss损失函数的思想,增加了难分类样本的权重;最后,使用AdaBoost算法对测试样本进行分类,得到最终的分类结果。(3)基于进化过抽样的EOS-Bagging集成学习算法面向不平衡数据集,基于改进的SMOTE抽样技术,提出了EOS-Bagging(Evolutionary Over-sampling)算法。首先,EOS-Bagging算法对原始数据集中的少数类样本进行随机过抽样;其次,基于SMOTE算法和遗传算法通过对新样本集中的少数类样本进行选择操作,交叉操作,变异操作,通过进化抽样获取一个新的数据集;最后,在算法层面上,结合Bagging集成学习框架,使用基学习器对包含合成样本的新数据集进行分类,实现对测试样本的分类结果预测。通过实验表明,论文提出的算法在处理不平衡数据集聚类和分类的性能上有所提高。
邢彪[4](2019)在《基于粗糙集的随机森林算法优化研究》文中认为在大数据时代,单分类器技术已经不能满足日益复杂和大量的数据需求;因此多分类器变得更加重要和有效。多分类器的思想就是组合多个单分类器,然后根据多个单分类器的产生的结果进一步得到最终结果。随机森林就是一种多分类器。随机森林算法随机性之一是从整体特征中随机选择一定数量的特征,以尽可能地减少树之间的相关性,但数据中通常存在冗余特征,因此会对随机森林模型的泛化能力造成影响。针对随机森林特征选择时数据集中存在冗余特征的情况,通过对传统随机森林算法的分析,决定采用粗糙集对传统随机森林算法进行优化改进。粗糙集可以简化数据并保留数据的最小知识,同时保留关键信息。粗糙集能对随机森林特征选择时数据集中存在较多冗余特征而影响模型的分类效果的问题进行有效的处理。基于此,本文选择用基于遗传算法的粗糙集属性约简方法对随机森林算法进行优化,在随机森林选取特征之前就剔除掉总体特征中的冗余特征,从而提高随机森林算法的效率。本文完成了以下几个方面的工作:(1)介绍了属性约简研究现状、粗糙集属性约简研究现状和随机森林国内外研究现状;详细介绍了粗糙集基础理论。详细研究了随机森林算法的基本数学概念、性质;对决策树算法进行了详细的研究,介绍了决策树的产生以及ID3、C4.5、CART算法;在构建决策树的基础上,研究了随机森林算法构建过程,对随机森林数据集的产生以及单个决策树的构建以及随机森林算法的执行过程进行了详细的分析。(2)针对随机森林在特征选择时存在冗余特征的问题,将基于遗传算法的粗糙集属性约简方法与随机森林分类思想结合,提出了一种基于遗传算法的粗糙集和随机森林结合的分类预测算法;对基于遗传算法的粗糙集属性约简方法在多个UCI数据集上进行了属性约简,同时与PCA、CHI2在约简后模型分类效果进行了对比实验,选用平均准确率作为客观评价参数,来评价三种不同的约简方法效果。(3)通过编程实现基于遗传算法的粗糙集和随机森林结合的分类预测算法,主要通过与经典的随机森林算法进行比较,在葡萄酒数据集和宫颈癌数据集上测试其效率,选择分类准确率、运行时间、ROC曲线、AUC均值、OOB以及ooberror作为评价指标对其进行综合评价;同时,在多个机器学习数据集上与多种机器学习算法进行对比分析,选择平均准确率作为评价指标,验证了优化后随机森林算法的在分类方面的有效性。本论文在粗糙集和随机森林原理研究的基础上,采用基于遗传算法的粗糙集属性约简方法优化随机森林特征选择,对随机森林的分类效果有较大的提升。因此,基于遗传算法的粗糙集属性约简和随机森林分类相结合的方法,不仅具有一定的方法创新,同时在实际应用中也具有重要价值。
谢莎莎[5](2018)在《基于数据挖掘的工程造价指数研究》文中提出面对当今大数据时代的冲击,各种纷繁复杂的建筑工程项目数据信息经过收集、整理、清洗、重组之后具备极大的利用价值,如何结合数据挖掘的方法用好这些宝贵资源,是实现工程造价行业可持续发展、实施信息化管理战略、加速造价服务行业转型的迫切需要。为了适应社会主义市场经济高速发展的需求,建设工程造价管理必须改变完全依靠政府发布的定额计价模式,在遵循政府发布的定额和调价规定的前提下,工程造价的确定需由企业根据市场情况以及自身生产和管理水平确定。本课题应用工程造价和统计学相关理论,在清单计价模式下设计出完整的造价指数测算系统,将数据挖掘理论应用于造价指数管理中,包括造价指数信息的筛选、测算、预测等方法,最后在此研究基础上设计了建筑工程造价指数信息平台。本课题对国内外有关造价指数测算方法及体系设置方面的文献进行了系统整理和分析,以期得到适用于我国信息化建设中建筑工程造价指数系统的建设方法。通过收集近年来典型工程的特征值,调研各城市造价指数的设置情况,建立了一套完整的指数测算系统、筛选系统及预测系统的数学模型。本课题对指数理论、数据挖掘理论、知识管理理论、BP神经网络、遗传算法进行了阐释并讨论了其适用范围和用于本课题的价值。分别针对北美地区及英国的指数体系设置和发布方法进行研究,对国内六个城市或省份地区进行了调研分析,结果表明,各城市指数体系差别较大,主要体现在以下三个方面:第一,发布形式不同。香港、重庆、深圳、成都为定基指数,而江西采取的是环比指数,天津既有定基指数又有环比指数。第二,发布机构不同。香港造价指数体系的设置与发布方式类似英国,由建筑署负责发布政府层次的造价指数,同时利比、威宁谢两大测量师行编制的投标价格指数也发挥着重要的作用,而我国内地工程造价指数主要由各省市地方政府编制并定期发布。第三,编制范围不同,香港造价指数编制成本指数和价格指数,我国内地造价指数编制单项指数和综合指数。本课题通过对国内外建筑工程造价指数测算体系研究,基于当前建筑市场特点,确定对建筑工程造价指数测算体系编制设计以清单计价模式为主。对建筑工程进行分类,提出主要对三大类指数进行编制,分别是建筑工程造价指数、建筑工程费用指数和建筑工程消耗量指数。本课题针对典型工程的样本筛选方法进行了研究。在进行建筑工程造价指数测算时,若将不同类型的工程造价信息杂糅在一起,则会使造价指数失去意义,因而选取典型建筑工程作为测算样本非常重要,在建筑功能、结构形式等进行划分之后再将同类工程汇总。根据建筑工程周期内样本稀少、影响因素众多的特征,在筛选典型工程的过程中,本课题采集了100个建筑工程信息,采取了“专家评选法”、“灰色关联法”、“T检验法”与“决策树法”,首先用“专家评选法”进行样本特征值的初选,选取了有价值的特征值,然后用“灰色关联法”完善“专家评选法”的结论,确定八个特征值,接着用“T检验法”进行筛选,原定的八个特征属性中工程地点、层高、结构类型这三个特征属性对工程造价的影响不显着,因此被剔除,最后引入决策树模型补充T检验法仅能检验因变量而无法检验样本本身的不足。将四种方法相结合,从初选到完善,提高筛选的精度。本课题研究了造价指数的测算模型。测算信息的采集方式主要为人工采集法,选取大量的行业内资深信息员对工程信息进行统计与上报,通过审核的工程信息可进入系统数据。针对造价信息的采集方式、发布方式进行了研究,并针对信息员采集方式设计了完整的信息采集表。从两方面对造价指数进行调整,其一,在典型工程相应的消耗量给定情况下,对典型工程重新组价,可以得到相应的指数和指标;其二,在我国由于建筑材料需要市场采购的范围越来越大,主要建筑材料如钢材、木材、水泥等的价格对工程造价的影响很大,因此,本课题利用调值公式对相应的材料指数进行调整。本课题对建筑工程造价指数的预测进行了研究。由于受建筑工程样本特征值缺失和样本数量较少的影响,在预测未来造价指数时单纯使用BP神经网络具有局限性,会降低预测的准确性和精度,需要结合建筑工程样本特点,对原始BP神经网络进行改进,最佳方法是结合适用于样本数量较少的灰色预测模型。课题以武汉市建筑工程中高层住宅及公寓(含商住楼)项目(12层以上)为例,进行建筑工程造价指数预测的实证分析。案例选取对建筑工程造价影响较大的人工、材料、施工机具费用指数进行造价指数的分析与预测,收集了从2014年第3季度到2016年第4季度各项价格及建筑工程总价指数数据信息。通过计算证明,经过基于遗传算法优化的GA-BP神经网络模型进行建筑工程造价指数的预测精度达97%左右,对建设项目投资决策有着较为关键的参考意义。最后,本课题对建筑工程造价指数平台信息采集系统进行了研究。课题设计了信息采集系统,由平台使用者在采集平台上收集建筑工程核心造价信息,建立地区工程造价信息数据库。通过系统数据清洗、审核、加工服务,最终由地方造价站在发布展示平台按标准要求定期向社会发布建筑工程指标指数,以提升造价管理的效率和服务水平。
董立岩[6](2007)在《贝叶斯网络应用基础研究》文中提出贝叶斯网络是用来表示变量之间连接概率的图形模式,提供了一种自然的表示因果关系的方法,具备概率推理能力强、语义清晰、易于理解等特点,是目前不确定知识表示和推理领域中最有效的理论模型之一,也是近年来数据挖掘领域中的研究热点之一。本文在全面地介绍了数据挖掘的历史、贝叶斯网络的发展过程和研究现状、贝叶斯网络分类器、贝叶斯网络的应用基础上,进行了连续变量的贝叶斯网络结构学习,贝叶斯网络分类的研究,数据挖掘结果可视化的研究,贝叶斯网络应用的研究。研究的具体内容包括:(1)通过对连续随机变量之间预测能力及其计算方法的讨论,提出了基于预测能力的连续贝叶斯网络结构学习方法;(2)将遗传算法的思想引入贝叶斯网络分类器的构建,提出了一种基于遗传算法的受限制贝叶斯网络分类器算法;(3)为了限制了贝叶斯网络结构的复杂度,提出了一种多模块集成式贝叶斯网络分类器;(4)贝叶斯分类器在医学图像分析系统中的具体应用;(5)用来处理尿沉渣检查图像中微粒的识别,结果表明这一方法用来解决图像分类是有效的;(6)数据挖掘的可视化处理,实现了用于观察数据的数据可视化,用于控制挖掘过程的过程可视化,以及用于显示挖掘结果的结果可视化。
许孝元[7](2005)在《分类关联规则归纳算法及应用研究》文中提出随着社会信息化程度的提高,数据量呈指数增长。从大量数据中挖掘有价值的知识在当今信息时代具有重要意义。关联规则挖掘是数据挖掘领域中的重要课题之一。特别是分类关联规则既能用于概念描述又能用于分类预测与决策,在数据挖掘中发挥重要作用。目前分类关联规则挖掘技术在学术界与产业界受到广泛关注。自1998 年出现第一个基于关联的分类算法(CBA)以来,关联分类算法的设计及应用研究一直非常活跃。目前,在关联分类问题上存在的共识是:关联分类的准确度总体上显着地高于传统的决策树分类,但关联分类存在的主要问题是产生太多的关联规则,导致计算速度慢、内存开销大、分类模型难以理解。本文研究分析了现有的分类关联规则归纳算法,给出了关联分类的有关定义及形式化描述,提出基于数据挖掘标准的分类规则质量评价新函数,首次提出挖掘知识要点的新思想, 创立了基于原子关联规则的分类新技术CAAR(Classification based on Atomic Association Rules),从根本上解决了关联分类执行效率低、内存开销大、分类模型较复杂的问题。将CAAR 分类新技术应用于有监督的图像内容分类学习和大规模数据机器学习取得了很好的效果。本文的创新点主要表现在以下五个方面: 1)首次提出置信度主导的、基于置信度和支持度加权和的分类规则质量评价函数。目前,在机器学习领域内,广泛采用的分类规则质量评价函数是基于混淆矩阵计算的灵敏度(Se)和选择性(Sp)的乘积。这种传统方法被称为评价分类规则质量的“黄金标准”。然而,从数据挖掘的角度分析灵敏度和选择性后,我们发现传统的方法不及我们提出的基于规则置信度和支持度加权和的新方法。为了在较大的分类关联规则搜索空间上验证我们提出的新函数,采用遗传算法进行了实验。结果表明基于数据挖掘的新函数显着地优于传统的分类规则质量评价函数。2)首次提出挖掘知识要点的新思想。采用原子型分类关联规则导向的知识要点挖掘技术能快速地发现不完全的、非精确的描述性分类知识。知识要点包括通过一次扫描数据集得到的精确原子型分类关联规则和通过组合计算得到的不完全的、非精确的复合型分类关联规则。算法能计算复合型分类关联规则的支持度和置信度的边界值。对于一个复合型分类关联规则,如果规则的支持度和置信度的下界都分别超过支持度阈值和置信度阈值,则称该规则的存在性是确定的;如果规则的支持度和置信度各自的上界与下界之差小于一个给定的常量,则认为规则的度量参数是确定的。因此复合型分类关联规则可分为三种类型:(1)确定型:
任江洪,曹长修[8](2004)在《遗传算法在数据挖掘多种分类器合并中的应用》文中进行了进一步梳理数据挖掘在电子商务中发挥着越来越重要的作用。分类是数据挖掘中一项非常重要的任务。由于单独的分类器都具有一定的适用范围,所以将多个分类器的分类结果进行合并形成更高精度的分类结果是很有意义的一种方法。文中提出了一种基于遗传算法将多种分类器进行合并,以提高分类精度,扩大数据挖掘程序应用范围的方法。
阮一晨[9](2021)在《基于数据驱动的杭州萧山区公共中心体系认知与优化研究》文中研究表明随着我国经济社会的发展由高速增长转为高质量增长,人民生活水平不断提升,社会主要矛盾发生转变,城市生活性空间的发展随之转变为引领城市建设、提升城市居民生活幸福感的主要动力之一。城市公共中心体系是承载城市居民生活性活动的主要空间,在城市公共服务与消费空间的发展中起到重要作用。近年来,城市研究数据与技术快速发展,特别是大数据与机器学习算法的引入,为城市空间结构研究提供了强有力的量化支撑。但同时也引申出公共中心体系研究中,数据表征的充分性、研究方法的适应性、表征关系的实效性等数据技术应用层面的问题。为此,本研究以杭州市萧山区为对象,针对城市公共中心体系研究,在数据技术选择与应用、影响要素与机制分析、优化布局手段等多方面文献综述基础上,结合规划研究中数据应用的特征,总结出本研究着力探索的三个主要问题:如何观察并总结公共中心的特征、公共中心体系发展类型特征与影响要素有哪些、怎样正确引导公共中心空间优化。并借鉴弱假设强表征的数据驱动范式,形成了由理论线索指导表征数据,再构建表征关系,从而推导特征规律的研究逻辑,将之应用于研究问题所对应的空间认知、空间分析与空间优化三个主要流程,以实现空间认知与优化的研究目的,解释公共中心体系空间特征与规律,完善其优化方法与流程。研究内容与结论主要包括三方面:一是公共中心体系的识别与空间特征认识。从供给与需求的角度入手,针对公共中心体系的构成要素,搭建手机信令、POI与调研数据结合的多源数据识别框架,实现杭州市萧山区公共中心体系识别,并从中心的空间布局、结构关系与功能关联认识其基本空间特征。初步认识了体系内的公共中心路径依赖与道路亲缘特征规律与“一主一副数次多基”的4级中心体系,同时发现政府主导配置的公共服务设施在中心关联中具有重要引领性作用。二是在公共中心体系的发展程度与影响要素分析。构建常态化和非常态化两大层面的分析框架:在常态化层面,遵循先扩样后收缩的思路,从浙江省扩样识别公共中心体系的初长型、增长型、成熟型、完善型四大聚类,定位出与萧山区近似的成熟型与完善型聚类样本。同时地形条件、经济规模、人口规模、城市建设、居民消费力与公共交通6类影响要素存在显着的类型性差异,其变化特征主要由发展初期政府主导的投资拉动型增长模式转变为后期由市场引领的消费主导型发展模式。各影响要素间呈现相互作用的网络机制,其中人口规模是发展程度最直接最核心的影响要素。在非常态化要素方面,萧山区公共中心体系深受G20、亚运会与新冠疫情防控等大事件中正向推动力的促进,并在后续使其持续影响。三是在公共中心体系优化分析。杭州市萧山区的研究范围,通过人口与公共中心体系具有强关联的线索,从人口的居住、就业、旅游三方面入手构建“人口—公共中心”的空间关联模型,推导出中心优化的空间基础。在此基础上借助三方面目标准则:一是通过公共中心发展的监督学习模型、满意度与亚运会大事件分析结合,总结出经验目标。二是通过人本主义价值尺度下总结出效率与公平的发展目标,三是在公共中心现状特征中总结的规律性原则。最终在空间与非空间两个层面提出了针对萧山区公共中心体系的优化指引。经三方面内容的逐层推进,实现了公共中心体系认知与优化的数据驱动研究框架搭建,通过实证案例分析与认知,总结具有时空背景的特征经验与一般性的规律,丰富了新数据环境下的城市空间结构研究。
沈焱萍[10](2021)在《基于群智能算法优化的入侵检测模型研究》文中研究说明网络入侵检测系统通过收集网络流量等信息对网络中的非法行为进行检测。作为网络攻击的积极主动检测手段,入侵检测一直是网络安全领域的重要研究内容。随着网络技术高速发展,网络攻击手段的复杂化,基于大规模网络流量准确识别网络攻击,降低系统误报一直是网络入侵检测系统的研究目标。传统的基于特征的检测方法需要大量领域先验知识,只能对已知攻击进行检测。机器学习方法可以从数据中自动寻找规律模式,逐渐应用于入侵检测之中。然而建立机器学习入侵检测模型面临各种问题,如对于某些模型的构建,个别参数的选取直接影响模型的准确率和泛化能力;特征优化是构建机器学习模型的重要步骤,合适的特征集合既能节约系统资源又能准确表示原始数据;集成学习是机器学习领域的重要研究内容,如何选取合适的基学习器,如何将基学习器有效地组合起来是集成学习面临的重要问题。本文采用群智能方法对机器学习模型进行优化,主要研究基于特征选择、参数优化、集成剪枝及多核学习等技术的入侵检测方案,具体如下:(1)针对特征选择和核极限学习机参数选取问题,提出一种基于粒子群优化算法的核极限学习机入侵检测模型。由于核极限学习机方法具有速度快,泛化性能好的特点,首先采用核极限学习机作为检测引擎,但核极限学习机算法的性能严格依赖于惩罚系数和核参数的选取。然后,选择粒子群优化算法参与核极限学习机的训练进行参数优化,同时采用二进制粒子群优化算法进行特征选择。其中,选用高斯函数作为核极限学习机的核函数。实验结果表明,与网格搜索方法和遗传算法相比,粒子群优化算法对核极限学习机的参数优化效率更高。同时,结果还表明选用约原有特征数目1/4的特征子集有着和原数据集相当甚至更好的检测结果。(2)针对集成框架子分类器选取问题,提出一种基于蝙蝠算法的集成剪枝入侵检测模型。首先,针对大数据时代数据量大,维数高的特点,采用基于随机子空间的投票极限学习机作为入侵检测分类器。投票极限学习机是基于极限学习机的投票集成算法,其性能取决于子分类器的个数,但子分类器的个数并不是越多越好。然后,采用蝙蝠算法选择合适的子分类器进行集成,对于蝙蝠算法的适应函数,采用准确率和子分类器差异度相结合的方式进行定义。基于随机子空间的集成方法不仅可以降低数据维度,还可以增加子分类器间的差异度。实验结果表明,基于随机子空间的投票极限学习机和单个极限学习机相比,算法的精度和鲁棒性得到了提高。研究结果还表明,基于蝙蝠算法的集成剪枝方案和应用所有子分类器相比,不仅可以实现类似或更好的性能,还节省了大量计算资源。(3)针对单个预定义核函数不能较好的表示异构信息问题,提出一种基于超启发算法的多核极限学习机入侵检测模型。首先,采用ReliefF进行特征选择,选用核极限学习机作为入侵检测算法。针对核极限学习机的核函数选取问题,采用高斯核的线性组合方式组成多核函数。寻找最优复合核函数即确定高斯核参数和核权重的过程,采用超启发算法对最优复合核函数进行寻优,包括粒子群优化算法,遗传算法,灰狼优化算法,蝙蝠算法和差分进化算法。超启发算法的适应函数通过独立于检测算法的核目标度量定义。实验结果表明,最优复合核函数可以通过上述提到的任一超启发算法确定。由于将基于过滤的特征选择方法与独立于分类器的多核学习方法相结合,与依赖于分类器的多核优化模型相比,所提模型在节省大量计算开销的同时,具有可比拟的检测性能。综上所述,本文研究的重点是根据现有机器学习模型面临的问题,提出基于群智能方法的入侵检测模型优化方案。实验结果表明,本文提出的入侵检测模型方案能够有效地提高检测性能,具有现实意义。
二、遗传算法在数据挖掘多种分类器合并中的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、遗传算法在数据挖掘多种分类器合并中的应用(论文提纲范文)
(1)基于多目标进化学习的生物数据分析方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 单细胞RNA测序数据挖掘 |
1.2.1 单细胞RNA测序流程 |
1.2.2 基因表达数据标准化 |
1.2.3 单细胞RNA测序数据挖掘技术 |
1.3 生物医学数据挖掘 |
1.3.1 生物医学数据预处理 |
1.3.2 生物医学数据挖掘技术 |
1.4 本文研究动机与主要研究内容 |
1.5 本文章节安排 |
第二章 多目标进化学习 |
2.1 多目标优化问题 |
2.2 多目标进化算法概述 |
2.3 多目标进化学习算法的进展 |
2.3.1 基于多目标进化算法的聚类学习 |
2.3.2 基于多目标进化算法的分类学习 |
2.4 本章小结 |
第三章 基于多目标进化深度学习的scRNA-Seq数据聚类分析模型 |
3.1 引言 |
3.2 差异基因表达分析 |
3.3 深度自动编码器 |
3.4 基于多目标进化深度学习框架 |
3.4.1 scRNA-Seq数据聚类问题建模 |
3.4.2 进化多目标优化 |
3.4.3 算法框架 |
3.5 实验结果与分析 |
3.5.1 实验数据集 |
3.5.2 评价指标 |
3.5.3 参数设置 |
3.5.4 对比实验 |
3.5.5 目标函数分析 |
3.5.6 降维方法分析 |
3.5.7 参数分析 |
3.5.8 收敛性分析 |
3.6 功能基因组分析 |
3.6.1 基因本体富集性分析 |
3.6.2 基因组可解释性分析 |
3.7 本章小结 |
第四章 基于多目标稳健连续聚类学习的scRNA-Seq数据聚类分析方法 |
4.1 引言 |
4.2 稳健连续聚类算法 |
4.3 基于多目标稳健连续聚类学习框架 |
4.3.1 scRNA-Seq数据聚类问题建模 |
4.3.2 算法框架 |
4.4 实验结果与分析 |
4.4.1 评价指标和参数设置 |
4.4.2 对比实验 |
4.4.3 降维方法分析 |
4.4.4 连接结构分析 |
4.4.5 参数分析 |
4.4.6 收敛性分析 |
4.4.7 可视化分析 |
4.5 生物可解释性分析 |
4.5.1 基因本体富集性分析 |
4.5.2 基因组可解释性分析 |
4.6 本章小结 |
第五章 基于多目标分解集成布谷鸟搜索算法的癌症诊断模型 |
5.1 引言 |
5.2 布谷鸟搜索算法 |
5.3 基于多目标分解集成布谷鸟搜索算法学习框架 |
5.3.1 癌症诊断问题建模 |
5.3.2 二进制编码设计 |
5.3.3 改进搜索策略 |
5.3.4 集成机制 |
5.3.5 算法框架 |
5.3.6 时间复杂度分析 |
5.4 实验结果与分析 |
5.4.1 实验数据集 |
5.4.2 参数设置 |
5.4.3 评价指标 |
5.4.4 对比实验 |
5.4.5 参数分析 |
5.5 功能基因组分析 |
5.5.1 基因本体富集性分析 |
5.5.2 基因组可解释性分析 |
5.6 本章小结 |
第六章 基于多目标粒子群混合算法的癌症诊断方法 |
6.1 引言 |
6.2 粒子群优化算法 |
6.3 基于多目标粒子群混合算法的学习框架 |
6.3.1 癌症诊断问题建模 |
6.3.2 变异算子 |
6.3.3 局部搜索方法 |
6.3.4 算法框架 |
6.3.5 时间复杂度分析 |
6.4 实验结果与分析 |
6.4.1 实验数据集 |
6.4.2 参数设置 |
6.4.3 对比算法与评价指标 |
6.4.4 癌症基因表达数据集测试与分析 |
6.4.5 真实疾病数据集测试与分析 |
6.4.6 主要操作算子分析 |
6.4.7 参数分析 |
6.4.8 收敛性分析 |
6.5 生物可解释性分析 |
6.5.1 基因本体富集性分析 |
6.5.2 基因组可解释性分析 |
6.6 本章小结 |
第七章 总结与展望 |
7.1 本文内容总结 |
7.2 进一步工作 |
参考文献 |
致谢 |
在学期间公开发表论文及着作情况 |
(2)基于GA的CART决策树改进算法与应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究的背景和意义 |
1.2 国内外研究现状 |
1.3 本论文主要研究内容 |
1.4 本章总结 |
第二章 数据挖掘概述 |
2.1 数据挖掘的相关理论 |
2.2 数据挖掘常见的分类算法 |
2.2.1 神经网络方法 |
2.2.2 粗糙集理论方法 |
2.2.3 聚类 |
2.2.4 关联规则 |
2.2.5 统计分析方法 |
2.2.6 回归分析 |
2.2.7 决策树方法 |
2.3 本章总结 |
第三章 决策树分类技术 |
3.1 决策树的定义和结构 |
3.2 决策树的构造过程 |
3.3 常用的决策树算法简介 |
3.3.1 ID3算法简介 |
3.3.2 C4.5算法 |
3.3.3 CART算法 |
3.3.4 决策树的应用 |
3.4 本章总结 |
第四章 基于遗传算法的CART优化的研究 |
4.1 引言 |
4.2 遗传算法介绍 |
4.3 基于遗传算法的CART算法的研究分析 |
4.3.1 基于遗传算法的CART算法的基本原理 |
4.3.2 基于遗传算法的CART算法的基本步骤 |
4.3.3 基于遗传算法的CART算法的实现 |
4.4 算法验证 |
4.4.1 数据说明 |
4.4.2 基于CART算法的决策树分类 |
4.4.3 基于上层遗传算法优化分类规则的CART分类 |
4.4.4 基于双层遗传算法优化CART算法的过程 |
4.5 实验结果 |
第五章 总结和展望 |
参考文献 |
附录:算法用到的相关函数介绍 |
致谢 |
(3)面向不平衡数据的集成学习算法研究(论文提纲范文)
摘要 |
Abstract |
变量注释表 |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 研究内容 |
1.4 章节安排 |
2 相关概念与技术 |
2.1 不平衡数据 |
2.2 集成学习 |
2.3 经典集成学习算法 |
2.4 而向不平衡数据的评估度量方法 |
2.5 小结 |
3 基于欠抽样技术的K-AdaBoost聚类集成算法 |
3.1 引言 |
3.2 算法基础与分析 |
3.3 K-AdaBoost算法设计 |
3.4 实验结果与分析 |
3.5 小结 |
4 基于ADASYN的R-AdaBoost分类集成算法 |
4.1 引言 |
4.2 算法基础与分析 |
4.3 R-AdaBoost算法设计 |
4.4 实验结果与分析 |
4.5 小结 |
5 基于进化过抽样的EOS-Bagging集成学习算法 |
5.1 引言 |
5.2 算法基础与分析 |
5.3 EOS-Bagging算法设计 |
5.4 实验结果与分析 |
5.5 小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简历 |
致谢 |
学位论文数据集 |
(4)基于粗糙集的随机森林算法优化研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 选题依据和研究意义 |
1.2 国内外研究现状 |
1.2.1 属性约简研究现状 |
1.2.2 粗糙集属性约简研究现状 |
1.2.3 随机森林算法研究现状 |
1.3 论文的研究内容 |
1.4 研究思路与技术路线 |
1.5 论文结构介绍 |
1.6 研究成果与创新 |
第2章 粗糙集基本原理简介 |
2.1 粗糙集基本原理简介 |
2.1.1 知识与不可分辨关系 |
2.1.2 粗糙集合的下近似、上近似、边界区 |
2.1.3 约简与核 |
2.2 本章小结 |
第3章 随机森林算法基本原理与构建简介 |
3.1 随机森林基本原理与性质概述 |
3.1.1 随机森林的基本原理简介 |
3.1.2 随机森林算法数学性质 |
3.2 决策树基本原理与性质概述 |
3.2.1 构建决策树的分裂节点算法 |
3.2.2 ID3、C4.5、CART分类树算法总结 |
3.2.3 决策树分类中存在的问题 |
3.3 随机森林算法模型构建 |
3.3.1 随机抽样产生数据集 |
3.3.2 训练决策树 |
3.3.3 随机森林模型构建过程 |
3.4 随机森林中常用的评价指标 |
3.5 本章小结 |
第4章 基于遗传算法的粗糙集属性约简 |
4.1 属性约简理论简介 |
4.2 传统属性约简方法 |
4.2.1 PCA属性约简方法 |
4.2.2 CHI2 属性约简方法 |
4.3 基于遗传算法的粗糙集属性约简 |
4.3.1 遗传算法理论简介 |
4.3.2 基于遗传算法的粗糙集属性约简 |
4.3.3 数据属性约简效果分析 |
4.4 本章小结 |
第5章 基于粗糙集的随机森林算法优化 |
5.1 基于粗糙集的属性约简与随机森林结合的分类算法 |
5.2 基于sklearn的随机森林实现以及分析 |
5.2.1 scikit-learn随机森林算法库简介 |
5.2.2 算法模拟实验与分析 |
5.2.3 改进后随机森林算法运行效率对比 |
5.3 基于粗糙集优化的随机森林算法与其它分类算法对比 |
5.3.1 数据集构造 |
5.3.2 模拟实验对比分析 |
5.4 本章小结 |
结论 |
致谢 |
参考文献 |
攻读学位期间取得学术成果 |
(5)基于数据挖掘的工程造价指数研究(论文提纲范文)
中文摘要 Abstract 第1章 导论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 工程造价指数方面 |
1.2.2 数据挖掘方面 |
1.2.3 知识管理方面 |
1.2.4 研究现状评述 |
1.3 研究思路和研究方法 |
1.3.1 研究思路 |
1.3.2 研究技术路线 |
1.3.3 研究方法 |
1.4 拟解决的关键问题和创新点 |
1.4.1 研究的关键问题 |
1.4.2 论文创新点 第2章 理论综述 |
2.1 指数理论分析 |
2.1.1 指数的定义 |
2.1.2 指数的作用 |
2.1.3 统计指数体系及分类 |
2.1.4 指数的编制原则和方法 |
2.2 建筑工程造价指数的含义及其特性 |
2.2.1 建筑工程造价指数的概念 |
2.2.2 建筑工程造价指数包含的内容及其特征分析 |
2.3 数据挖掘理论 |
2.3.1 数据挖掘理论概述 |
2.3.2 数据预处理与数据仓库实现 |
2.3.3 数据挖掘的类型与方法 |
2.3.4 数据挖掘在工程造价指数信息化管理研究中的应用 |
2.4 知识管理理论 |
2.4.1 知识管理的定义 |
2.4.2 知识管理的流程 |
2.4.3 知识管理系统 |
2.4.4 知识管理理论在工程造价指数信息化管理研究中的应用 |
2.5 BP神经网络 |
2.5.1 BP神经网络概述 |
2.5.2 BP神经网络结构及算法 |
2.5.3 BP神经网络的结构设计与参数选取 |
2.5.4 BP神经网络的性能分析 |
2.6 遗传算法 |
2.6.1 遗传算法的基本概述 |
2.6.2 遗传算法的基础理论 |
2.6.3 遗传算法的特点 第3章 建筑工程造价指数测算体系的建立 |
3.1 国内外建筑工程造价指数体系 |
3.1.1 国外发展现状 |
3.1.2 国内发展现状 |
3.2 建筑工程造价指数典型工程及投入品的选择 |
3.3 建筑工程造价指数权数及基期的选择 |
3.4 建筑工程造价指数编制范围的确定 第4章 典型建筑工程样本信息筛选模型研究 |
4.1 样本信息筛选的意义及目标 |
4.2 样本信息数据筛选模型选择与建立 |
4.2.1 专家评选法 |
4.2.2 灰色关联法 |
4.2.3 T检验法 |
4.2.4 “决策树”模型 |
4.2.5 多元线性回归模型 |
4.3 样本筛选模型的实证检验 |
4.3.1 分类变量标准化 |
4.3.2 t检验结果分析 |
4.3.3 构建决策树模型 第5章 建筑工程造价指数测算模型研究 |
5.1 建筑工程造价指数测算信息的采集 |
5.1.1 造价信息采集-发布流程 |
5.1.2 工程造价信息采集方式 |
5.1.3 建筑工程造价信息采集表设计 |
5.1.4 采集表说明 |
5.2 建筑工程造价指数的测算方法 |
5.2.1 建筑工程造价指数测算基础概述 |
5.2.2 建筑工程造价指数测算模型 |
5.3 建筑工程造价指数调整 |
5.3.1 基于2013 费用定额的造价重组法 |
5.3.2 基于典型工程的调值系数法 第6章 建筑工程造价指数预测模型研究 |
6.1 造价指数预测的意义 |
6.2 造价指数预测内容的确定 |
6.3 造价指数预测模型的建立 |
6.3.1 造价指数预测模型的选择 |
6.3.2 多元线性回归模型预测 |
6.3.3 改进神经网络模型预测 第7章 建筑工程造价指数信息平台设计 |
7.1 建筑工程造价指数信息平台设计规划 |
7.1.1 测算平台建设目标 |
7.1.2 测算平台建设原则 |
7.2 建筑工程造价指数信息平台各模块功能分析 |
7.2.1 录入系统 |
7.2.2 发布系统 |
7.3 建筑工程造价指数信息平台操作设计 |
7.3.1 平台操作组织范围 |
7.3.2 数据采集系统流程及主要操作 |
7.3.3 加工计算流程及主要操作 |
7.3.4 网站发布系统查询流程及主要操作 |
7.4 建筑工程造价指数信息平台系统价值 第8章 结论与展望 |
8.1 结论 |
8.2 展望 致谢 参考文献 附录 A |
A1 博士期间参与的主要科研项目 |
A2 博士期间发表的学术论文 附录 B |
附表1 手动录入采集表 |
附表2 自动录入采集表 |
附表3 发布表 |
附表4 工程项目特征表 |
附表5 计量单位取定表 |
(6)贝叶斯网络应用基础研究(论文提纲范文)
提要 |
第一章 绪论 |
1.1 引言 |
1.2 研究背景与意义 |
1.3 数据挖掘概述 |
1.3.1 数据挖掘产生的背景 |
1.3.2 数据挖掘与KDD |
1.3.3 数据挖掘的类型与方法 |
1.3.4 数据挖掘的发展历程及国内外现状 |
1.3.5 数据挖掘的应用 |
1.3.6 数据挖掘标准 |
1.3.7 数据挖掘存在的问题 |
1.4 图形模式概述 |
1.4.1 图形模式的发展 |
1.4.2 贝叶斯网络发展概述 |
1.4.3 贝叶斯网络国内外应用研究情况 |
1.5 本文研究的内容与组织 |
1.5.1 本文研究的主要内容 |
1.5.2 本文的组织 |
第二章 贝叶斯网络结构学习 |
2.1 引言 |
2.2 贝叶斯网络的基础理论 |
2.2.1 概率论的基础知识 |
2.2.2 图论的基础知识 |
2.2.3 信息理论 |
2.2.4 d-seperation 标准 |
2.3 贝叶斯网络的表示与构成 |
2.3.1 贝叶斯网络定义 |
2.3.2 贝叶斯网络构成 |
2.4 贝叶斯网络结构学习 |
2.4.1 贝叶斯网络结构学习的内容 |
2.4.2 贝叶斯网络结构学习的方法 |
2.4.3 贝叶斯网络模型的推理 |
2.4.4 贝叶斯网络学习算法的准确性评价方法 |
2.5 基于预测能力的连续贝叶斯网络结构学习 |
2.5.1 变量之间的预测能力 |
2.5.2 基于预测能力的连续贝叶斯网络结构的实现 |
2.5.3 实验结果分析 |
2.6 小结 |
第三章 基于遗传算法的贝叶斯网络分类器 |
3.1 引言 |
3.2 遗传算法基础 |
3.2.1 遗传算法描述及其理论基础 |
3.2.2 遗传算法求解过程 |
3.2.3 遗传算法的基本实现技术 |
3.3 贝叶斯网络分类器 |
3.3.1 贝叶斯网络分类器概述 |
3.3.2 几种典型的贝叶斯网络分类器 |
3.4 基于遗传算法的贝叶斯网络分类器学习算法 |
3.4.1 GBAN 算法的设计 |
3.4.2 GBAN 算法描述 |
3.4.3 GBAN 算法分析 |
3.4.4 参数估计 |
3.4.5 分类器性能评价 |
3.5 实验结果分析 |
3.6 小结 |
第四章 多模块集成式贝叶斯网络分类器 |
4.1 引言 |
4.2 基于信息熵的属性集分割 |
4.2.1 FDBE 算法设计 |
4.2.2 FDBE 算法描述 |
4.2.3 FDBE 算法分析 |
4.2.4 实验结果分析 |
4.3 混合式朴素贝叶斯网络分类器 |
4.3.1 MNB 分类器的提出 |
4.3.2 MNB 分类器设计 |
4.3.3 MNB 分类器性能分析 |
4.4 多模块集成式贝叶斯网络分类器模型 |
4.4.1 MSIB 分类器的提出 |
4.2.2 MSIB 分类器的理论依据 |
4.2.3 MSIB 分类器的设计 |
4.2.4 MSIB 分类器性能分析 |
4.2.5 分类器模型实现中的有关问题 |
4.5 实验结果分析 |
4.6 小结 |
第五章 贝叶斯网络分类器在医学图像处理中的应用 |
5.1 引言 |
5.2 基于贝叶斯方法的尿沉渣图像分割 |
5.2.1 图像预处理 |
5.2.2 图像分割 |
5.2.3 应用贝叶斯方法将单连通区域进行合并 |
5.2.4 去除信息不全的目标体 |
5.2.5 实验结果分析 |
5.3 基于贝叶斯网络分类器的图像分类 |
5.3.1 图像的特征提取 |
5.3.2 图像的特征选择 |
5.3.3 贝叶斯分类器设计 |
5.3.4 实验结果分析 |
5.4 小结 |
第六章 数据挖掘可视化 |
6.1 引言 |
6.2 数据可视化 |
6.2.1 可视化的数据类型 |
6.2.2 数据可视化 |
6.3 数据挖掘过程可视化 |
6.3.1 数据挖掘算法的选择和使用 |
6.3.2 算法模型节点的拖拽和工作流的建立 |
6.4 数据挖掘结果可视化 |
6.4.1 聚类结果可视化 |
6.4.2 回归结果可视化 |
6.4.3 决策树结果可视化 |
6.3.4 朴素贝叶斯网络分类器结果可视化 |
6.5 小结 |
第七章 总结与展望 |
参考文献 |
攻读博士学位期间的发表的论文及参加的科研项目 |
摘要 |
Abstract |
致谢 |
(7)分类关联规则归纳算法及应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 本课题的研究背景及意义 |
1.1.1 数据挖掘的兴起 |
1.1.2 数据挖掘的理论与技术 |
1.1.3 数据挖掘的应用领域与发展前景 |
1.2 与本课题相关的国内外研究进展 |
1.2.1 关联规则挖掘算法综述 |
1.2.2 分类关联规则归纳算法研究 |
1.2.3 关联分类技术的发展与研究现状 |
1.3 本课题研究的目标与内容 |
1.3.1 研究的目标 |
1.3.2 研究的内容 |
1.4 本课题解决的关键问题 |
1.5 本文的组织 |
第二章 有关的术语及形式化描述 |
2.1 基本术语 |
2.2 关联规则与分类关联规则描述 |
2.3 分类问题描述 |
2.3.1 度量分类模型的指标体系 |
2.3.2 分类规则质量评价函数 |
2.3.3 分类模型的评价方法 |
2.4 分类基准算法C4.5 |
2.5 分类关联规则的搜索空间分析 |
2.5.1 搜索全部关联规则属于NP 难解问题 |
2.5.2 分类关联规则的搜索空间 |
2.6 小结 |
第三章 分类关联规则的演化搜索研究 |
3.1 研究的目的 |
3.2 遗传算法 |
3.2.1 遗传算法的出现和发展 |
3.2.2 遗传算法的原理 |
3.2.3 遗传算法的特点 |
3.2.4 遗传算法求解问题的步骤 |
3.2.5 基于遗传算法的机器学习 |
3.3 设计搜索分类关联规则的遗传算法 |
3.3.1 分类关联规则的染色体编码 |
3.3.2 分类关联规则的演化方式 |
3.3.3 基于遗传算法的关联分类 |
3.4 影响规则演化搜索的主要因素 |
3.4.1 适应值函数 |
3.4.2 属性选择概率 |
3.4.3 遗传算子 |
3.5 适应值函数的理论研究 |
3.5.1 混淆矩阵与关联规则度量的关系 |
3.5.2 分类规则的演化机理研究 |
3.5.3 一个规则演化实例 |
3.6 实验结果及分析 |
3.6.1 实验条件 |
3.6.2 单因素实验 |
3.6.3 综合实验 |
3.7 小结 |
第四章 原子型分类关联规则导向的知识要点发现 |
4.1 研究的动机 |
4.2 基本原理 |
4.2.1 发现知识要点的机理 |
4.2.2 复合规则支持度和置信度边界值计算 |
4.2.3 数据结构 |
4.2.4 挖掘知识要点的步骤 |
4.3 算法设计 |
4.4 算法的复杂度分析 |
4.5 知识要点在分类中的应用 |
4.5.1 基于知识要点的分类步骤 |
4.5.2 分类规则的选择 |
4.6 实验结果及分析 |
4.6.1 实验条件 |
4.6.2 知识要点的发现 |
4.6.3 基于知识要点的部分分类 |
4.6.4 从部分分类到完全分类 |
4.7 小结 |
第五章 原子关联规则分类算法CAAR |
5.1 研究背景 |
5.2 原子关联规则分类原理 |
5.2.1 CAAR 算法的分类原理 |
5.2.2 CAAR 算法与CBA 的分类机理比较 |
5.2.3 原子关联规则分类的理论计算 |
5.2.4 CAAR 算法的分类步骤 |
5.2.5 CAAR 分类的一个范例及演示 |
5.2.6 CAAR 与1R 算法的比较 |
5.3 算法设计 |
5.3.1 CAAR 分类算法设计 |
5.3.2 CAAR 的强原子规则生成算法 |
5.3.3 CAAR 的冗余规则剪枝函数 |
5.4 CAAR 的分类能力度量 |
5.4.1 P 型和N 型数据集 |
5.4.2 提高 CAAR 的适应能力 |
5.5 算法分析 |
5.5.1 CAAR 算法的时间效率分析 |
5.5.2 CAAR 算法的空间效率分析 |
5.5.3 基于χ2 检验的鲁棒性分析 |
5.6 实验结果及分析 |
5.6.1 实验条件 |
5.6.2 剖析 CAAR 的分类过程 |
5.6.3 P 型和N 型数据集的划分 |
5.6.4 CAAR 的分类性能实验 |
5.6.5 CAAR 的鲁棒性实验 |
5.7 CAAR 在图像内容分类学习中的应用 |
5.7.1 基于关联规则的图像处理技术 |
5.7.2 图像数据集 |
5.7.3 基于 CAAR 的图像内容关联分类实验 |
5.8 CAAR 在大规模数据挖掘中的应用 |
5.8.1 大规模数据挖掘技术 |
5.8.2 基于 Multi-Agents 的分布式关联分类 |
5.8.3 基于 CAAR 的大规模数据挖掘的特点 |
5.8.4 实验结果及分析 |
5.9 小结 |
结束语 |
参考文献 |
攻读博士学位期间发表的与学位论文内容相关的学术论文 |
攻读博士学位期间主要参与的研究项目 |
附录:本论文常用符号对照表 |
致谢 |
(9)基于数据驱动的杭州萧山区公共中心体系认知与优化研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景 |
1.1.1 社会主要矛盾发生转变带来的新需求 |
1.1.2 公共服务规划地位提升形成的新定位 |
1.1.3 数据科学革命引领的新视野 |
1.1.4 国土空间规划体系下的新要求 |
1.2 研究目的与意义 |
1.2.1 主要研究目的 |
1.2.2 研究意义 |
1.3 相关概念界定 |
1.3.1 数据驱动 |
1.3.2 公共中心体系 |
1.4 研究内容与范围 |
1.4.1 研究主要内容 |
1.4.2 研究范围 |
1.5 研究方法 |
1.5.1 定性研究方法 |
1.5.2 定量分析方法 |
1.6 技术路线与章节安排 |
1.6.1 研究技术路线 |
1.6.2 章节组织 |
2 相关研究综述 |
2.1 研究的理论基础 |
2.1.1 城市形态发展与演化理论中的城市中心 |
2.1.2 城市空间组织理论中的城市中心 |
2.2 城市公共中心体系的识别 |
2.2.1 城市中心识别数据源 |
2.2.2 城市中心及其体系识别方法 |
2.3 城市公共中心体系的演变趋势与影响要素 |
2.3.1 城市多中心结构的实践与效能 |
2.3.2 公共中心体系的发展趋势 |
2.3.3 公共中心的形成机制与影响要素 |
2.4 公共中心与城市服务的空间布局优化 |
2.4.1 公共中心的布局优化 |
2.4.2 各类城市服务的布局优化 |
2.5 借鉴与启示 |
2.5.1 研究借鉴 |
2.5.2 研究启示 |
3 研究框架 |
3.1 数据驱动的发展脉络 |
3.1.1 大数据的发展及利用 |
3.1.2 机器学习发展历程 |
3.1.3 数据驱动在城乡规划中的应用 |
3.2 表征学习与城市空间科学互动的研究理念 |
3.2.1 表征学习的应用难点 |
3.2.2 分析框架的基本流程 |
3.2.3 数据分析的基本逻辑 |
3.2.4 数据获取的基本原则 |
3.3 数据驱动的公共中心体系研究框架 |
3.3.1 研究主要问题难点 |
3.3.2 测度识别的理论先验 |
3.3.3 影响要素分析的理论先验 |
3.3.4 优化策略的理论先验 |
3.4 本章小结 |
4 萧山区公共中心体系识别与空间特征 |
4.1 供需视角下的中心度评级体系与数据基础 |
4.1.1 中心度的评价 |
4.1.2 中心度计算的数据基础 |
4.2 中心度计算结果与空间特征 |
4.2.1 指标权重计算 |
4.2.2 设施聚合度:多中心结构展现 |
4.2.3 设施规模度:中心集聚特征显着 |
4.2.4 设施使用度:就近满足的网络结构 |
4.2.5 中心度:内聚外散,北密南疏的整体格局 |
4.3 识别与特征分析 |
4.3.1 基于密度阈值的公共中心识别流程设计 |
4.3.2 公共中心的空间分布特征 |
4.3.3 公共中心的体系结构特征 |
4.3.4 功能关联特征 |
4.4 本章小结 |
5 萧山区公共中心体系的发展程度与影响要素 |
5.1 公共中心体系发展程度的表征 |
5.1.1 公共中心体系的总能级 |
5.1.2 公共中心体系的总数量 |
5.1.3 公共中心体系的均衡度 |
5.2 基于集成学习的中心度表征模型 |
5.2.1 特征构造与模型设计 |
5.2.2 模型精度检验方法 |
5.2.3 模型训练与精度表现 |
5.3 基于集成模型省域区县中心度拟合 |
5.3.1 中心度的分块拟合 |
5.3.2 中心体系的采样结果 |
5.3.3 省域区县公共中心体系表征 |
5.4 常态化影响要素分析 |
5.4.1 公共中心体系常态化影响要素的选择 |
5.4.2 中心度的多元线性回归 |
5.4.3 公共中心发展程度的聚类及其特征 |
5.4.4 公共中心体系的演化趋势分析 |
5.4.5 常态化影响要素构成与影响机制构建 |
5.5 萧山区公共中心体系的非常态化影响要素 |
5.5.1 公共服务设施配置 |
5.5.2 基础设施建设 |
5.5.3 城市空间调整 |
5.5.4 经济发展 |
5.5.5 城市品牌价值提升 |
5.5.6 城市治理能力提升 |
5.6 本章小结 |
6 萧山区公共中心体系布局优化 |
6.1 人口与公共中心体系布局的空间关联 |
6.1.1 基于人口的公共中心体系布局先验 |
6.1.2 人口分布的空间特征与空间关联 |
6.1.3 人口与公共中心的空间关联模型构造 |
6.1.4 模型结果与分析 |
6.1.5 人口与公共中心体系关联中的主要特征 |
6.2 公共中心优化目标 |
6.2.1 经验目标 |
6.2.2 价值目标 |
6.2.3 规律原则 |
6.3 公共中心体系布局优化指引 |
6.3.1 空间优化指引 |
6.3.2 服务优化策略 |
6.4 本章小结 |
7 结论与展望 |
7.1 研究主要结论 |
7.1.1 公共中心识别与空间特征分析 |
7.1.2 公共中心的影响要素与机制分析 |
7.1.3 公共中心的优化指引 |
7.2 主要创新之处 |
7.2.1 引入了多源数据与算法适应的公共中心识别系统 |
7.2.2 尝试了表征数据与理论结合的影响要素解释机制 |
7.2.3 构建了集成框架与机制协同的目标估计监督模型 |
7.3 研究不足与展望 |
7.3.1 研究内容的深入挖掘 |
7.3.2 研究理论的深化演绎 |
7.3.3 数据技术的更新适应 |
参考文献 |
附录 |
附录1 浙江省区县中心体系发展程度影响要素 |
附录2 集成树分类规则 |
附录3 网络调查问卷中公共中心体系相关问题 |
个人简介 |
(10)基于群智能算法优化的入侵检测模型研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 入侵检测概述 |
1.3 国内外研究现状 |
1.3.1 典型入侵检测方法 |
1.3.2 基于群智能的入侵检测研究方案 |
1.4 本文研究思路和工作创新 |
1.4.1 本文研究思路 |
1.4.2 工作创新 |
1.5 论文的组织结构 |
1.6 本章小结 |
第二章 相关背景知识 |
2.1 超启发式算法 |
2.1.1 粒子群优化算法 |
2.1.2 蝙蝠算法 |
2.1.3 灰狼优化算法 |
2.1.4 差分进化算法 |
2.2 无免费午餐定理 |
2.3 核极限学习机的演进 |
2.3.1 单隐层前馈神经网络 |
2.3.2 极限学习机 |
2.3.3 核极限学习机 |
2.4 本章小结 |
第三章 基于PSO的核极限学习机入侵检测模型 |
3.1 引言 |
3.2 基于PSO的核极限学习机建模过程 |
3.3 参数优化和特征选择技术 |
3.3.1 基于网格搜索的参数优化 |
3.3.2 基于遗传算法的参数优化和特征选择 |
3.4 仿真实验与结果分析 |
3.4.1 数据集及实验环境 |
3.4.2 评价指标 |
3.4.3 参数对核极限学习机分类器的影响 |
3.4.4 适应函数中权重系数选取 |
3.4.5 实验结果分析 |
3.5 本章小结 |
第四章 基于BA的集成剪枝入侵检测模型 |
4.1 引言 |
4.2 投票极限学习机集成方案 |
4.2.1 随机子空间 |
4.2.2 基于随机子空间的投票极限学习机集成方法 |
4.3 基于BA的集成剪枝过程 |
4.3.1 集成学习方法中的多样性度量 |
4.3.2 集成剪枝过程 |
4.3.3 复杂度分析 |
4.4 仿真实验与结果分析 |
4.4.1 评价指标 |
4.4.2 确定隐藏层节点个数和随机子空间维数 |
4.4.3 基本ELM、VELM和Pruning VELM技术比较 |
4.4.4 讨论 |
4.5 本章小结 |
第五章 基于超启发算法的多核极限学习机入侵检测模型 |
5.1 引言 |
5.2 ReliefF技术 |
5.3 基于超启发算法的多核极限学习机模型 |
5.3.1 多核极限学习机建模过程 |
5.3.2 复杂度分析 |
5.4 仿真实验与结果分析 |
5.4.1 实验描述 |
5.4.2 评价指标 |
5.4.3 实验结果及分析 |
5.5 本章小结 |
第六章 工作总结与展望 |
6.1 工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
攻读博士学位期间的成果 |
攻读博士学位期间参与的科研项目 |
四、遗传算法在数据挖掘多种分类器合并中的应用(论文参考文献)
- [1]基于多目标进化学习的生物数据分析方法研究[D]. 王云鹤. 东北师范大学, 2021(09)
- [2]基于GA的CART决策树改进算法与应用[D]. 刘亚芬. 广州大学, 2020(02)
- [3]面向不平衡数据的集成学习算法研究[D]. 张贞梅. 山东科技大学, 2019
- [4]基于粗糙集的随机森林算法优化研究[D]. 邢彪. 成都理工大学, 2019(02)
- [5]基于数据挖掘的工程造价指数研究[D]. 谢莎莎. 武汉理工大学, 2018(08)
- [6]贝叶斯网络应用基础研究[D]. 董立岩. 吉林大学, 2007(03)
- [7]分类关联规则归纳算法及应用研究[D]. 许孝元. 华南理工大学, 2005(07)
- [8]遗传算法在数据挖掘多种分类器合并中的应用[J]. 任江洪,曹长修. 微机发展, 2004(01)
- [9]基于数据驱动的杭州萧山区公共中心体系认知与优化研究[D]. 阮一晨. 浙江大学, 2021(01)
- [10]基于群智能算法优化的入侵检测模型研究[D]. 沈焱萍. 北京邮电大学, 2021(01)