一、基于语境关联的Web信息过滤算法(论文文献综述)
贾丙静[1](2021)在《基于表示学习的实体识别和链接关键技术研究》文中指出大数据时代,每天都会产生大量的非结构化文本数据,实体识别和链接可以从文本中识别出实体,并对应到现实世界中客观存在的事物,帮助计算机正确的理解语义。文本内容的表达粒度不同,有细粒度的词、短语和句子,有粗粒度的段落文本,表示学习可以将不同粒度的语义特征抽取出来,提高实体识别和链接的效果。由于文本数据的来源多样,规模大,表达不规范等特点,实体识别和链接仍然面临以下几方面的挑战:(1)如何提高实体识别过程中的字表示;(2)如何解决实体链接时同一文档中指称上下文冲突;(3)如何融合多粒度信息表示指称和候选实体;(4)如何充分利用候选实体之间的关系提高链接效果。针对上述挑战,本文从基于增强字表示的实体识别、基于交互式句子表示的实体链接、基于文档层次语义表示的实体链接和基于图表示的实体链接四个方面提出了相应的解决方法。本文主要贡献如下:(1)基于增强字表示的中文实体识别。针对现有的中文实体识别方法只关注现代文,受分词和词典的影响比较大,基于字表示的识别方法包含的语义信息不全面的问题,提出基于增强字表示的中文实体识别算法(ECEM),该算法将汉字结构中蕴含的形态特征与上下文语义信息相结合,考虑到汉字既能表形又能表意的特点,探索如何提高汉字向量的表示。其中,上下文语义弥补了笔画向量中缺失的有用的序列信息。在古文和现代简历数据上的实验表明,增强字表示可以提高实体识别的效果。(2)基于交互式句子表示的实体链接。针对知识图谱数据不完备和同一指称在一篇文档中出现多次带来的上下文冲突问题,提出了一种新的基于交互式句子表示的实体链接算法(ELSR)。利用孪生网络来减少句子对输入和表示过程中的差异,获取句子的表层语义。通过软注意力来对齐句子,筛选对链接有用的关键语义特征,将句子对之间的差异性和相似性融入到句子交互表示模型中,得到的句子表示具有更深层次的语义特征。实验结果表明,基于交互式句子表示的实体链接算法在较少特征的情况下能获得比基准算法更好的链接结果。(3)基于文档层次语义表示的实体链接。针对现有实体链接方法不能从多粒度信息中抽取关键语义特征来表示指称和候选实体问题,提出了基于文档层次语义表示的实体链接算法(HSSMGF)。通过多层次注意力网络对多源多层次的信息筛选、融合和联合推理,缩减不同特征之间的语义鸿沟。提出的基于监督学习削减候选实体集大小的方法能有效过滤噪音候选,在保证候选实体召回率的情况下提高模型整体执行效率。构建了依赖无歧义候选实体实现的全局语义特征,并联合局部特征预测候选实体最后的得分。通过实验验证,该方法从多角度多层次捕获的语义特征有效提高了链接效果。(4)基于图表示的实体链接。针对基于图结构的实体链接方法在图不连通孤立节点比较多时,对候选实体排序结果不唯一的问题,提出了基于LeaderRank的实体链接算法(LEPC),通过在原有图中添加全局节点来调解节点之间的概率分布,构建全局语义关联度来修正排序结果。针对不能充分利用图中邻居节点信息和噪音过多问题,提出了基于图卷积和上下文语义关联的实体链接算法(GBEL),通过不断的迭代、聚集邻居节点信息来获得候选实体的语义向量,设计的上下文关联度模型实现了指称和候选实体之间深层次语义度量。实验结果表明,与对比方法相比本文提出的算法可以充分挖掘图结构的拓扑信息提高实体链接的效果。本文在表示学习的基础上,对实体识别和链接中的关键技术问题开展研究,经过实验验证,所提出的方法和模型都取得了比较好的效果,提高了实体识别和链接的准确性。
钱镇宇[2](2021)在《基于BERT的句子简化方法研究与实现》文中研究表明文本简化是在保证句意不变的情况下,将复杂的文本转化为简单易懂的文本,可以服务于语言识字率低、认知或语言障碍的人,还可以部署到许多文本内容理解的自然语言处理系统。针对该任务,更多采用的是有监督的基于神经网络的方法,但是这些方法都需大量的标注数据集上进行训练,而许多实际场景缺乏标注数据集。因此,在缺少足够的标注语料情况下,人们迫切需要开发有效的无监督的学习方法,解决文本简化方法对标注数据集的依赖问题。考虑到预训练语言模型在许多自然语言处理领域取得了巨大的突破,本文研究如何利用预训练语言模型进行无监督的句子简化。本文的研究内容如下:(1)为了解决现有方法在词语简化时忽略了上下文的作用,提出了一种基于BERT的词语简化方法。该方法首次利用BERT的掩码语言模型进行候选替代词的生成,充分考虑了复杂词的上下文信息。该方法在候选词排序过程中,引入了多个高效的特征,充分地考虑候选词本身的简单性和替代句子的流畅程度。通过实验进行对比,该方法在性能上取得了巨大的突破。(2)为了解决现有方法对高质量训练语料的依赖以及简化不可控的问题,提出了一种基于BERT的迭代式编辑的句子简化方法。该方法利用BERT依次进行删除、填补和替换操作,具有很强的解释性和可控性。该方法优于无监督的句子简化方法,甚至高于一些有监督的学习方法。(3)设计并实现了一个基于Web的句子简化原型系统。该系统可以进行中文和英文两种语言的文本简化。采用类似百度翻译的界面,直接对输出的文本进行简化,并展示了具体简化的内容。该系统包括三个模块,系统配置模块、句子预处理模块和句子简化模块。
刘培[3](2020)在《基于大数据的网络空间主流意识形态传播研究》文中指出信息技术、互联网与计算机等技术建构的网络空间成为与现实社会空间并存的第二空间。但网络空间不是一成不变的,而是在技术发展中不断演进的。随着大数据技术在互联网领域应用的广泛推进,借助于大数据可以量化一切的强大计算能力,网络空间确已进入到一个高度依赖数据和算法的阶段,形成了新型的“大数据-网络空间”。“大数据-网络空间”是在大数据技术深度介入下形成、以数据生态为核心、以算法为主导的、虚实深度交融的网络空间。它不仅是世界的数据化再现,而且是大数据算法与人的意向性协同敞开的网络空间。作为大数据技术形塑的空间,“大数据-网络空间”不是固态的、稳定的、不可更改的,而是可以被技术发展与各类媒体、政党、国家等主体意愿建造、编制和构筑,即“大数据-网络空间”具有可塑造性。“大数据-网络空间”作为各种意识形态和社会思潮的传播载体和场域,同样也为主流意识形态传播带来了机遇与挑战。一方面,“大数据-网络空间”为主流意识形态的传播带来了受众、传播内容、传播方式与传播效果的可量化与可计算,实现了精准化和个性化传播。另一方面,“大数据-网络空间”亦为主流意识形态传播带来挑战,主要包括:大数据技术理性张扬下传播者经验的下降与自身的隐匿、数据化传播受众画像的失真、假新闻深度转向与传播生态的后真相化、资本逻辑与算法逻辑对主流意识形态传播逻辑的干扰。面对这些挑战,已有相关研究往往集中在大数据技术薄弱、西方的数据霸权和意识形态渗透方式的多样化等方面进行探讨,而忽视了“大数据-网络空间”自身的可塑造性。“大数据-网络空间”与主流意识形态传播的关系不仅仅是大数据以工具性载体助推网络空间主流意识形态的传播,更重要的是“大数据-网络空间”是被技术和各种意识形态共同塑造与建构的。由此,主流意识形态的传播必然要求塑造“大数据-网络空间”,以提升主流意识形态的传播能力。如何塑造“大数据-网络空间”以提升主流意识形态传播能力成为一个重要问题。首先,要规避算法主导的传播方式,建构基于传播者与受众能动性的个性化传播,从而积极地影响、修正甚至改变算法推荐主导的传播内容,以塑造主流意识形态在“大数据-网络空间”的核心地位。其次,以主流价值导向驾驭算法从而建构“主流价值算法”。主流价值算法通过纠正流量至上的价值导向以消解各种社会思潮和意识形态对主流意识形态传播空间的挤压,从根本上塑造一个正能量的“大数据-网络空间”。再次,展开数据素养和政治素养的双维教育。通过数据素养教育提升传播者和传播受众的数据素养,同时强化大数据技术人员的意识形态教育。最后,推动大数据检测技术与平台监管齐头并进。积极研发大数据检测技术,以检测、识别和过滤虚假信息。且按照精细化、区别化的原则进行分类分级地监管各类传播媒体与平台,健全法律与行业规范的双重规制,从而有力推进“大数据-网络空间”主流意识形态的传播。
简文军[4](2020)在《基于深度学习的产品细粒度意见挖掘研究与应用》文中指出随着信息技术的快速发展,用户生成内容在互联网上迎来了爆炸式的增长。对于电商平台来说,海量的用户生成内容便是消费者对产品的评价信息,这些信息中包含着消费者对产品的意见信息及情感态度。使用自然语言处理技术有效地挖掘出产品评价中的细粒度意见信息,这将有利于商家了解用户,从而更好地完善自身产品;也有利于消费者了解产品,从而更好地挑选自身喜欢的产品。本文基于深度学习的方法,围绕面向产品评价的细粒度意见挖掘中评价要素的抽取和细粒度情感极性分析两个任务进行研究,以挖掘出产品细粒度的意见信息。在评价要素抽取方面,针对缺乏考虑评价对象与评价词在深度语义层面上的搭配关系的问题,本文构建了基于预训练模型的词对关联度模型,再结合评价要素双向传播迭代识别框架,提出了基于BERT的评价要素双向迭代识别算法。该方法在抽取化妆品和笔记本电脑产品评价要素的实验中,精准率和召回率优于以往基于依存句法的双向传播迭代识别算法;在对评价要素中低频词的召回策略中,提出使用字词混合向量语义相似度召回方法,该方法考虑分词工具带来的分词误差因素,提升了召回的评价要素准确度。在细粒度情感极性分析方面,针对目标评价维度文本与产品评价文本语义交互不足的问题,本文设计了基于文本匹配的细粒度情感极性分类模型。该模型从文本匹配的角度进行设计,强化了目标评价维度文本与产品评价文本的交互过程,提升了细粒度情感极性分类的准确度。最后,设计了面向产品评价的细粒度意见挖掘系统,并将本文提出的评价要素抽取算法与细粒度情感极性分类算法应用于系统中,从而实现了对产品细粒度意见挖掘的功能。
周渝凯[5](2020)在《移动应用暗语发现系统的设计与实现》文中研究表明近年来,中国移动网络市场越来越大,这使得隐匿其中的有害应用也越来越多。提供违规功能的有害应用为了躲避审查,其应用的描述内容常为正常文本,仅从描述信息无法判断是否是有害应用,但通过查看有害应用评论信息中的某些暗语可以发现其中端倪,因此,需要对中国移动应用市场的应用文本进行仔细研究。但由于不能及时发现和了解移动应用暗语,极大地影响了网络安全员对应用的文本语料分析。研究发现,移动应用暗语主要是由目前已被词典收录的已知词语组成,这些已知词语在某些语境中表达出与其本身正常含义不同的某种特殊含义。在自然语言处理领域,对于一词多义的词语,可以通过词义消歧(WSD)的方法来获得词语在某一语境下所表达的正确含义。但目前,词义消歧(WSD)的方法只能对已收录的词义进行消歧,不能对暗语这种未收录的词义进行消歧,从而不能用于中文中暗语发现。对于以上问题,本篇文章提出针对移动应用中文暗语的发现方法并设计出一个移动应用中文暗语及有害应用发现系统,首先针对移动应用中文语料的特点进行多重预处理,并基于改进的Word2Vec模型对暗语语料中的词义是否是暗语语义进行正确的消歧,从而发现暗语,然后通过训练GloVe模型来对暗语进行辅助理解,最后将暗语作为新的文本特征用作有害应用的发现。本文具体研究工作如下:(1)结合语料数据特点,研究现有的新词发现算法,选择合适的新词发现算法对实验数据进行处理,来提升对语料分词的准确度,从而提升词向量训练质量,增加暗语发现数量。(2)提出基于改进的Word2Vec模型的移动应用中文暗语词义消歧方法,根据数据特点提出一种词向量丰富度误差优化方法,设计暗语发现系统,实现对中文暗语的发现,并通过GloVe模型设计暗语语义辅助释义模块,对暗语辅助释义。(3)将发现的暗语作为新的文本分类特征,选取合适的分类算法,设计并实现有害应用分类系统,实现通过应用的文本即可对应用是否属于有害应用进行预测,具有较高准确率。
李超[6](2020)在《基于UCL国家标准的智能化搜索引擎研究》文中研究说明随着互联网的迅速普及和数字信息的爆炸式增长,各种海量化、碎片化的内容不断涌现,如何从这些异构驳杂的数据中检索有效信息对于搜索引擎挑战巨大。以网页链接为中心的传统搜索引擎通过关键字匹配的方式从互联网中检索信息,然后返回给用户相关链接。这种方式不能准确理解用户搜索意图,且返回的结果过于单一,包含的语义信息不够丰富,需要用户做多次检索。为了改善这种搜索模式的弊端,基于知识的搜索引擎已引起了业界的广泛关注。基于知识的搜索引擎技术核心是构建知识图谱,目前知识图谱相关研究已取得一定进展。但其对知识表示的方式主要是以较为简单的三元组形式将结构化数据组织,富含的语义信息不够丰富。而统一内容标签(Uniform Content Label,UCL)可以将互联网上杂乱无序的异构内容进行有效聚合,能够对互联网内容中的丰富语义信息进行统一格式编码。因此如何充分利用UCL对互联网信息进行富语义矢量编码的优势,构建以知识为中心的智能化搜索引擎极具研究价值。为此,本文结合UCL的优势,构建UCL知识图谱(UCL Knowlegde Graph,UCLKG),并对智能化搜索相关技术进行研究。提出了基于语义环境相似度的实体消歧算法与基于表示学习和UCL语义感知的关系推理算法,实现UCL知识图谱(UCL Knowlegde Graph,UCLKG)的构建和更新。提出了针对搜索环境的动态主题挖掘算法DLDASE(Dynamic Latent Dirichlet Allocation for Search Environment)和基于SDP(Semantic Depency Parsing)依赖分析的查询式生成算法,提高搜索引擎对用户搜索意图识别和对知识语义解析的能力。本文的主要研究工作如下:(1)结合智能化搜索引擎的需求,针对如何将互联网中异构驳杂的数据进行语义关联的问题,提出了一种基于语义融合的UCL知识图谱构建方法。该方法首先解析Wikidata和百度百科离线语料库,并结合信息抽取工具抽取实体信息,完成基础知识库的构建;然后计算UCL中内容实体的语义权重,并借助实体消歧算法将UCL与基础实体库融合;最后提出基于表示学习和UCL语义感知的关系推理算法,实现UCL知识图谱的自动化更新。(2)针对传统搜索引擎不能有效识别用户意图且缺乏对内容的语义解析能力的问题,实现基于UCL的智能化搜索引擎,对其中涉及的关键技术进行研究。基于UCL的智能化搜索引擎主要从两方面对用户搜索信息进行处理。一是以用户兴趣为中心提供个性化搜索,提出了针对搜索环境的动态主题挖掘算法DLDASE,识别用户搜索意图,并结合用户意图和UCL文档的主题关联对搜索结果进行排序。二是以知识为中心提供内容语义解析服务,提出了基于SDP依赖分析的查询式生成算法将用户搜索的自然语言问句翻译为数据库查询语句,直接获取知识。(3)实现了智能化搜索引擎原型系统,并通过实验对其中涉及的相关算法进行验证。实验结果表明,相比于传统实体消歧算法,基于语义环境相似度的实体消歧算法消歧效果更好;相比于传统关系推理算法,基于表示学习和UCL语义感知的关系推理算法对“一对多”和“多对多”类型关系有更好的区分能力;相比于传统LDA算法,DLDASE算法更适合对在线语料进行动态主题挖掘;基于SDP分析的查询式生成算法对本文定义的四类基本问题的转换能力较好。
陶兴[7](2020)在《多源学术新媒体用户生成内容的知识聚合研究》文中研究说明随着信息经济迅猛发展,学术新媒体作为新型的网络学术知识平台逐渐受到科研工作者的关注,为知识信息获取、知识交流、知识传播等带来了改变。学术新媒体以学术微博、学术微信公众号、学术虚拟社区、学术APP等主要形式存在,具有平台类型多样、平台内容丰富、平台知识专业化等特点。为科研工作者提供了获取学术信息、分享学术成果、开展学术交流等活动的新途径。学术新媒体不再以文章、期刊论文等长文本形式作为知识推送的内容,学术用户作为学术新媒体环境中知识接受者与生产者两种身份并存,新媒体环境鼓励学术用户通过提问、回答与分享来自主产生新知识,创新了学术知识获取方式。随着新媒体环境的扩张,互联网中的用户生成内容呈现出了爆炸式增长,用户在搜寻知识过程中需要消耗大量的时间和精力去浏览与筛选知识内容。知识内容出现“知识过载”,用户陷入“知识迷航”,而学术新媒体中的用户生成知识内容也存在内容质量参差不齐,知识点碎片化分散,内容冗余等问题。同时不同学术新媒体平台间缺乏信息交流,单一平台内的知识无法及时完善与更新,导致用户须花费大量时间去浏览多平台内的知识,增加了获取知识的难度。如何对学术新媒体内用户生成内容进行知识的挖掘、组织和管理,创新学术新媒体的知识服务模式,为学术用户提供高质量知识服务内容,已成为学术新媒体发展面临的新问题。鉴于此,本文将知识聚合理论与方法引入到学术新媒体用户生成内容的知识聚合研究中,构建基于知识聚合的多源学术新媒体用户生成内容聚合机理,探讨了用户生成内容质量评测问题,提出了主题聚合与摘要生成两种用户生成内容知识聚合方法,设计了知识聚合精准推荐方案,并提出多源学术新媒体用户生成内容的知识聚合能力提升策略。本文主要开展了以下方面的研究:第一,构建多源学术新媒体用户生成内容的知识聚合机理。界定了学术新媒体用户生成内容的知识聚合内涵,即对新媒体平台用户生成内容中蕴含的知识进行有效组织,进而挖掘其内在知识的关联关系,为学术新媒体用户提供多源平台的知识聚合服务。划分了多源学术新媒体用户生成内容知识聚合类型,分别为:同型异源知识聚合、异型异源知识聚合、多语种知识聚合。将多源学术新媒体用户生成内容的知识聚合要素分为知识聚合主体、知识聚合客体、知识聚合内容、知识聚合环境、知识聚合技术等五个方面。从学术信息资源需求、学术创新环境、知识聚合主体收益、科技进步、多源学术资源等方面探讨了多源学术新媒体用户生成内容知识聚合的驱动力。从原理特点、作用方式等方面详细阐述了其影响知识聚合的原因。解读了多源学术新媒体知识聚合过程,分别为挖掘与解读用户需求,学术信息的数据处理,学术信息质量评测,知识发现与聚合,学术知识推荐。最后提出了多源学术新媒体用户生成内容的知识聚合机理模型,并从各要素间的关系与交互行为入手,绘制其实践应用中的具体过程图。第二,提出了学术新媒体用户生成内容的自动化质量评测方法。文本通过数据维度、情感极性、领域词汇等三方面考虑,建立学术用户生成内容自动化特征提取过程。再利用双层BI-GRU神经网络学习学术用户生成内容的特征属性。引入专业学术领域词典,优化词嵌入模型所生成的学术用户生成文本向量化表达。最终实现学术新媒体用户生成内容的质量评测,筛选出高质量的文本内容,为后续的多源学术新媒体用户生成内容知识聚合方法研究提供优质的数据基础。第三,基于主题生成的多源学术新媒体用户生成内容的知识聚合研究。提出基于混合神经网络BiLSTM-CNN-CRF和LDA主体概率模型的学术新媒体用户生成内容的知识主体聚合方法。利用混合神经网络分词法,对学术新媒体用户生成内容进行学习分词,然后将获取到的学术专业分词表输入到LDA主体概率模型中,生成多源学术新媒体平台的知识主题。从多个平台的生成主题中,证实了不同学术新媒体平台同类知识内容中存在较大的知识主题差异,在此基础上对知识主题进行融合,帮助学术新媒体用户能够从大规模用户生成知识内容中获取核心知识点,为学术新媒体用户提供了知识导航服务。第四,提出了多源学术新媒体用户生成内容的知识摘要生成方法。为实现多个学术新媒体平台中用户生成内容的知识概括性描述问题,提出基于Word2Vec模型和MMR算法的摘要生成方法。利用Word2Vec方法可以有效解决传统词向量表达方法忽略词语间语义联系的问题;利用MMR排序方法,对重要性程度高的摘要进行排序筛选,剔除重复度高的摘要句,同时保留重要性高的摘要句;利用专业领域词典,解决专业领域词无法识别的问题。通过对多个学术新媒体平台的用户生成内容进行聚合,帮助知识欠缺的平台弥补自身知识内容不足的问题,实现了学术新媒体环境整体知识内容的极大融合,为学术新媒体用户提供一个效率获取冗余用户生成内容中关键性知识的聚合服务。第五,提出了多源学术新媒体用户生成内容的知识聚合精准推荐方法。通过用户兴趣度值挖掘推荐项目和用户间的相似关系,将其作为用户对项目的推荐评分。通过传递相似度,实现多源学术新媒体平台间用户的相似度计算,进而建立起多源学术新媒体用户网络。最后通过项目推荐评分与用户传递性网络,构建学术新媒体用户生成内容的知识聚合精准推荐方法,为学术用户提供多源平台的学术知识与学术用户的双重精准推荐服务。
叶洪帆[8](2020)在《基于内容语义和网络结构的Web服务分类方法研究》文中认为随着互联网的蓬勃发展,Web服务数量迅速增加,Web服务发现成为了最具挑战性的任务之一。大量研究表明:从海量的Web服务数据中将功能相似的Web服务进行分类可以明显提升服务发现的效率。当前Web服务分类研究主要聚焦于对Web服务描述文本隐藏的内容语义信息或者Web服务描述文本中的网络结构信息分别进行独立挖掘。由于Web服务的功能描述文档的特征稀疏离散,目前许多模型无法对其进行良好建模,并挖掘其词序信息和上下文语境信息,从而影响了Web服务分类效果;很多研究工作亦未考虑到Web服务描述文档的单词与其本身之间隐含的网络结构信息;且很少有Web服务分类研究将Web服务描述文本的内容语义信息和网络结构信息融合起来综合考虑。本文聚焦Web服务描述文档的内容语义信息和网络结构信息,从不同角度选择合适的神经网络模型与表征模型针对Web服务描述文本进行深度挖掘,应用于Web服务分类,取得了较好的效果。本文所作出的主要贡献如下所述:1.针对Web服务描述文本篇幅较短、特征稀疏、信息量少等特点,本文提出了一种基于广度学习和Bi-LSTM模型的Web服务分类方法。首先,利用广度学习模型对Web服务描述文档中所有的离散特征进行组合并实现服务类别的广度预测,然后,使用BiLSTM模型深入挖掘出Web服务描述文档中词语的语序及上下文语境信息,用于实现Web服务类别的深度预测;最后,使用线性回归算法,整合Web服务类别的广度预测及深度预测结果,作为最终服务分类的结果。2.针对Web服务描述文本中的单词与描述文本本身之间所隐含的网络结构信息的深度挖掘问题,本文提出一种基于图卷积神经网络的Web服务分类方法。首先将Web服务描述文档作为基础语料库,构建一个基于单词共现和Web服务描述文档词关系的“单词&Web服务描述文档”异构图网络。在该异构图网络中,使用词频-逆文本频率计算Web服务描述文档节点和单词节点之间边的权重,采用点互信息计算不同单词节点之间边的权重。最后,面向“单词&Web服务描述文档”异构图网络,利用图卷积神经网络学习单词和Web服务描述文档的表征信息,将Web服务文档分类问题转化成节点分类问题。3.提出了一种将Web服务描述文本的内容语义信息和网络结构信息融为一体的Web服务分类方法。首先运用Doc2Vec算法深度挖掘Web服务描述文档的功能语义信息并得到其内容语义表征信息,然后使用LINE算法对利用Web服务描述文档和标签信息构建的Web服务网络进行嵌入并获得其网络结构表征,最后融合Web服务的内容语义信息和网络结构信息进行Web服务分类。该模型可以应用于Web服务发布中心从而实现高效的Web服务自动分类。
李旸[9](2020)在《面向数据特性的文本情感分析方法研究》文中研究指明社交媒体与电商平台为数以亿计的用户提供着便捷的工作、生活和社交娱乐服务的同时,也散布着海量的文本数据,其中,用户生成的文本数据中蕴含着丰富的情感信息。深入分析、挖掘这些数据中隐含的情感信息,服务于社会管理和商业运营,正是文本情感分析技术追求的目标。文本情感分析是指综合运用自然语言处理与机器学习等技术对文本中的情感信息进行抽取、处理、分析和推理的过程。社会媒体中的文本数据纷繁复杂,观察和统计表明,社会媒体数据具有:类别非平衡、标签数据缺乏、情感表达隐晦、情感载体多样等特性,这些数据特性给文本情感分析带来了巨大挑战。针对上述数据特性,本文旨在运用数据采样、半监督学习、嵌入表示、深度学习等技术,围绕文本情感分类、反问与反讽句识别、可解释推荐模型建立等问题,开展系统深入的研究,发展文本情感分析理论与方法。主要研究内容与创新点如下:(1)局部稠密下采样与全局再平衡的文本情感分类方法非平衡文本情感分类。社会媒体评论文本数据的情感类别非平衡性会导致分类模型的偏置问题,从而影响模型的分类效果。本文提出了一种局部稠密区域下采样与全局再平衡的文本情感分类方法(LDMRC+SS/RS)。该方法在局部稠密边界区域构造由少数类样本组成的无向完全图,通过裁剪距离其边最近的多数类样本点使局部平衡,设计了核心下采样算法LDMRC。在此基础上,使用SMOTE上采样(SS)或随机下采样(RS)进行数据的全局再平衡。在8个中英文非平衡数据集上的实验结果表明,LDMRC在各项评价指标上优于边界区域裁剪算法(BRC),LDMRC+SS/RS普遍优于LDMRC算法,验证了所提方法的有效性。(2)协同混合半监督文本情感分类方法标签数据不足条件下的文本情感分类。高质量标签数据的缺乏对监督学习形成严峻挑战。本文提出了一种协同混合半监督文本情感分类方法。该方法提出了样本簇相似性度量、样本关于学习器的不确定度和可靠度等样本特性度量的新概念。利用簇相似度结合聚类技术,给出了一种初始种子集选取方法,在一定程度上保证初始种子集与整体数据分布的一致性。提出的样本关于学习器的不确定度和可靠度等概念为伪标记样本选择提供度量依据,可保证训练数据集的扩展质量。设计的异质协同轮换迭代训练策略有利于构建更好的集成分类器。在8个中英文数据集上进行了一系列对比实验,验证了所提方法的有效性。(3)基于语言特征自动获取的反问句识别方法反问句识别。针对特征自动抽取问题,提出了一个基于双向长短期记忆网络(Bi-LSTM)和注意力机制的语言特征自动抽取模型(AutoF)该模型使用BiLSTM表示句子,再通过标签注意力机制,获取既能反映上下文信息又能刻画反问句特性的特征。针对反问句识别问题,提出了一个基于层叠注意力机制融合特征信息的反问句识别模型(AutoF+AOA)。该模型采用层叠注意力机制将目标句的特征序列信息融入目标句的表示中,用于反问句识别。在微博数据集上的多组对比实验表明,与现有方法相比,提出的方法可显着提升中文反问句识别的效果。(4)多信息融合表示的反讽句识别方法反讽句识别。针对显式特征抽取问题,利用基于BERT(Transformers的双向编码表示)与标签注意力联合作用的显式特征抽取模型。该模型利用BERT表示目标句,计算反讽标签对句子中token的注意力权重,然后选取注意力权重较大的词、短语、标点、符号(token)等作为显式特征。针对句内情感极性反转和上下文环境情感差异的信息,在对目标句及其上下文进行情感分类的基础上,提出了基于句子表示差的刻画方法。针对反讽句识别问题,提出了一种基于层叠注意力和向量拼接的信息融合方法。该方法融合了显示特征、词间关系、句内情感反转、环境情感差异多种信息的句子最终表示用于反讽句识别。在IAC、Reddit movies等数据集上的比较实验表明,提出的多信息融合表示的反讽句识别方法显着优于现有其他方法。(5)基于方面项情感分析的可解释推荐方法可解释性推荐。在产品评论数据中,方面项可以作为构建用户与产品间关系的媒介。针对方面项情感信息抽取问题,利用一种在BERT上构建的序列标注模型,自动获取评论数据的方面项情感信息,服务于后续的用户-产品关系建模。针对用户和产品的关系表示,定义了用户对方面项的偏好度、方面项对产品口碑的贡献度,用于从方面项的角度刻画用户兴趣和产品口碑,从而构建了基于用户-产品关系的关联二部图。为了增强推荐系统的推理能力,提出了基于方面项对用户(产品)的注意力机制的图神经网络更新策略。最后,以用户对产品的打分构造模型的损失函数,训练获得稳定的用户-产品关联二部图神经网络。在Restaurant数据集上的实验表明,基于方面项情感分析的可解释推荐模型,可充分利用产品评论数据中方面项的情感信息提升产品推荐的可解释性。
杨学科[10](2020)在《数字宪治主义研究》文中研究指明数字社会是我们正在经历且未来样态还不明确的人类社会发展阶段,相对传统的“土地”资源为主的农业社会、“化石”资源为支撑的工业社会,数字社会的资源基础变成了非消耗性、非实体性的数据和算法,数据和算法成为新的生产力,也成为新社会的问题之根。一般而言,算法问题主要体现在算法歧视、算法权力两方面。其中,算法歧视是指算法在编码、收集、选择或使用数据训练时,会出现直接或间接基于种族、肤色、性别、宗教、政治见解、民族、血统或社会出身等的区别、排斥或特惠的偏见现象。算法歧视产生原因主要在于内置性编码凝视,有限、不相关或不正确的训练数据,算法黑箱建模方法的歧视或三者的不同组合。在数字社会,算法权力成为一种新的权力形态。理解算法权力的中心不是在算法技术系统的力量,而是作为技术系统的算法映射到社会系统中的权力转化过程:决策算法化、算法法律化、权力微粒化,这对理解作为技术的算法系统如何具有社会权力(力量)更具实质性意义。对于数据问题而言,数据的内部问题主要是数据海量、数据安全、数据隐私、数据污染,外部问题主要是政治上的数据老大哥、经济上的数据殖民主义、文化上的数据达尔文主义。数字科技对宪法的影响,主要体现在宪法价值和私权力崛起上。宪法价值体系的三位一体公式“人权、法治和民主”,在数字科技发展的影响下,也面临人权风险和人权新可能、法治系统的权力失衡和民主新可能的问题。在私权力崛起方面,数字平台为首的私权力,所具有的支配优势和资源、准监管角色、准国家状态,对宪法理论的公私二分法、基本权利第三人效力、民族国家理论都有破坏性影响。因此,宪法的内涵面临着解体的可能。不能不说,数字社会的宪法时刻已然到来。因此,研究数字科技对宪法的影响,是一个重大宪法性问题,也会有助于此问题的宪法性规范生成并被纳入新的宪治秩序当中。对数字科技所造成的宪法时刻的回馈反应,是一个需要理论和制度设计的重大现实课题。在理论上,预测、想象未来法理状况的法理学研究是数字社会宪法时刻的理论逻辑起点,没有对未来法理的想象和预测,宪法难有见时知几之变,很难应对数字科技迅猛发展所造成未可预知的宪法挑战。数据权利纳入第四代人权框架,数字科学福利权的惠益数字科技福祉策略,算法问题治理的元规制方案,弹性宪法的构建,这些都是可供甄选的制度设计策略。在这些制度设计策略中,又分为权利保护模式和权力规制模式。一方面,保护模式充当权利的保护罩。数据权利纳入第四代人权框架,这种基于人权的数字技术发展战略可以回应数字社会的数据发展现实。数字科学福利权的惠益数字科技福祉策略,可解决第四代人权对弱势群体等普惠不足的问题。第四代人权数字人权的享有是数字科学福利的体现,数字科学福利是第四代人权数字人权的旨归,这也符合罗尔斯正义二原则:数字社会的人们应当完全平等的自由享有数字权利,但对于数字科技领域科学福利最小受惠者应用科学福利权去兼顾平等,实现符合公平的正义。另一方面,规制模式常作为约束权力的利剑。算法问题治理的元规制方案:算法自我规制治理、平台自我规制治理和政府规制,在宪法框架中存有正当性,是回应数字社会的算法治理问题的可行方案。弹性宪法的构建,有利于在数字技术风险世界中不损害宪法的核心价值的情况下,重新审视宪法的适应性,为思考宪法的挑战和危机应对并最终为应对真正危机提供一个新视角。一般而言,宪法弹性是宪法应对挑战并最终应对真正危机的能力,主要体现在宪法复原、宪法韧性和弹性红利三方面,将风险最小化,或者将风险转化为机会。综上而言,以上这些都是数字社会宪法时刻的回应策略中可供甄选的分散策略。除了上述的分散策略,数字社会还需要一个整体性的理论框架、战略“数字宪治主义”去面对当下数字社会、未来数字社会的宪治以及数字社会的宪治可持续性。宪治主义并没有停滞不前,也在创造性适应数字环境萌发新的生命力,数字宪治主义是继自由宪治主义、社会宪治主义后的宪治主义3.0阶段。数字宪治的前提是数字立宪,数字立宪事关互联网、大数据、人工智能等新兴数字科技,涉及个人、企业和政府三大主体,更要重点关注大数据和算法的法律影响。最适宜的数字立宪,是整体性的立法,专门的数字立宪是最合乎宪法体系融贯性考量的。一个数字宪法就好,最好不要再区隔为互联网宪法、大数据宪法、人工智能宪法,甚至区块链宪法。数字宪治在形式上是一种特殊的社会治理方式,主要是依照数字宪制来进行治理。数字化是数字宪制的媒介,数字化不仅是法律行为、法律关系中的监管对象,还能作为法律本身的工具和参数行使着监管主体的职责。形式宪治相当给数字宪治确立了形式上的宪治规则,如果想让宪治公平合理的践行,必须赋予宪治实质性的理想要素:限制宪治各方的权力扩张,保障个人基本权利。除此以外,对于数字宪治的价值观广泛论辩,可能更有利于深入理解数字宪治。文明不只是品味上的进步:始终接受美好的事物,拒绝讨厌的事物。同样也是同理心文明的进步:不仅只使那些圈内人受益,而且还应使那些圈外人也受益。故而,数字文明意味着拥抱美好、有利于人类福祉的数字技术,数字技术不仅应使那些熟悉和有能力负担数字科技的人受益,而且还应使那些不熟悉或没能力负担数字科技的人受益。文明其表,制度其里,这就需要制度上的应对措施,宪治是人类文明的最高体现,自然而言,数字宪治就是新的数字文明的制度愿景。数字宪治文明的内涵集中于两方面,即数字文明时代的国家文明一方面是通过实现的数字化程度来衡量,这主要体现在以数字技术为中心的数字基础设施建设程度。另一方面是通过宪治文明水平来衡量。理论上的数字宪治主义是需要发展的东西,需要通过实实在在的数字宪治作业才能完成,但实践中,我们不应高估数字宪治,这不是灵丹妙药。
二、基于语境关联的Web信息过滤算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于语境关联的Web信息过滤算法(论文提纲范文)
(1)基于表示学习的实体识别和链接关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 研究内容和主要贡献 |
1.4 论文结构 |
第二章 国内外相关研究综述 |
2.1 实体识别研究 |
2.1.1 基于规则和词典的方法 |
2.1.2 基于统计的方法 |
2.1.3 基于深度学习的方法 |
2.2 实体链接研究 |
2.2.1 单实体链接 |
2.2.2 集成实体链接 |
2.3 表示学习研究 |
2.3.1 词表示 |
2.3.2 句子表示 |
2.3.3 文档表示 |
2.3.4 图表示 |
2.4 本章小结 |
第三章 基于增强字表示的中文实体识别 |
3.1 引言 |
3.2 基于增强字表示的中文实体识别算法(ECEM) |
3.2.1 ECEM算法描述 |
3.2.2 实体标注 |
3.2.3 中文字表示 |
3.2.4 类别预测 |
3.2.5 ECEM算法的实现步骤 |
3.3 ECEM算法实验结果与分析 |
3.3.1 数据集的构建 |
3.3.2 基准模型 |
3.3.3 评价标准 |
3.3.4 实验参数 |
3.3.5 时间对比 |
3.3.6 结果分析 |
3.4 本章小结 |
第四章 基于交互式句子表示的实体链接 |
4.1 引言 |
4.2 基于交互式句子表示的实体链接算法(ELSR) |
4.2.1 ELSR算法描述 |
4.2.2 句子表示 |
4.2.3 句子交互 |
4.2.4 联合学习 |
4.2.5 ELSR算法的实现步骤 |
4.3 ELSR算法实验结果与分析 |
4.3.1 数据和评价 |
4.3.2 参数设置 |
4.3.3 实验结果 |
4.3.4 结果分析 |
4.4 本章小节 |
第五章 基于文档层次语义表示的实体链接 |
5.1 引言 |
5.2 基于文档层次语义表示的实体链接算法(HSSMGF) |
5.2.1 HSSMGF算法描述 |
5.2.2 候选实体集生成 |
5.2.3 基于多粒度特征的层次语义表示模型(HSSM) |
5.2.4 全局语义一致性特征 |
5.2.5 HSSMGF算法的实现步骤 |
5.3 HSSMGF算法实验结果与分析 |
5.3.1 实验设置 |
5.3.2 数据集 |
5.3.3 实验结果 |
5.4 本章小结 |
第六章 基于图表示的实体链接 |
6.1 引言 |
6.2 实体关联图 |
6.2.1 基于谷歌距离的实体关联图 |
6.2.2 基于链接关系的实体关联图 |
6.2.3 基于动态词嵌入的实体关联图 |
6.3 基于LeaderRank的实体链接算法(LEPC) |
6.3.1 LEPC算法描述 |
6.3.2 LEPC算法实验结果与分析 |
6.4 基于图卷积和上下文语义关联的实体链接算法(GBEL) |
6.4.1 上下文语义关联度 |
6.4.2 候选实体表示 |
6.4.3 候选实体选择 |
6.4.4 GBEL算法的实现步骤 |
6.4.5 GBEL算法实验结果与分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 未来展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
攻读博士学位期间参与的科研项目 |
(2)基于BERT的句子简化方法研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外发展现状 |
1.2.1 词语简化 |
1.2.2 文本简化 |
1.3 论文主要研究工作 |
1.4 论文结构安排 |
第2章 相关理论及技术介绍 |
2.1 词语简化 |
2.2 文本简化 |
2.3 BERT模型 |
2.4 本章小结 |
第3章 基于BERT的词语简化算法 |
3.1 引言 |
3.2 算法设计 |
3.2.1 候选词生成 |
3.2.2 候选词排序 |
3.2.3 BERT-LS方法 |
3.3 实验 |
3.3.1 实验数据 |
3.3.2 词语简化评估指标 |
3.3.3 对比方法 |
3.3.4 实验结果分析 |
3.4 本章小结 |
第4章 基于BERT的无监督文本简化算法 |
4.1 引言 |
4.2 算法设计 |
4.3 实验及结果分析 |
4.3.1 实验数据 |
4.3.2 句子简化的评估指标 |
4.3.3 对比方法 |
4.3.4 实验结果分析 |
4.4 本章小结 |
第5章 句子简化Web系统的设计与实现 |
5.1 系统功能需求 |
5.2 系统架构设计 |
5.3 系统模块设计 |
5.3.1 系统配置模块 |
5.3.2 预处理模块 |
5.3.3 句子简化模块 |
5.4 句子简化Web系统的实现 |
5.5 功能展示 |
5.6 本章小结 |
第6章 总结与展望 |
6.1 研究总结 |
6.2 未来展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(3)基于大数据的网络空间主流意识形态传播研究(论文提纲范文)
致谢 |
摘要 |
abstract |
1 绪论 |
1.1 问题的缘由与研究价值 |
1.2 国内外研究动态与文献评析 |
1.3 研究思路与研究方法 |
1.4 研究创新点与难点 |
2 主流意识形态传播与网络空间的内在关联 |
2.1 意识形态概念的演变 |
2.2 主流意识形态传播方式的变迁 |
2.3 网络空间及其可塑性 |
2.4 网络空间与主流意识形态传播的内在关联维度 |
3 大数据技术对网络空间的形塑 |
3.1 大数据技术:网络空间变革的技术基础 |
3.2 大数据技术的生产力属性与功能 |
3.3 “大数据-网络空间”的界定 |
3.4 “大数据-网络空间”的本质 |
3.5 “大数据-网络空间”的主要特征 |
4 “大数据-网络空间”主流意识形态传播的机遇与挑战 |
4.1 “大数据-网络空间”主流意识形态传播的机遇 |
4.2 技术理性的张扬与传播者的遮蔽 |
4.3 数据化受众画像的失真 |
4.4 假新闻扰乱主流意识形态传播环境 |
4.5 政治逻辑、算法逻辑与资本逻辑的博弈 |
5 掌握主流意识形态传播的主动权:提升塑造“大数据-网络空间”的能力 |
5.1 建构基于传播者与受众能动性的个性化传播 |
5.2 设计主流价值算法 |
5.3 展开数据素养与政治素养双维度教育 |
5.4 大数据检测技术与监管齐头并进 |
6 结论 |
参考文献 |
作者简介 |
学位论文数据集 |
(4)基于深度学习的产品细粒度意见挖掘研究与应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 基于深度学习的自然语言处理研究现状 |
1.2.2 评价要素抽取研究现状 |
1.2.3 细粒度情感极性分析研究现状 |
1.3 本文的主要研究内容 |
1.4 论文的组织结构 |
第二章 相关理论和技术 |
2.1 深度学习基础 |
2.1.1 词向量 |
2.1.2 神经网络 |
2.1.3 注意力机制 |
2.1.4 预训练语言模型 |
2.2 评价要素抽取相关算法 |
2.2.1 基于双向传播的评价要素抽取方法 |
2.2.2 基于序列标注的评价要素抽取方法 |
2.3 细粒度情感极性分析相关算法 |
2.3.1 基于无监督学习的细粒度情感极性分析方法 |
2.3.2 基于监督学习的细粒度情感极性分析方法 |
2.4 本章小结 |
第三章 基于BERT的评价要素双向迭代识别 |
3.1 评价要素识别任务描述及现有的挑战 |
3.1.1 评价要素识别任务描述 |
3.1.2 现有的挑战 |
3.2 基于BERT的评价要素双向迭代识别方法 |
3.2.1 识别方法框架 |
3.2.2 POS-BERT-CNN词对关联度模型 |
3.2.3 Word Pair-DP双向传播算法 |
3.2.4 字词混和向量低频召回 |
3.3 实验与分析 |
3.3.1 数据集 |
3.3.2 实验设置 |
3.3.3 实验结果与分析 |
3.4 本章小结 |
第四章 产品评价的细粒度情感极性分析 |
4.1 产品评价的细粒度情感极性分析任务描述及现有的挑战 |
4.1.1 产品评价的细粒度情感极性分析任务描述 |
4.1.2 现有的挑战 |
4.2 基于文本匹配的细粒度情感极性分类模型 |
4.2.1 模型结构 |
4.2.2 匹配模块 |
4.2.3 解码模块 |
4.3 实验与分析 |
4.3.1 数据集 |
4.3.2 实验设置 |
4.3.3 实验结果与分析 |
4.4 本章小结 |
第五章 产品细粒度意见挖掘系统的设计与实现 |
5.1 系统的组织架构 |
5.2 系统的模块介绍 |
5.3 功能演示 |
5.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(5)移动应用暗语发现系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 基于知识的词义消歧方法 |
1.2.2 基于语料库有监督的词义消歧方法 |
1.2.3 基于语料库无监督的词义消歧方法 |
1.2.4 现有技术不足 |
1.3 主要工作 |
1.4 论文结构 |
第二章 相关理论及技术研究 |
2.1 新词发现技术研究 |
2.1.1 基于构建规则的新词发现方法 |
2.1.2 基于统计的新词发现方法 |
2.2 词向量化表达 |
2.3 Word2Vec模型 |
2.3.1 传统Word2Vec模型 |
2.3.2 改进的Word2Vec模型 |
2.4 词向量丰富度误差优化方法 |
2.5 GloVe模型 |
2.6 One Class SVM |
2.7 本章小结 |
第三章 移动应用暗语发现及有害应用发现方案 |
3.1 数据准备 |
3.2 语料库扩充操作——词向量丰富度误差优化 |
3.3 语料库预处理方法 |
3.3.1 分词前预处理 |
3.3.2 新词发现方法 |
3.3.3 分词处理 |
3.4 基于改进的Word2Vec的暗语发现方法 |
3.4.1 改进的Word2Vec模型词向量训练 |
3.4.2 余弦相似度计算 |
3.4.3 暗语发现 |
3.5 暗语辅助理解方法 |
3.6 有害应用发现方法 |
3.6.1 有害应用的词包构建 |
3.6.2 One Class SVM分类器训练 |
3.7 本章小结 |
第四章 整体系统的设计与实现 |
4.1 整体系统框架设计 |
4.2 各模块设计与实现 |
4.2.1 数据准备及预处理模块 |
4.2.2 暗语发现模块 |
4.2.3 辅助释义模块 |
4.2.4 有害应用发现模块 |
4.2.5 数据存储及展示 |
4.3 本章小结 |
第五章 实验数据分析评估 |
5.1 实验软硬件环境说明 |
5.2 实验结果分析 |
5.2.1 分词准确度分析 |
5.2.2 暗语发现实验分析 |
5.2.3 辅助释义效果分析 |
5.2.4 有害应用发现效果分析 |
5.3 本章小结 |
第六章 工作总结与展望 |
6.1 论文工作总结 |
6.2 问题和展望 |
参考文献 |
致谢 |
(6)基于UCL国家标准的智能化搜索引擎研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究目标和研究内容 |
1.3 论文组织结构 |
第二章 研究现状 |
2.1 知识图谱相关研究 |
2.1.1 知识图谱发展现状 |
2.1.2 实体相关研究 |
2.1.3 关系推理相关研究 |
2.2 搜索引擎相关研究 |
2.2.1 搜索引擎技术架构 |
2.2.2 传统搜索引擎的原理和发展现状 |
2.3 个性化搜索相关研究 |
2.4 本章小结 |
第三章 基于语义融合的UCL知识图谱构建 |
3.1 主要问题与研究思路 |
3.1.1 主要问题分析 |
3.1.2 研究思路和解决方案 |
3.2 整体技术框架 |
3.3 基础知识库构建 |
3.4 UCL语义融合方法 |
3.4.1 UCL信息预处理 |
3.4.2 UCL中实体语义权重计算 |
3.4.3 实体链接 |
3.5 UCLKG的更新 |
3.5.1 基于表示学习和UCL语义感知的关系推理算法 |
3.5.2 UCLKG中UCL和实体的更新 |
3.6 本章小结 |
第四章 智能化搜索引擎关键技术研究 |
4.1 主要问题与研究思路 |
4.1.1 主要问题分析 |
4.1.2 研究思路与解决方案 |
4.2 整体技术框架 |
4.3 基于LDA主题模型的用户兴趣模型构建 |
4.3.1 传统LDA模型分析 |
4.3.2 DLDA_SE用户兴趣模型构建算法 |
4.4 基于用户意图主题挖掘的个性化搜索 |
4.4.1 用户意图识别 |
4.4.2 基于用户意图的搜索排序算法 |
4.5 用户搜索请求的语义理解 |
4.6 本章小结 |
第五章 智能化搜索引擎原型系统与实验 |
5.1 原型系统设计与实现 |
5.1.1 系统设计 |
5.1.2 系统实现 |
5.2 实验与分析 |
5.2.1 UCL知识图谱构建相关算法实验与分析 |
5.2.2 智能化搜索相关算法实验与分析 |
5.3 本章小结 |
第六章 论文总结与未来工作 |
6.1 论文总结 |
6.2 未来工作 |
致谢 |
参考文献 |
作者简介 |
(7)多源学术新媒体用户生成内容的知识聚合研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 选题背景 |
1.1.1 学术新媒体成为科研工作者学术交流的新途径 |
1.1.2 学术新媒体普遍存在低质量用户生成内容 |
1.1.3 用户需求促使学术新媒体知识聚合成为趋势 |
1.1.4 多源平台内容的知识聚合需求逐渐增长 |
1.2 研究目的及意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 国内外研究现状 |
1.3.1 学术新媒体国内外研究现状 |
1.3.2 新媒体用户生成内容国内外研究现状 |
1.3.3 新媒体知识聚合国内外研究现状 |
1.3.4 研究现状述评 |
1.4 研究内容与研究方法 |
1.4.1 研究内容 |
1.4.2 研究方法 |
1.4.3 技术路线 |
1.5 本文创新点 |
第2章 相关概念及理论基础 |
2.1 学术新媒体内涵与特征 |
2.1.1 学术新媒体的内涵 |
2.1.2 学术新媒体的特征 |
2.2 用户生成内容概述 |
2.2.1 用户生成内容的内涵 |
2.2.2 用户生成内容的特征 |
2.2.3 用户生成内容的分类 |
2.3 知识聚合理论与方法 |
2.3.1 知识聚合的概念 |
2.3.2 知识聚合的方法 |
2.4 自然语言处理概述 |
2.4.1 自然语言处理概念 |
2.4.2 自然语言处理方法 |
2.5 本章小结 |
第3章 多源学术新媒体用户生成内容的知识聚合机理 |
3.1 多源学术新媒体用户生成内容知识聚合的内涵与类型 |
3.1.1 多源学术新媒体用户生成内容的知识聚合内涵 |
3.1.2 多源学术新媒体用户生成内容的知识聚合类型 |
3.2 多源学术新媒体用户生成内容知识聚合的要素 |
3.2.1 知识聚合主体 |
3.2.2 知识聚合客体 |
3.2.3 知识聚合的内容 |
3.2.4 知识聚合的环境 |
3.2.5 知识聚合的技术 |
3.3 多源学术新媒体用户生成内容的知识聚合动机 |
3.3.1 学术信息资源需求驱动 |
3.3.2 学术创新环境驱动 |
3.3.3 知识聚合主体收益驱动 |
3.3.4 科技进步驱动 |
3.3.5 多源学术平台资源驱动 |
3.4 多源学术新媒体用户生成内容的知识聚合过程 |
3.4.1 挖掘与解读用户需求 |
3.4.2 学术信息的数据处理 |
3.4.3 学术信息的质量评测 |
3.4.4 知识发现与聚合 |
3.4.5 学术知识推荐 |
3.5 多源学术新媒体用户生成内容的知识聚合机理模型 |
3.6 基于用户需求的多源学术新媒体用户生成内容知识聚合服务过程 |
3.7 本章小结 |
第4章 多源学术新媒体用户生成内容的质量评测 |
4.1 多源学术新媒体用户生成内容质量评测的目的 |
4.2 多源学术新媒体用户生成内容质量评测的过程与方法 |
4.2.1 多源学术新媒体用户生成内容质量评测的过程 |
4.2.2 多源学术新媒体用户生成内容质量评测方法 |
4.3 应用实例分析 |
4.3.1 数据集预处理与自动化特征提取 |
4.3.2 双层Bi-GRU模型训练 |
4.3.3 评价指标 |
4.3.4 结论与分析 |
4.4 本章小结 |
第5章 多源学术新媒体用户生成内容的知识主题生成 |
5.1 多源学术新媒体用户生成内容知识主题生成概念和目的 |
5.2 多源学术新媒体用户生成内容知识主题生成过程与方法 |
5.2.1 多源学术新媒体用户生成内容知识主题生成过程 |
5.2.2 多源学术新媒体用户生成内容知识主题生成方法 |
5.3 基于BiLSTM-CNN-CRF和 LDA的多源学术新媒体用户生成内容的知识主题生成模型 |
5.4 应用实例分析 |
5.4.1 结合BiLSTM-CNN-CRF和 LDA主题词生成 |
5.4.2 主题词过滤与融合 |
5.4.3 结论与分析 |
5.5 本章小结 |
第6章 多源学术新媒体用户生成内容的知识摘要生成 |
6.1 学术用户生成内容的摘要生成的概念及意义 |
6.2 多源学术新媒体用户生成内容摘要生成过程与方法 |
6.2.1 用户生成内容摘要生成过程 |
6.2.2 用户生成内容摘要生成方法 |
6.3 基于W2V-MMR的多源学术新媒体用户生成内容摘要生成方法 |
6.3.1 W2V-MMR算法的计算过程 |
6.3.2 多源学术新媒体用户生成内容摘要评价指标 |
6.4 应用实例分析 |
6.4.1 数据获取与预处理 |
6.4.2学术新媒体用户生成内容生成摘要实验 |
6.4.3 结论与分析 |
6.5 本章小结 |
第7章 多源学术新媒体用户生成内容的知识聚合精准推荐 |
7.1 多源学术新媒体用户生成内容知识聚合推荐的概念及目的 |
7.2 多源学术新媒体用户生成内容的知识聚合推荐过程与方法 |
7.2.1 多源学术新媒体用户生成内容的知识聚合推荐过程 |
7.2.2 多源学术新媒体用户生成内容的知识聚合推荐方法 |
7.3 基于用户兴趣度模型与传递相似度的多源学术新媒体用户生成内容的知识聚合精准推荐 |
7.3.1 基于用户兴趣度模型的精准推荐评分体系 |
7.3.2 基于用户相似性传递的用户共联网络 |
7.3.3 基于用户兴趣度模型与传递相似度的混合推荐 |
7.3.4 多源学术新媒体用户生成内容知识聚合的精准知识推荐服务 |
7.4 本章小结 |
第8章 提升多源学术新媒体知识聚合效果的策略 |
8.1 知识聚合主体层面 |
8.1.1 以用户为中心建立知识聚合理念 |
8.1.2 深入挖掘学术新媒体用户多层次的需求 |
8.1.3 完善学术新媒体平台内容质量监管和激励机制 |
8.1.4 合理规范学术新媒体内的主题与重点内容 |
8.1.5 学习与借鉴他源平台内容 |
8.2 知识聚合对象层面 |
8.2.1 促进学术用户积极互动 |
8.2.2 提升学术用户信息素养 |
8.2.3 提倡统一用词与语言凝练 |
8.2.4 提升多源平台交叉用户基数 |
8.3 知识聚合技术层面 |
8.3.1 改进大数据挖掘和人工智能技术 |
8.3.2 搭建学术新媒体的新型知识服务系统 |
8.3.3 建立多源学术新媒体的互联技术 |
8.3.4 应用学术知识可视化技术 |
8.4 知识聚合环境层面 |
8.4.1 营造良好的学术讨论氛围 |
8.4.2 加强学术新媒体平台之间的交流合作 |
8.4.3 加大学术新媒体平台的宣传力度 |
8.5 本章小结 |
第9章 研究结论与展望 |
9.1 研究结论 |
9.2 研究不足与展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(8)基于内容语义和网络结构的Web服务分类方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 基于内容语义信息的Web服务分类 |
1.2.2 基于网络结构信息的Web服务分类 |
1.3 论文的主要贡献 |
1.4 论文的组织结构 |
第2章 理论基础与相关技术 |
2.1 Web服务技术基础知识 |
2.1.1 Web服务基本架构 |
2.1.2 Web服务核心组件 |
2.2 Mashup技术基础知识 |
2.3 Web服务分类综述 |
2.4 基于功能属性的Web服务分类技术 |
2.4.1 基于内容语义信息的分类方法 |
2.4.2 基于网络结构信息的分类方法 |
2.5 实验评估指标 |
2.6 本章小结 |
第3章 基于Wide& Bi-LSTM模型的Web服务分类 |
3.1 研究背景 |
3.2 基于Wide& Bi-LSTM模型的Web服务分类方法 |
3.2.1 文本预处理与词向量矩阵的建立 |
3.2.2 Wide& Bi-LSTM模型的训练 |
3.3 实验与分析 |
3.3.1 数据集与实验设置 |
3.3.2 对比方法 |
3.3.3 结果分析 |
3.4 本章小结 |
第4章 一种基于图卷积神经网络的Web服务分类方法 |
4.1 研究背景 |
4.2 基于WSC-GCN模型的Web服务分类方法 |
4.2.1 Web服务描述文档的预处理 |
4.2.2 WSC-GCN分类模型 |
4.3 实验与分析 |
4.3.1 数据集与实验设置 |
4.3.2 对比方法 |
4.3.3 结果分析 |
4.4 本章小结 |
第5章 融合Doc2vec模型与LINE模型的Web服务分类 |
5.1 研究背景 |
5.2 基于WSC-SN模型的Web服务分类方法 |
5.2.1 Web服务描述文档的预处理 |
5.2.2 WSC-SN分类模型 |
5.2.3 逻辑回归 |
5.3 实验与分析 |
5.3.1 数据集与实验设置 |
5.3.2 对比方法 |
5.3.3 结果分析 |
5.4 本章小结 |
第6章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录 A 攻读学位期间发表的论文与科研成果清单 |
致谢 |
(9)面向数据特性的文本情感分析方法研究(论文提纲范文)
中文摘要 |
英文摘要 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究动态 |
1.2.1 非平衡文本情感分类 |
1.2.2 半监督文本情感分类 |
1.2.3 隐式情感分析 |
1.2.4 方面项情感分析 |
1.2.5 可解释产品推荐 |
1.3 研究内容 |
1.4 论文组织结构 |
第二章 基于LDMRC算法与全局再平衡的文本情感分类 |
2.1 问题提出 |
2.2 基本概念 |
2.3 局部稠密混合区域下采样+全局再平衡 |
2.3.1 LDMRC算法 |
2.3.2 数据的全局再平衡策略 |
2.4 文本情感分类步骤 |
2.5 实验设置 |
2.5.1 实验数据 |
2.5.2 采样方案 |
2.5.3 评价指标 |
2.6 实验结果与分析 |
2.6.1 算法参数的确定 |
2.6.2 采样方案比较 |
2.7 本章小结 |
第三章 文本情感分类的协同混合半监督学习 |
3.1 问题提出 |
3.2 一些相关度量 |
3.3 学习框架 |
3.3.1 种子选择算法 |
3.3.2 训练数据集更新 |
3.3.3 协同训练策略 |
3.3.4 集成分类器 |
3.4 文本情感分类步骤 |
3.5 实验设置 |
3.5.1 实验数据 |
3.5.2 评价指标 |
3.5.3 训练模式设计 |
3.6 实验结果与分析 |
3.6.1 种子选择方法 |
3.6.2 英文数据集上的比较实验 |
3.6.3 中文数据集上的比较实验 |
3.6.4 CASCT方法的稳定性 |
3.7 本章小结 |
第四章 基于语言特征自动获取的反问句识别 |
4.1 问题提出 |
4.2 反问句识别模型 |
4.2.1 反问句特征自动获取模型 |
4.2.2 基于层叠注意力机制的反问句识别模型 |
4.3 实验设置 |
4.3.1 数据集及评价指标 |
4.3.2 参数设置 |
4.4 实验结果与分析 |
4.4.1 特征性能的比较实验 |
4.4.2 特征数对识别效果的影响 |
4.4.3 综合比较实验 |
4.4.4 错误分析 |
4.5 本章小结 |
第五章 基于多信息融合的反讽句识别 |
5.1 问题提出 |
5.2 基于BERT的句子表示 |
5.3 融入显式特征信息的句子表示 |
5.4 情感信息获取 |
5.4.1 基于BERT的句子情感分类 |
5.4.2 句子情感差异表示 |
5.5 多信息融合的反讽句识别框架 |
5.6 实验设置 |
5.6.1 实验数据及评价指标 |
5.6.2 方法的比较方案 |
5.7 实验结果与分析 |
5.7.1 特征的有效性对比实验 |
5.7.2 与其他方法的对比实验 |
5.8 本章小结 |
第六章 基于方面项情感分析的可解释推荐 |
6.1 问题提出 |
6.2 方面项抽取 |
6.2.1 方面项情感判别 |
6.2.2 方面项确定 |
6.3 基于图神经网络的推荐模型 |
6.3.1 用户-产品图建模 |
6.3.2 基于注意力机制的图更新 |
6.3.3 模型输出与训练 |
6.4 产品评级策略 |
6.5 实验设置 |
6.6 实验结果与分析 |
6.6.1 产品评级融合参数的选取 |
6.6.2 产品评级策略对比实验 |
6.6.3 与已有方法的比较 |
6.6.4 推荐的可解释性 |
6.7 本章小结 |
第七章 总结及展望 |
7.1 主要结论 |
7.2 未来工作 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
个人简况及联系方式 |
(10)数字宪治主义研究(论文提纲范文)
中文摘要 |
abstract |
第1章 绪论 |
1.1 选题背景和意义 |
1.2 国内外研究现状 |
1.2.1 国外的数字宪治主义研究现状 |
1.2.2 国内的数字宪治主义相关研究现状 |
1.3 论文的预期创新、难点与研究方法 |
1.3.1 研究预期创新 |
1.3.2 研究预期难点 |
1.3.3 研究方法 |
第2章 “新”数字社会与“新”数字问题 |
2.1 何谓数字社会 |
2.1.1 数字社会的由来 |
2.1.2 信息社会、数字社会、智慧社会的概念厘正 |
2.1.3 数字社会新形态 |
2.2 “新”数字问题(一):算法问题 |
2.2.1 算法歧视 |
2.2.2 算法权力 |
2.3 “新”数字问题(二):数据问题 |
2.3.1 数据的内部问题 |
2.3.2 数据的外部问题 |
第3章 宪法时刻:数字科技的宪法影响 |
3.1 数字科技对宪法价值的影响 |
3.1.1 人权风险和人权新发展 |
3.1.2 法治系统的权力失衡 |
3.1.3 数字民主新可能 |
3.2 数字私权力及其宪法影响 |
3.2.1 私权力的崛起 |
3.2.2 数字平台私权力表征 |
3.2.3 数字私权力对宪法理论的影响 |
第4章 数字社会宪法时刻的回应策略 |
4.1 回应基点:未来法理视野中的宪法想象力 |
4.1.1 未来法理登场的语境 |
4.1.2 未来法理登场的路径 |
4.1.3 未来法理视野中的宪法想象力 |
4.2 权利维度(一):第四代人权框架中普适的数字权利 |
4.2.1 三代人权谱系 |
4.2.2 数字科技与权利纠葛中的第四代人权 |
4.2.3 数字人权清单 |
4.2.4 数字人权的风险预防:数字科技权力的规制 |
4.2.5 第五代权利的可能 |
4.3 权利维度(二):普惠的科学福利权 |
4.3.1 科学福利权:缘起、认可和规范内涵 |
4.3.2 科学福利权的权利困境 |
4.3.3 科学福利权之义务 |
4.3.4 科学福利权的中国考察 |
4.3.5 数字时代一个拥有美好未来的权利 |
4.4 权力维度:算法元规制论及宪法阐释 |
4.4.1 算法问题解决方案的选择 |
4.4.2 宪法视野中的算法元规制策略 |
4.4.3 算法元规制:三元空间的治理新思维 |
4.5 回应韧性:弹性宪法 |
4.5.1 宪法复原 |
4.5.2 宪法韧性 |
4.5.3 弹性红利 |
第5章 总体战略:数字宪治主义 |
5.1 宪治主义的理想演进类型 |
5.1.1 宪治主义1.0:自由宪治主义 |
5.1.2 宪治主义2.0:社会宪治主义 |
5.1.3 宪治主义3.0:数字宪治主义 |
5.2 数字立宪 |
5.3 形式数字宪治主义 |
5.3.1 基于数字化的宪法治理 |
5.3.2 数字化宪法治理 |
5.4 实质数字宪治主义 |
5.4.1 数字权力制约 |
5.4.2 数字人权保障 |
5.5 数字宪治价值 |
第6章 迈向数字宪治文明 |
参考文献 |
作者简介及攻读博士学位期间发表的学术成果 |
后记 |
四、基于语境关联的Web信息过滤算法(论文参考文献)
- [1]基于表示学习的实体识别和链接关键技术研究[D]. 贾丙静. 北京邮电大学, 2021(01)
- [2]基于BERT的句子简化方法研究与实现[D]. 钱镇宇. 扬州大学, 2021
- [3]基于大数据的网络空间主流意识形态传播研究[D]. 刘培. 中国矿业大学, 2020(07)
- [4]基于深度学习的产品细粒度意见挖掘研究与应用[D]. 简文军. 华南理工大学, 2020(02)
- [5]移动应用暗语发现系统的设计与实现[D]. 周渝凯. 北京邮电大学, 2020(04)
- [6]基于UCL国家标准的智能化搜索引擎研究[D]. 李超. 东南大学, 2020(01)
- [7]多源学术新媒体用户生成内容的知识聚合研究[D]. 陶兴. 吉林大学, 2020(08)
- [8]基于内容语义和网络结构的Web服务分类方法研究[D]. 叶洪帆. 湖南科技大学, 2020(06)
- [9]面向数据特性的文本情感分析方法研究[D]. 李旸. 山西大学, 2020(12)
- [10]数字宪治主义研究[D]. 杨学科. 吉林大学, 2020(08)