一、多语种双语对齐平台的设计与实现(论文文献综述)
任泽[1](2020)在《多语言文本嵌入模型的研究及应用》文中指出自然语言处理试图用计算机来处理文字背后的语义信息。然而,计算机不能像人类一样理解语言,必须将自然语言表示为计算机可以处理的数学形式,才能完成基本的语义表达。因此文本表示是自然语言处理(NLP)的重要的基础任务之一,是很多其它高级NLP任务的输入对象。这些用来表示自然语言的数学工具就是语言模型。文本嵌入(Word Embedding)是其中的一种文本表示模型,它将不同粒度的语言单位表示为一组固定长度的连续实数向量。此外人类的语言种类繁多,我们期待计算机不仅可以处理单一语言的文本,更期待它能够对两个或更多的语言的文本进行理解,找到不同语言文本在语义上的相似性。本文的课题来自于本人的实际工作需求:跨语言的相似关键词推荐、文本检索和分类。这些任务的痛点在于传统的检索技术只能根据用户查询的关键词检索包含这些关键词的文本,无法自动扩展到相关或同义的关键词,也无法处理同一事物在不同语言中的表达形式。以上这些应用场景都可以归结为一个问题,用多语言的文本表示体现语义相似性。词语间的语义相似性可以用来推荐相似关键词,段落、篇章等长文本间的语义相似性可以用来检索和分类。在这个课题上的现有研究存在一些问题,它们大多集中于双语模型的研究,对高质量的平行语料非常依赖。这些缺陷使得现有方法在实际生产中很难实用。为了满足这些应用场景和解决现有问题,本文提出了一种将具有一定平行程度的多对双语种语料统一到同一个语义空间,从而实现可比性的方法。本文实现这样的方法的大体方向是先得到若干种语言的单语言模型,再通过平行语料进行融合。在此过程中得到了一个基于伪单语料的多语种嵌入模型,和一个基于多对双语平行语料的多语种嵌入模型。并且对双语语料词典外词汇(OOV)进行了兼容。最终,本文训练得到两个多语言嵌入模型,并对其进行实验验证,最后将这一模型应用于最初提出的实际生产场景。本文实验中跨语言的词语相似性推荐可以达到63.5%以上的准确率。利用三语平行语料训练得到的模型则可以达到平均69%,最高85.7%的双语相似度推荐准确率。用本文训练的词语嵌入模型进行的专利文本多IPC标签分类测试,IPC部级的分类精确率达到78.3%,召回率63.6%,F值70.2%,IPC子类级分类精确率达65.6%,召回率29.7%和F值40.9%。用这一嵌入模型进行索引与传统的检索工具Solr进行对比,召回率不相上下,并且在样本中的化学化工这一占比较大的子领域中,本文的文本向量召回率优于Solr检索。这些数据说明了本文所用的方法是可行和有效的。在实际项目中的应用也证明了本文所述方法的可用性。
童富智[2](2020)在《基于语料库的《政府工作报告》日译文本翻译语言特征研究》文中指出本研究以语料库翻译学理论作为研究框架,以2004年度至2018年度《政府工作报告》汉语原文、日语译文以及与报告文本类型相近的日语原创文本作为语料,自建专用语料库,使用以语料库法、问卷调查法为代表的实证研究法、比较法等研究方法,通过探讨翻译共性、具体语言对翻译语言特征,考察《政府工作报告》日译文本的翻译语言特征问题,具体体现为分析翻译语言的词汇、句法、搭配和语义韵等方面的特征。政府工作报告日译文本的词汇特征表现在词汇的总体特征、词汇的应用特征两个方面。研究表明,作为词汇的总体特征,报告日译文本词汇的类符/形符比值、词汇密度值高于文本类型相似的原创日语参照语料,反映出报告日译文本词汇的变化性较大,词汇应用相对复杂;报告日译文本的词汇出现次数分布均值低于日语参照语料,反映出日译文本词汇变化的多样性特征;报告的译文和原文前20位高频词呈现较高的对应关系,频率接近,存在词类活用的转换现象,表明译词有效传递了原文信息。词汇的应用特征表现在受原文影响,在日译文本的词汇中,含有略语、比喻、专有等典型的表达结构,具有相似的共性特征。对略语结构中的数词略语结构,本研究进一步探讨了其日译特征,以翻译方法为切入点,探讨数词略语日译词汇的分类并分别探讨了各类数词略语的日译特征,对部分类别提出了规范性的日译方法。研究表明:报告日译文本的词汇呈现“显化”和“简化”的翻译共性特征,可以概括为:“语义显化”和“形式简化”。“语义显化”具体可分为:所指语义显化、功能语义显化;“形式简化”具体可分为:概念延续性形式简化、概念构成性形式简化。政府工作报告日译文本的句法特征表现在句法的总体特征、典型语句结构应用特征两个方面。研究表明:在句法的总体特征方面,报告日译文本和日语参照语料的平均句长值相近,具有相似的句法特征,反映出报告日译文本的表达符合日语母语的表达习惯,能够起到良好的受众阅读效果。在典型语句结构应用特征方面,报告日译文本中,动词连用形联接分句的结构符合日语语言特征,可以传递报告原文分句间内含的语义逻辑关系信息。研究表明:报告日译文本的句法呈现“范化”的翻译共性特征。作为前沿问题探索,本研究以政府工作报告中实义动词“坚持”及其日语对应词「坚持(する)」为例,探讨了基于语料库的配搭和语义韵研究问题。研究发现,数据显示两词分别在相应的语料库中与搭配词形成不同的共选型式,两词分别形成的短语序列在形式、意义和功能方面虽有部分重合,但差异明显,指向不同的语义韵。研究表明,汉日短语的应用具有各自的形式、意义特征,政府工作报告的词汇日译研究还需将功能作为考量标准。在研究总结的基础上,本研究提出了中央文献日译标准体系的对策思考。
祖力克尔江·司坎旦尔[3](2020)在《汉语-维语双语词汇资源库构建方法研究》文中提出机器翻译以及汉语学习现已成为热门研究领域。词汇平行资源库构建作为机器翻译研究的基础之一,是本文研究的重点。本文结合目前流行的双语平行语料库构建方法,在此基础上提出了结构化的分段、分句、分词的汉语-维吾尔语双语平行词汇资源库构建方法。本文用爬虫程序在天山网上爬取大量汉语新闻语料,对原始语料进行除噪去重等处理,并利用分词系统进行分段、分句、分词形成结构性存储单语词汇语料库;采用机器学习方法,构建汉语-维吾尔语词汇翻译模型,将爬下来的词汇先跟20万条双语词汇语料库进行匹配,模型无法匹配的部分词汇,提交给搜索引擎模块,该模块在网上查找第三方翻译资源;查到第三方翻译资源后,采用翻译插件技术对结构性存储词汇语料进行自动翻译、对齐,形成准双语平行语料库;最后对插件翻译软件无法处理的部分采用人机互助的方式处理,形成新的标准双语平行词汇库;并使用双语词汇翻译模型,不断完善标准双语平行词汇库。本文重点研究基于插件的翻译技术,包括自动读取、翻译、对齐,写入对齐词表,自动构建双语平行词汇库。在研究过程中,利用爬虫技术、搜索引擎技术、插件技术、翻译技术解决了双语平行词汇语料库的构建问题。在双语平行词汇资源库构建过程中,以20万条汉语-维吾尔语双语词汇语料库作为模型学习的基础,使用爬虫程序在天山网上爬取的汉语新闻语料,通过汉语分词处理系统形成大量汉语词汇语料库。本研究最终以100万条汉语词汇作为研究对象,利用搜索引擎技术及插件翻译器进行对齐工作,经过对准双语平行语料库中插件翻译软件无法处理的部分采用人机互助的方式处理,不断让模型学习,实现自动对齐功能。本文利用爬虫技术、汉语分词技术,构建了比较规范的汉语单语词汇库。以汉语词汇库作为对齐对象,探索双语词典构建和插件翻译结合的双语词汇对齐模型,解决汉语-维吾尔语双语词汇对齐问题。为进一步开展短语对齐和词汇为单位的汉语-维吾尔语机器翻译系统的研究、开发提供技术及资源支撑。本文创新之处是融合爬虫技术、汉语分词处理技术、搜索引擎技术,研发插件翻译技术,实现汉语-维吾尔语双语词汇对齐模型,探索大规模汉语-维吾尔语双语词汇资源库构建方法,为下一步开展高质量的汉语-维吾尔语双语翻译模型工作提供技术、资源支撑,解决开展汉语-维吾尔语双语机器翻译中双语资源稀缺问题。
康喆文[4](2019)在《中央文献核心语块构建及翻译模式探究 ——以国务院《政府工作报告》(2014-2018)及俄译本为例》文中研究说明语块是一种形式固定、表达完整语义的预制性序列,在语言运用中能够被整体存储、提取和使用。翻译不仅是两种语言语码的转换,更涉及语码背后的认知方式和思维方式。语块作为具有心理预制特点的语言单位和思维单位,在翻译活动中具有明显的优势效应。本文以语块为切入点,立足于中央文献翻译,开展中央文献核心语块的构建及翻译模式研究。本文对2014年至2018年国务院《政府工作报告》中的中央文献核心语块及俄语译文进行了界定和提取,并尝试提出中央文献核心语块的认知翻译模式。全文共分为五个章节。第一章为绪论部分,介绍了选题缘由、研究任务、研究方法及国内外研究综述,包括语块研究的相关理论概述、国内外语块研究综述、中央文献对外翻译研究综述。第二章从语块理论出发,结合政府工作报告的特点,完成了中央文献核心语块的界定和提取工作,并确立了中央文献核心语块的序列层级。本文认为,中央文献核心语块是由连续的或非连续的两个或两个以上的词组成的、具有固定语义的预制性序列,在中央文献中可被整体储存和提取;其内容以中国特色社会主义理论体系思想为主,涵盖我国政治、经济、文化、社会、国防、外交、党建等各个方面。中央文献核心语块包括一级语块、二级语块和三级语块。一级语块为词级语块,包括搭配和固定语;二级语块为框架级语块,包括短语框架和述语框架;三级语块为句级语块,包括谚俗语、格言警句和句群。第三章探讨了认知视角下的语块翻译。文中分别概述了认知语言学、认知心理学、心理语言学的主要观点及与翻译的关系,阐释了不同学者的认知翻译观。本文认为,认知翻译观为研究语块的翻译提供了两点启示:一是模拟认知心理学中的信息加工模型探讨语块双语的转换进程;二是从翻译活动的参与者、双语产生的现实等多重视角探讨语块的翻译。在此基础上第三章提出了语块翻译的认知加工流程图。第四章从以往经典的翻译理论模式出发,结合第三章的理论基础,拟构了中央文献核心语块的认知翻译模式。该模式凸显了源语语块及对应译语作为整体翻译单位在记忆加工系统中的优势效应;反映了源语世界与译语世界的语言符号认知、逻辑思维认知、语境关系认知、社会文化认知及主体间性认知等多维认知层对语块翻译目标、翻译策略选择的影响。随后本章结合具体译例,对每一认知层级的内容做了详细分析,对拟构模式进行了论证。第五章为结束语,展望了中央文献核心语块构建的应用前景,并拟提出本课题后续的研究思路。总之,本文借鉴语块理论及认知翻译的相关研究成果,围绕中央文献核心语块,探讨了中央文献核心语块的构建和翻译模式问题,拟构了中央文献核心语块的认知翻译模式,具有一定的理论价值和创新意义。希望通过本文的研究,能够规范中央文献中重要概念的翻译,推动中央文献翻译的自动化、机器化进程。
孟先艳[5](2019)在《基于深度学习的多语种文本分类系统的研究与实现》文中认为随着信息技术和全球化进程的发展,对于多语种文本信息的分析与共享成为人们生活和工作中不可或缺的一部分,因此对多语种文本分类技术的研究具有重要的应用价值。已有的文本分类研究成果,大多是面向单一语种环境的,当处理不同语种的文本时,往往需要训练多个单语种文本分类系统来支持多语种数据集,工作成本较高,因此迫切需要开发多语种文本分类系统,以适应用户需求的变化。本学位论文针对中、英、朝三种语种的科技文献摘要,研究多语种文本分类问题,采取各语种各自提取特征然后融合的策略解决语种障碍问题,通过搭建深度神经网络模型提高分类性能,并设计实现多语种文本分类系统,为中英朝科技文献跨语种共享平台的建设奠定技术基础。首先,收集中、英、朝三种语种的科技文献摘要,将9万余篇多语种摘要文本按内容分为13个类别,组织成多语种平行语料库。其次,提出一种基于双向长短时记忆和卷积神经网络的多语种文本分类模型。结合主题向量和词向量构成各语种的文本表示,分别输入到对应的子神经网络模型提取该语种更深层次的文本特征,然后将各语种的特征进行融合,最终输出分类结果。最后,分析并设计系统功能模块,开发多语种文本自动分类软件系统。该系统可实现对中英朝任意语种的文本进行分类,并按类别存储,也为用户提供自主修改类别、查看文档等功能,方便用户管理。同时,用户也可按需求在线对分类器进行更新,在保证分类准确度的同时增加了用户的可控性。本文提出的多语种文本分类模型能够降低对外部资源的依赖,实验和系统运行结果表明,本文所提出的基于双向长短时记忆和卷积神经网络的多语种文本分类模型相比于传统方法,分类准确度提高了 2到5个百分点。另外,本文设计并实现的多语种文本分类系统核心功能完善,满足实际应用的需求。
梁继文[6](2019)在《基于多模型的先秦典籍汉英平行语料句子对齐研究》文中提出在多语言和跨语言的信息处理等自然语言处理任务中,双语平行语料库起着重要作用。近年来随着数字人文研究的开展,以及“中华文化走出去”战略的实施,典籍双语平行语料作为文化传播的主要载体,为跨语言典籍检索系统与跨语言人文计算研究提供底层数据支持。其中句子级别对齐的双语平行语料库可提供更为有效的序化信息,同时句子对齐的质量对开展后续跨语言检索系统构建、知识提取等研究影响较大。句子对齐即实现双语文本句子级别的语义匹配,它除一句原文对应一句译文这种最简单的情况外还包含多种对齐模式(如一句原文对应两句或多句译文),因此实现自动句子对齐较为复杂;同时因为先秦典籍双语平行语料存在一定特殊性,这更为古文-英文句子对齐增添难度。本文以先秦典籍汉英句级平行语料库的构建与跨语言信息处理为背景,以实现先秦典籍双语平行语料中的古文-英文句子自动对齐为目的进行研究,主要围绕以下几方面展开:1.段落级别先秦典籍双语语料库的构建人工获取网络先秦典籍双语资源,并通过半自动化的方式构建段落级别对齐的典籍双语平行语料库。基于获取到的段落对齐的双语语料,进行句子划分后进行人工双语句子对齐,共生成典籍古文-英文对齐句对13700对。2.先秦典籍古文-英文句子对齐方法选取及特征抽取本文选用基于长度和词汇相结合的方法,将分类思想引入双语句子对齐研究中。通过分析古文和英文的语言特点与句法结构,结合现有研究综合提取出四个古文英文对齐句对特征,其中包括句子长度特征、对齐模式特征、标点符号特征以及关键词互译特征。选取句子对齐语料中的《论语》《礼记》语料,共含对齐句对5941对,生成候选句对集(包含对齐句对与非对齐句对)共36728个双语句对作为实验语料。使用提取到的特征,训练双语语料并为每个候选句对分配统计得分,假设每个句对的概率独立并计算概率最大值。3.先秦典籍古文-英文句子对齐模型构建首先基于人工抽取的特征,使用监督学习从“序列标注”与“整体分类”这两种对齐句对识别的角度进行实验。进行对比后最终选取句子对齐效果最好的LSTM-CRF模型,F值为92.67%,并基于此进行特征融合实验,最终提出了有效适用于古文-英文句子对齐的方法。随后探索无需进行人工特征抽取与计算的方法,基于Doc2vec自动获取的双语语义特征进行对齐研究,并在使用LSTM模型时效果较好。
杨明星,吴丽华,牛桂玲,闫达[7](2018)在《“互联网+”背景下多模态、多语种外交话语平行语料库设计与创建探析》文中研究表明外交语料库研究与建设在我国尚属空白领域,明显落后于西方发达国家,难以满足中国大国外交战略需求。在全球化时代和互联网背景下,建设多模态、多语种外交话语平行语料库,不仅是我国实施大国外交的当务之急,也是外交话语翻译与传播工作的必然要求。基于已建成的小型外交话语汉英平行语料库以及外交话语和外交翻译的特殊性,本文探讨了外交语料库建设的意义、原则、策略和架构,研制了外交语料的采集、分类、数字化加工、存储和在线检索等技术处理路径和流程。论文还重点论述了外交术语库的数据结构和生成机制,优化和升级了外交机辅翻译模型。笔者提出,在外交语料库设计和研制过程中应考虑遵循政策性(即"政治等效")、专业性、动态性、兼容性、安全性五大原则。外交语料库的开发研制前景广阔,对中国特色大国外交的话语构建、翻译与传播无疑具有重要推动作用。
黄堃[8](2017)在《基于双语词嵌入的大规模语料库词对齐方法研究》文中认为大数据时代的来临使得语料库研究同时面临机遇和挑战,一方面数据量的增大使得基于语料库的统计机器翻译的翻译质量不断得到提升,另外一方面传统机器翻译方法面对大规模语料库时存在诸多弊端,急切需要能够适应于大数据集的机器翻译方案。词对齐是机器翻译的重要问题之一,许多机器翻译技术方案都要求平行语料能够做到词语级别的对齐,而目前主流的词对齐方法和工具由于需要维护规模庞大的词翻译概率表,在分布式环境下会产生巨大的网络传输开销,不利于并行化,在面对大规模数据集时存在较大的性能问题。深度学习研究的广泛开展以及词嵌入(word embedding)技术在自然语言处理领域的深入应用为词对齐算法开辟了一条新的途径,而双语词嵌入(bilingual word embedding)技术的出现,更使得利用词嵌入技术来跨语种计算词汇相似度成为可能。本文提出利用双语词嵌入来计算词汇互译概率,在此基础上实现词对齐。与传统方法中庞大的词翻译概率表相比,词嵌入技术中需要用到的轻量级词向量表在传输消耗上占很大优势,更能够适应大规模语料场景与分布式计算环境。首先,本文针对目前双语词嵌入技术中存在的训练效率低的问题,提出了基于Spark的并行化方案。目前的双语词嵌入技术中的词向量训练主要采用两种方法,即基于单语种词向量方法和双语同时训练的方法,这两种方法各有利弊,分别适用于不同的应用环境,本文对这两种方法分别实现了基于Spark的并行化算法。在基于单语种词向量方法的并行化实现中,本文提供了两种方案,分别满足用户对于精度和效率的需求。由于双语同时训练的方法依赖于基于负采样(negative sampling)的Skip-gram模型,本文实现了该模型的并行化方案。在此并行化方案的基础上,本文实现了完整的双语同时训练的双语词嵌入并行化算法。实验结果证明,以上并行化算法能够高效地训练双语词向量,明显降低词向量训练过程的时耗。在有了高效的并行化双语词嵌入算法的基础上,本文提出利用双语词嵌入来进行语料库词对齐。本文首先提出一个通用的词对齐模型,在此基础上针对双语词嵌入的特性对该模型进行优化,通过引入相对相似度、向量化未登录词以及引入停词表等手段来提升该模型的词对齐效果。实验结果表明,本文提出的基于双语词嵌入技术的词对齐算法在正确性上优于传统词对齐算法。接着,本文实现了该词对齐算法的并行化版本,进一步提升了词对齐的效率。然后,本文利用上述并行化词对齐方法对联合国平行库中的英汉平行语料进行词对齐,构建了一个约1600万句对的词对齐英汉语料库,并且将从词向量训练到最终语料库生成的时间控制在了3小时以内。为了进一步提升双语词嵌入的精度和最终词对齐的效果,本文在分析已有工作不足的基础上提出MPS-Neg双语词嵌入模型,并在该模型的基础上提出MPS-Neg双语词嵌入-词对齐算法。MPS-Neg模型在双语词向量表的训练过程中不断强化两种语言间词向量的联系,使得训练得到的双语词向量保存了更多的双语互译信息,这使得MPS-Neg模型相比其他双语词嵌入模型能够更适合于词对齐任务。实验证明,基于MPS-Neg模型的MPS-Neg算法的词对齐效果优于基于已有双语词嵌入模型的词对齐算法,并且在正确率上相比于传统词对齐方法提高了 9个百分点。在不损失精度的前提下,MPS-Neg的词对齐效率相比传统方法也有较大提升。
阿西穆·托合提,早克热·卡德尔,吐尔根·依布拉音,艾山·吾买尔[9](2017)在《乌兹别克语-维吾尔语双语语料库构建平台的设计与实现》文中研究说明在语言研究和机器翻译中,创建对齐的语料库是极其重要的基础工作之一。由于乌兹别克语和维吾尔语之间存在着一定的相似性,待翻译的乌兹别克语句子和转换得到的维吾尔语句子的语法结构和词序是相似的。该文利用两种语言之间的这种相似关系设计并实现了乌兹别克语-维吾尔语双语语料库构建平台,用该平台可以简单的转换字母生成译文,并对原文和译文分词,不仅实现句子级别的对齐任务,还能实现词语级别的对齐任务。用该平台已经构建了包含8124条句对的双语对齐语料库。
司莉,庄晓喆,贾欢[10](2015)在《近10年来国外多语言信息组织与检索研究进展与启示》文中研究指明近年来国外在多语言信息组织与检索研究领域取得了显着进展。本文以Wo S、ACM、Emerald、Elsevier、Pro Quest、Springer等数据库收录的文献为基础,对近10年来该领域的研究进行述评。国外研究重点关注以下问题:多语言本体构建与协调,基于关联数据的多语言语义网建设,跨语种语言资源和知识组织系统互操作,多语言文本分类与聚类,多语言环境下的用户信息行为,多语言信息检索模型,多语言信息检索方法与技术,多语言信息检索系统开发及评估,特定领域的多语言信息检索,交互式多语言信息检索。对我国的启示主要体现在:加强实证研究方法的应用,开发面向实用的多语言信息检索系统,注重基于语义的信息组织与检索研究,拓展特定学科领域应用研究。
二、多语种双语对齐平台的设计与实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、多语种双语对齐平台的设计与实现(论文提纲范文)
(1)多语言文本嵌入模型的研究及应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究目的 |
1.3 研究内容 |
1.4 本文贡献 |
1.5 论文结构 |
第二章 相关理论和方法研究 |
2.1 文本嵌入 |
2.1.1 语言模型 |
2.1.2 文本表示 |
2.1.3 多语言的文本表示 |
2.2 文本嵌入的评估方法 |
2.2.1 内在评价 |
2.2.2 外在评价 |
2.3 平行语料 |
2.3.1 平行语料分类 |
2.3.2 多语言平行语料库 |
2.3.3 Coppa平行语料库 |
2.4 本章小结 |
第三章 系统结构与基础工作 |
3.1 系统结构和流程 |
3.2 基础工作 |
3.2.1 Coppa语料预处理 |
3.2.2 词语翻译API |
3.2.3 其他工具和资源 |
3.3 本章小结 |
第四章 多语言文本嵌入模型 |
4.1 单语言文本嵌入模型选择 |
4.1.1 CBOW |
4.1.2 Skip-gram |
4.1.3 GloVe |
4.1.4 最终选择 |
4.2 基于伪单语料的多语言文本嵌入模型 |
4.2.1 混合语料的训练 |
4.2.2 模型的训练 |
4.3 基于双语平行语料的多语言Skip-gram文本嵌入模型 |
4.3.1 多语言Skip-gram |
4.3.2 单语言OOV词汇的兼容 |
4.3.3 多语言模型空间 |
4.4 本章小结 |
第五章 实验方法和结果分析 |
5.1 文本嵌入模型的训练和评估方法 |
5.1.1 英语文本嵌入模型的训练 |
5.1.2 基于伪单语料的多语言文本嵌入模型的训练 |
5.1.3 基于并行语料的多语言Skip-gram文本嵌入模型的训练 |
5.1.4 文本嵌入模型的评估方法 |
5.1.5 长文本分类模型 |
5.1.6 跨语言专利文本检索 |
5.2 实验与分析 |
5.2.1 实验数据 |
5.2.2 文本嵌入模型的内在评估 |
5.2.3 专利长文本分类评估 |
5.2.4 跨语言专利文本检索评估 |
5.3 文本嵌入模型的实际应用 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 研究总结 |
6.2 讨论与总结 |
参考文献 |
致谢 |
攻读硕士学位期间发表的学术论文 |
(2)基于语料库的《政府工作报告》日译文本翻译语言特征研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
第一章 绪论 |
1.1 选题背景 |
1.1.1 语料库翻译学研究 |
1.1.2 中央文献翻译研究 |
1.2 研究目的和研究问题 |
1.2.1 研究目的 |
1.2.2 研究问题 |
1.3 理论框架和研究方法 |
1.3.1 理论框架 |
1.3.2 研究方法 |
1.4 研究意义和研究结构 |
1.4.1 研究意义 |
1.4.2 研究结构 |
第二章 文献综述 |
2.1 语料库翻译学 |
2.1.1 缘起与发展 |
2.1.2 研究内容 |
2.2 翻译语言特征 |
2.2.1 翻译共性 |
2.2.2 具体语言对翻译语言特征 |
2.3 语料库翻译研究现状 |
2.3.1 国内研究概况 |
2.3.2 国内各研究领域情况 |
2.3.3 日本的语料库研究 |
2.4 政府工作报告外译研究 |
2.4.1 英译、俄译研究 |
2.4.2 日译研究 |
2.5 本章小结 |
第三章 《政府工作报告》日译文本问卷调查 |
3.1 背景分析 |
3.1.1 文本类型 |
3.1.2 翻译方法 |
3.1.3 受众选择 |
3.2 第1 次问卷调查 |
3.2.1 调查概况 |
3.2.2 调查结果 |
3.2.3 结果分析 |
3.3 第2 次问卷调查 |
3.3.1 调查概况 |
3.3.2 调查结果 |
3.3.3 结果分析 |
3.4 本章小结 |
第四章 《政府工作报告》专用语料库建设 |
4.1 语料库建设现状 |
4.1.1 语料库的发展和类型 |
4.1.2 语料库翻译研究和语料库应用翻译研究 |
4.1.3 中日研究语料库 |
4.2 语料库制作 |
4.2.1 语料收集和处理 |
4.2.2 “网络爬虫” |
4.2.3 语料对齐 |
4.2.4 检索软件 |
4.3 政府工作报告专用语料库 |
4.3.1 语料收集和清理 |
4.3.2 语料库建设 |
4.3.3 语料库检索 |
4.4 本章小结 |
第五章 《政府工作报告》日译词汇特征分析 |
5.1 词汇总体特征 |
5.1.1 类符/形符比和词汇密度 |
5.1.2 词汇出现次数分布 |
5.1.3 高频词 |
5.2 词汇应用特征 |
5.2.1 略语结构 |
5.2.2 比喻结构 |
5.2.3 专有结构 |
5.3 本章小结 |
第六章 《政府工作报告》数词略语日译特征分析 |
6.1 数词略语日译探讨 |
6.1.1 观察方法 |
6.1.2 日译统计 |
6.1.3 日译分类 |
6.2 数词略语日译讨论 |
6.2.1 第1 类数词略语 |
6.2.2 第2 类数词略语 |
6.2.3 其他小类(种) |
6.3 日译词汇共性特征 |
6.4 本章小结 |
第七章 《政府工作报告》日译句法特征分析 |
7.1 句法特征 |
7.1.1 平均句长 |
7.1.2 典型语句结构应用特征 |
7.1.3 句法逻辑关系 |
7.2 外译文本句法比较 |
7.2.1 2016 年度日英译比较 |
7.2.2 2017 年度日英译比较 |
7.2.3 2018 年度日英译比较 |
7.3 日语语言要求 |
7.3.1 「连用形」语法特征 |
7.3.2 日本学者汉日翻译研究 |
7.3.3 日语文章表达要求 |
7.4 日译句法共性特征 |
7.5 本章小结 |
第八章 《政府工作报告》日译搭配和语义韵分析 |
8.1 搭配和语义韵研究 |
8.1.1 近年的相关研究 |
8.1.2 搭配和语义韵 |
8.1.3 研究方法 |
8.2 “坚持”的搭配和语义韵 |
8.2.1 “坚持”的搭配词 |
8.2.2 “坚持”的共选型式 |
8.2.3 “坚持”的语义韵 |
8.3 「坚持」的搭配和语义韵 |
8.3.1 「坚持」的搭配词 |
8.3.2 「坚持」的共选型式 |
8.3.3 「坚持」的语义韵 |
8.4 “坚持”「坚持」的语义韵比较 |
8.5 本章小结 |
第九章 结论 |
9.1 研究总结及主要发现 |
9.1.1 研究总结 |
9.1.2 主要发现 |
9.1.3 不足之处 |
9.2 中央文献日译对策思考 |
9.3 研究展望 |
参考文献 |
日本语要约 |
在学期间科研及获奖情况 |
(3)汉语-维语双语词汇资源库构建方法研究(论文提纲范文)
摘要 |
Abstract |
1 引言 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内国际研究现状 |
1.4 本文研究内容 |
1.5 论文结构 |
2 构建双语资源库相关理论研究 |
2.1 汉语词汇本体研究 |
2.2 维语词汇本体研究 |
2.3 汉维词对齐概述 |
2.4 汉维词对齐规范原则研究 |
2.5 语料与语料库概述 |
2.5.1 语料库 |
2.5.2 语料库构建原则及类型 |
2.6 信息检索概述 |
2.7 搜索引擎 |
3 词对齐相关技术方法 |
3.1 爬虫技术及数据处理 |
3.1.1 网络爬虫的基本原理 |
3.1.2 Scrapy工作原理及流程 |
3.2 搜索引擎技术 |
3.3 翻译插件技术 |
3.3.1 翻译插件 |
3.3.2 程序设计实现 |
3.4 基于最大相似性的句对齐技术 |
3.5 基于词典的词对齐技术 |
3.6 在搜索引擎里使用网页分级的算法 |
3.7 基于word2vec的词对齐模型 |
3.8 本章小结 |
4 汉维双语词汇资源库构建研究 |
4.1 总体架构设计 |
4.2 汉语新闻网页内容爬取的实现 |
4.2.1 采集策略 |
4.2.2 网页结构特征分析 |
4.2.3 网页内容爬取 |
4.2.4 数据处理 |
4.3 基于翻译插件的对齐语料库构建 |
4.4 传统对齐语料库构建方法对比分析 |
4.5 本章小结 |
5 基于翻译插件技术的汉维双语词汇资源库构建实现 |
5.1 引言 |
5.2 汉-维自动对齐词汇库研究思路及算法 |
5.2.1 汉-维自动对齐词汇库研究思路 |
5.2.2 汉-维自动对齐词汇库技术研究 |
5.3 爬虫技术 |
5.4 汉语语料获取与预处理技术 |
5.4.1 语料获取 |
5.4.2 语料预处理 |
5.5 汉维双语词典构造技术 |
5.5.1 标准汉维词典 |
5.5.2 汉语词汇库的研究 |
5.5.3 基于词典的汉维词对齐技术 |
5.6 基于插件翻译技术汉维双语词语对齐技术 |
5.7 多技术融合的汉维双语词语对齐器 |
5.8 界面 |
5.9 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
(4)中央文献核心语块构建及翻译模式探究 ——以国务院《政府工作报告》(2014-2018)及俄译本为例(论文提纲范文)
致谢 |
摘要 |
Abstract |
第一章 绪论 |
1.1 选题缘由 |
1.2 研究任务与研究方法 |
1.2.1 研究任务 |
1.2.2 研究方法 |
1.3 国内外研究综述 |
1.3.1 语块研究的相关理论 |
1.3.2 语块理论国内外研究综述 |
1.3.3 中央文献对外翻译研究综述 |
1.4 研究价值及创新点 |
第二章 中央文献核心语块的构建 |
2.1 中央文献核心语块的本体研究 |
2.1.1 语块的定义及分类 |
2.1.2 中央文献核心语块的界定 |
2.2 中央文献核心语块的提取 |
2.2.1 中央文献核心语块的识别原则 |
2.2.2 中央文献核心语块提取的基本方法 |
2.3 中央文献核心语块构建 |
2.3.1 中央文献核心语块的构建过程 |
2.3.2 中央文献核心语块的序列层级 |
本章小结 |
第三章 认知翻译视角下的语块翻译 |
3.1 翻译研究的认知转向 |
3.1.1 认知科学与翻译 |
3.1.2 认知视角下的翻译观 |
3.2 语块翻译的认知加工 |
3.2.1 语块翻译的认知加工过程 |
3.2.2 语块翻译的认知加工策略 |
本章小结 |
第四章 中央文献核心语块的认知翻译模式 |
4.1 中央文献核心语块的认知翻译模式构图 |
4.1.1 翻译理论模式 |
4.1.2 中央文献核心语块的认知翻译模式图 |
4.2 中央文献核心语块的认知翻译模式阐释 |
4.2.1 语言符号认知 |
4.2.2 逻辑思维认知 |
4.2.3 主体间性认知 |
4.2.4 社会文化认知 |
4.2.5 语境关系认知 |
本章小结 |
第五章 结语 |
5.1 中央文献核心语块构建的应用前景 |
5.2 全文小结 |
参考文献 |
主要参考词典 |
Реферат |
附录Ⅰ 中央文献核心语块中俄对照表 |
附录Ⅱ NLPIR汉语分词词性标记对照表 |
附录Ⅲ 汉语分词词性标注示例 |
攻读博士学位期间发表的研究成果 |
(5)基于深度学习的多语种文本分类系统的研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究目的和意义 |
1.2 文本分类方法与技术研究现状 |
1.2.1 文本表示模型 |
1.2.2 基于深度学习的文本分类 |
1.2.3 多语种文本分类 |
1.3 研究内容与主要工作 |
1.4 本文结构 |
第2章 文本分类相关技术 |
2.1 引言 |
2.2 文本表示 |
2.2.1 主题模型 |
2.2.2 Word2Vec模型 |
2.3 文本分类深度学习模型 |
2.3.1 卷积神经网络模型 |
2.3.2 长短时记忆单元 |
2.4 分类系统的相关技术框架及数据库 |
2.5 本章小结 |
第3章 基于主题信息和神经网络的多语种文本分类模型 |
3.1 引言 |
3.2 基于双向长短时记忆(BiLSTM)的多语种文本分类模型 |
3.2.1 多语种文本表示 |
3.2.2 BiLSTM神经网络结构 |
3.3 基于主题信息和BiLSTM-CNN的多语种文本分类模型 |
3.3.1 多语种文本表示 |
3.3.2 BiLSTM-CNN模型 |
3.4 实验结果及分析 |
3.4.1 多语种语料预处理 |
3.4.2 分类评价指标 |
3.4.3 实验结果及分析 |
3.5 本章小结 |
第4章 系统的设计与实现 |
4.1 引言 |
4.2 总体设计与模块化框架 |
4.2.1 系统功能设计 |
4.2.2 数据库表的设计 |
4.3 系统模块设计 |
4.3.1 分类器训练模块 |
4.3.2 分类器工作模块 |
4.3.3 分类器管理模块 |
4.4 系统功能展示 |
4.5 功能测试 |
4.6 本章小结 |
结论 |
参考文献 |
攻读硕士期间取得的成果 |
致谢 |
(6)基于多模型的先秦典籍汉英平行语料句子对齐研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 研究目的与意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 研究内容 |
1.4 研究方法 |
第二章 平行语料库研究现状及相关技术 |
2.1 平行语料库研究 |
2.1.1 国外相关研究 |
2.1.2 国内相关研究 |
2.2 句子对齐概念 |
2.3 双语句子对齐方法 |
2.3.1 基于长度的方法 |
2.3.2 基于词汇信息的方法 |
2.3.3 基于长度与词汇相结合的方法 |
2.4 本章小结 |
第三章 双语语料采集与语料库构建 |
3.1 网络资源选取 |
3.2 语料获取及段落级平行语料库构建 |
3.3 汉英典籍双语语料预处理 |
3.4 句子划分及人工句子对齐 |
3.5 本章小结 |
第四章 汉英双语文本分析及特征选取 |
4.1 汉英双语文本分析 |
4.2 汉英双语文本特征选取 |
4.2.1 句子长度特征 |
4.2.2 对齐模式特征 |
4.2.3 标点符号特征 |
4.2.4 关键词互译特征 |
4.3 本章小结 |
第五章 句子对齐算法选取 |
5.1 古文-英文句子对齐算法 |
5.2 分类算法概述 |
5.2.1 整体分类模型 |
5.2.2 序列标注模型 |
5.3 本章小结 |
第六章 句子对齐实现及实验结果分析 |
6.1 实验数据选取及处理 |
6.1.1 数据选取 |
6.1.2 候选句对生成 |
6.1.3 数据平衡处理 |
6.2 实验及结果分析 |
6.2.1 整体分类实验 |
6.2.2 序列标注实验 |
6.3 基于LSTM-CRF句子对齐模型的特征选择 |
6.4 基于语义特征的句子对齐 |
6.4.1 实验数据处理 |
6.4.2 实验及结果分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 本文创新点 |
7.3 不足与展望 |
参考文献 |
附录 关键词词典 |
致谢 |
攻读学位期间取得的学术成果目录 |
(7)“互联网+”背景下多模态、多语种外交话语平行语料库设计与创建探析(论文提纲范文)
1. 国内外外交话语平行语料库研制动态及评估 |
2. 创建外交话语平行语料库的科学意义和时代价值 |
3. 多模态、多语种外交话语平行语料库创建的原则与路径 |
3.1 外交话语平行语料库创建的原则 |
3.1.1 政策性原则 |
3.1.2 专业性原则 |
3.1.3 动态性原则 |
3.1.4 兼容性原则 |
3.1.5 安全性原则 |
3.2 外交话语平行语料库语料的构成与分类 |
3.3 外交话语平行语料库语料的来源与采集 |
3.4 外交话语平行语料库语料录入、校对和加工存储 |
3.4.1 语料录入 |
3.4.2 语料校对 |
3.4.3 语料加工及存储 |
3.4.4 语料对齐处理 |
3.4.5 多语种语料加工 |
3.4.6 多模态语料加工 |
3.5 外交话语平行语料库的检索及维护管理 |
3.6 外交话语平行语料库的术语库生成 |
3.6.1 外交话语平行语料库的术语库自动生成 |
3.6.2 外交机辅翻译模型下的外交术语库构建 |
4. 结语及决策建议 |
(8)基于双语词嵌入的大规模语料库词对齐方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 相关研究工作 |
1.3 本文主要工作 |
1.4 本文组织结构 |
第二章 背景知识 |
2.1 词嵌入技术 |
2.1.1 单语词嵌入 |
2.1.2 双语词嵌入 |
2.2 大数据处理平台Spark |
2.2.1 Spark概述 |
2.2.2 Spark编程模型 |
2.2.3 机器学习库MLlib |
2.3 本章小结 |
第三章 基于Spark的双语词嵌入模型 |
3.1 基于负采样技术的Skip-gram模型并行化实现 |
3.2 基于单语词向量的双语词嵌入模型并行化 |
3.2.1 并行化算法基本流程 |
3.2.2 并行化方案 |
3.3 双语同时训练的双语词嵌入算法并行化 |
3.3.1 算法总体框架 |
3.3.2 并行化工作 |
3.4 本章小结 |
第四章 词对齐算法及大规模语料库组建 |
4.1 概述 |
4.2 基于双语词嵌入技术的词对齐算法 |
4.2.1 基本词对齐模型 |
4.2.2 基本模型的优化 |
4.3 基于Spark的词对齐算法的并行化 |
4.4 大规模英汉双语平行语料库组建 |
4.5 本章小结 |
第五章 MPS-Neg双语词嵌入与词对齐算法 |
5.1 概述 |
5.2 MPS-Neg双语词嵌入模型 |
5.2.1 模型概述 |
5.2.2 具体实现及并行化 |
5.3 MPS-Neg双语词嵌入-词对齐算法 |
5.4 本章小结 |
第六章 实验设计与结果分析 |
6.1 实验配置 |
6.2 双语词嵌入并行化算法实验 |
6.2.1 基于单语词向量的双语词嵌入对比实验 |
6.2.2 双语词嵌入效果与性能对比实验 |
6.3 词对齐算法效果与并行化性能测试 |
6.3.1 词对齐准确性测试 |
6.3.2 并行化词对齐算法性能测试 |
6.4 本章小结 |
第七章 总结和展望 |
7.1 本文工作总结 |
7.2 进一步工作 |
致谢 |
参考文献 |
附录 |
(9)乌兹别克语-维吾尔语双语语料库构建平台的设计与实现(论文提纲范文)
1 背景 |
2 工具设计与实现 |
2.1 开发思路 |
2.1.1 乌-维字母对应关系 |
2.1.2 平台工作流程 |
2.2 数据库设计 |
2.3 程序设计 |
3 结束语 |
(10)近10年来国外多语言信息组织与检索研究进展与启示(论文提纲范文)
0 引言 |
1 多语言信息组织研究进展 |
1. 1 多语言本体的构建与协调 |
1. 2 基于关联数据的多语言语义网建设 |
1. 3 跨语种语言资源与知识组织系统的互操作 |
1. 4 多语言文本分类与聚类 |
2 多语言信息检索研究进展 |
2. 1 多语言环境下的用户信息行为 |
2. 2 多语言信息检索模型 |
2. 3 多语言信息检索方法与技术 |
2. 3. 1 机器翻译 |
2. 3. 2 双语 / 多语语料库和词典 |
2. 3. 3 多语言词汇与信息抽取 |
2. 3. 4 命名实体识别 |
2. 3. 5 词义消歧 |
2. 3. 6 查询扩展 |
2. 4 多语言信息检索系统开发及评估 |
2. 4. 1 多语言信息检索系统开发 |
2. 4. 2 多语言信息检索系统评估 |
2. 5 特定领域的多语言信息检索 |
2. 6 交互式多语言信息检索 |
3 总结及启示 |
3. 1 总结 |
3. 2 启示 |
(1) 加强实证研究方法的应用 |
(2) 开发面向实用的多语言信息检索系统 |
(3) 注重基于语义的信息组织与检索研究 |
(4) 拓展特定学科领域的多语言信息检索研究 |
四、多语种双语对齐平台的设计与实现(论文参考文献)
- [1]多语言文本嵌入模型的研究及应用[D]. 任泽. 上海交通大学, 2020(01)
- [2]基于语料库的《政府工作报告》日译文本翻译语言特征研究[D]. 童富智. 天津外国语大学, 2020(08)
- [3]汉语-维语双语词汇资源库构建方法研究[D]. 祖力克尔江·司坎旦尔. 新疆师范大学, 2020(07)
- [4]中央文献核心语块构建及翻译模式探究 ——以国务院《政府工作报告》(2014-2018)及俄译本为例[D]. 康喆文. 天津外国语大学, 2019(02)
- [5]基于深度学习的多语种文本分类系统的研究与实现[D]. 孟先艳. 延边大学, 2019(01)
- [6]基于多模型的先秦典籍汉英平行语料句子对齐研究[D]. 梁继文. 南京农业大学, 2019(08)
- [7]“互联网+”背景下多模态、多语种外交话语平行语料库设计与创建探析[J]. 杨明星,吴丽华,牛桂玲,闫达. 外语教学, 2018(06)
- [8]基于双语词嵌入的大规模语料库词对齐方法研究[D]. 黄堃. 南京大学, 2017(05)
- [9]乌兹别克语-维吾尔语双语语料库构建平台的设计与实现[J]. 阿西穆·托合提,早克热·卡德尔,吐尔根·依布拉音,艾山·吾买尔. 电脑知识与技术, 2017(07)
- [10]近10年来国外多语言信息组织与检索研究进展与启示[J]. 司莉,庄晓喆,贾欢. 中国图书馆学报, 2015(04)