一、并行网络处理器在路由器中的应用(论文文献综述)
赵鹏程[1](2021)在《高性能路由器多级缓存架构设计与实现》文中认为随着网络发展,人们对网络的需求丰富,路由器需要对数据包完成更复杂的处理从而为用户提供更多的功能和更好的服务质量(QoS)。而高性能路由器单端口速率越来越快,为处理链路拥塞时缓存的海量数据包,通过无限增大路由器存储空间,对于路由器工艺设计来说难以实现,且因更复杂处理流程而增加的端处理延时无法改善。可以从路由器存储体系入手,增加路由器存储体系带宽,使单位时间内能够处理更多网络数据包,以进一步提升路由器处理性能。因此本课题开展了对高性能路由器的存储结构体系的研究,并设计了基于混合SRAM/DRAM存储体系的多级缓存架构。欲研究多级缓存架构,首先需要片上缓存预留足够的存储空间缓存待转发数据包,基于此目的设计精细化的存储管理方案。包括分析多级缓存架构对片上缓存的使用需求将片上缓存分区,定义不同分区的最小内存单元;为更有效的利用片上缓存中数据包存储区间,设计伙伴式缓存空间管理算法,使减少内存碎片,加速完成内存分配;考虑到多核使用共享内存而引入的问题,设计基于伙伴式缓存空间算法的每流队列并行化存储调度方案。其次,在片上缓存支持数据包存储转发的前提下,设计路由器多级缓存架构。其功能模块包括缓存空间管理模块,用于缓存切换控制,并为路由器存储需求分配合适的缓存空间;流分类模块,负责完成流分类以及接入控制,将流分类的结果服务于多级缓存架构;队列调度模块,协同完成每流队列的调度转发。最后,对片上缓存空间的容量进行预估以判断存储管理方案合理性。对伙伴式缓存空间管理算法以及其并行化方案进行仿真及算法性能优化验证。基于ns-3搭建多级缓存架构仿真,并以此为基础实现对缓存切换控制算法,队列优先级调度算法的进一步仿真,验证算法对架构性能的提升和优化。
赵玉宇,程光,刘旭辉,袁帅,唐路[2](2021)在《下一代网络处理器及应用综述》文中进行了进一步梳理网络处理器作为能够完成路由查找、高速分组处理以及Qo S保障等主流业务的网络设备核心计算芯片,可以结合自身可编程性完成多样化分组处理需求,适配不同网络应用场景.面向超高带宽及智能化终端带来的网络环境转变,高性能可演进的下一代网络处理器设计是网络通信领域的热点问题,受到学者们的广泛关注.融合不同芯片架构优势、高速服务特定业务,使得下一代网络处理器具备分组处理性能加速、动态配置硬件资源和服务应用智能化的特点.对利用新型可编程技术、面向新型网络体系结构以及针对新型高性能业务的下一代网络处理器设计方案与现有研究进行分析比较,并对下一代网络处理器的工业化进程做了介绍;提出了高性能可演进的下一代网络处理器体系架构,通过软硬件协同分组处理流水线、多级缓存与分组调度、资源管理及编程接口等方面给出了架构设计细节,研制了原型系统并对其性能进行了测试.明确了自主可控的网络处理器体系架构的发展方向和智能化应用场景,讨论了未来可能的研究方向.
王领[3](2020)在《高能效片上网络的近似通信方法研究》文中提出随着半导体技术和计算机体系结构设计的进步,越来越多的核心被集成到一个芯片内。当前多核处理器的核心数成为了衡量处理器计算性能的重要指标。但是面对不断增加的核心数量,核心之间的互连方案成为了影响芯片整体能效的主要因素之一。相比总线结构,片上网络具有更高的吞吐量,更低的传输延迟和更好的可扩展性,从而成为了大规模并行多核系统的主流片上互连方案。在大数据时代,大规模并行多核系统的高能效设计需求以及应用的容错性正驱动着基于近似计算的性能和能耗优化设计。近似计算通过放宽应用程序的精度约束,为高能效体系结构设计提供了可行的解决方案,并且在计算单元和存储单元中取得了显着的能效收益。面对日益增长的通信需求以及片上网络性能和能耗的优化瓶颈,如何实现基于片上网络的近似通信设计,已成为高能效片上网络的重要研究问题。本文围绕高能效片上网络的近似通信设计,主要在以下四个方面进行了探索性研究:第一、提出了片上近似通信网络的动态流控机制。网络拥塞是影响传输延迟的因素之一,并且不同数据流对于网络拥塞的影响不同。该方法在网络接口中设计了基于数据近似的流控结构,通过数据近似来减少注入数据量,从而实现节点注入率的调控。此外,它还设计了动态流控算法,根据数据流对网络拥塞的影响对节点注入率进行动态调控,实现片上网络性能的提升。基于PARSEC基准应用测试,结果表明,该方法在8%的应用误差内降低平均传输延迟最高可达44.7%,提升网络吞吐量最高可达40%,并且实现应用平均加速1.12倍。第二、提出了基于动态有损压缩的片上网络性能优化方法。网络负载是影响片上网络性能的因素之一,而数据压缩是减少网络负载的有效方式。但是现有有损压缩和无损压缩设计都采用静态压缩编码,忽略了数据对网络性能的影响差异。为了提升片上网络性能优化收益,该方法提出了一种动态有损压缩设计。它对不可近似数据采用无损压缩编码,对近似数据采用有损压缩编码。此外,它还通过动态调控有损压缩的误差阈值,在传输质量限制范围内,实现网路性能最优。基于PARSEC基准应用测试,结果表明,相比有损压缩方法,在相同的传输质量下,该方法具有更低的压缩率和更低的传输延迟,并且相比无损压缩,它提高片上网络吞吐量可达37.5%,同时保持了较低的应用误差。第三、提出了基于近似通信的无缓冲片上网络性能优化方法。通过去除缓冲器,无缓冲片上网络降低了功耗和面积开销,但也导致了传输延迟的增加以及网络吞吐量的降低。通过无缓冲片上网络性能分析,在基于重传的无缓冲片上网络中,数据包重传是影响片上网络性能的关键因素。为了提升无缓冲片上网络性能,该方法设计了一种新型无缓冲片上网络结构,通过有损传输来减少数据包重传,提升片上网络性能。此外它还提出了数据包近似编解码设计来近似恢复缺失的数据。因此,该方法以极低的质量损失实现无缓冲片上网络性能提升。基于PARSEC基准应用测试,结果表明,与已有的无缓冲片上网络相比,该设计减少了83.6%的重传,降低了46.7%的传输延迟,提高网络吞吐量达92%,实现应用加速1.2倍,同时保持了较低的应用误差。第四、提出了基于多层网络设计的片上网络能耗优化方法。片上网络的性能优化通常会导致面积开销增加,影响片上网络能耗。为了降低片上网络能耗,该方法设计了一种双层网络结构。它包括有损子网络和无损子网络。基于有损传输,有损子网实现一种轻量低延迟的无缓冲结构设计。此外,基于分流传输设计,该方法实现了部分数据的传输加速以及传输质量的控制。因此,该方法提升片上网络性能,同时降低了片上网络面积开销和功耗。基于PARSEC基准应用测试,结果表明,与单层片上网络相比,并在相同的网络吞吐量下,该方法减少了42.2%传输延迟,节省了37.8%的网络面积开销,降低了28.9%的网络功耗。
王子聪[4](2019)在《众核处理器共享Cache访问均衡性研究》文中提出随着片上系统规模的不断扩大和处理核数的增多,系统对于片上Cache在容量和速度方面有了更高的要求。为了能够有效利用Cache资源,通常采用非一致Cache访问(NUCA)结构以支持高容量低延迟的Cache组织。另一方面,片上网络由于具备良好的可扩展性在片上众核处理器的互连方式上具有显着优势。因此,基于片上网络的非一致Cache访问体系结构逐渐成为未来众核处理器用于组织大容量Cache的主流系统架构。在该系统架构中,最后一级缓存通常在物理上分布于每个网络节点,Cache存储体在逻辑上共同构成一个统一的共享Cache。当处理核发出Cache访问请求时,其访问时间由访问数据所在的Cache存储体节点与请求处理核节点的距离有关。当系统规模逐渐增大时,访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大。另外,片上网络规模的增大也会促使Cache访问延迟逐渐由网络延迟主导。延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问报文并成为制约系统性能的瓶颈。因此,研究众核处理器的共享Cache访问均衡性对于提升网络性能和系统性能具有重要意义。本文面向共享Cache访问均衡性,通过片上网络路由器结构、片上网络链路分布策略以及众核处理器存储映射策略三个方面对该问题开展多方面的优化手段。本文的主要研究成果以及创新点如下:(1)提出了一种面向公平性的片上网络交叉开关分配策略为了缓解由于片上网络规模的扩大而导致的网络延迟不均衡问题,本文提出了一种面向公平性的交叉开关分配器FOSA。传统的分离式分配器由于采用简单的轮询仲裁机制,因此并不能感知各个端口的拥塞情况,从而也无法掌握哪些端口更容易引起拥塞并造成大延迟网络报文。相比之下,FOSA采用基于公平因子的仲裁器,在交叉开关分配的输入仲裁阶段和输出仲裁阶段能够了解哪些端口更容易引起拥塞,从而优先响应这些端口的报文请求,缓解由于端口拥塞造成的网络报文延迟不均衡现象。实验结果显示,相比于传统的分离式分配策略和最近的TS-Router分配策略,FOSA在延迟标准差上分别平均降低了13.8%和3.9%,在最大延迟上分别平均降低了45.6%和15.1%,表明FOSA能够有效地改善网络延迟均衡性,并减少大延迟网络报文对于系统整体性能的影响。(2)提出了一种负载均衡的片上网络链路分布策略随着片上网络规模的不断增大,由于链路物理位置的不对等性网络流量在链路上的分布是不均衡的。在NUCA结构下,网格网络的中心区域更容易成为网络热点地区,因此中心附近的链路比外围的链路要承受更多的网络流量负载。不同于传统的一致性链路互连结构,本文提出了一种负载均衡的链路分布策略,该策略依据各条链路的流量负载为其分配合适的物理通道数量。本文分析了不同网络规模下网格网络中的流量分布,并给出了相应的负载均衡链路分布设计。实验结果表明,在采用更少的物理通道数量的情况下,负载均衡的片上网络链路分布策略比一致性链路分布策略更有效地均衡网络流量在链路上的分布,并且优化程度会随着网络规模的增长而更加明显。在PARSEC基准测试程序上的实验表明,负载均衡链路分布策略在报文平均延迟上最大降低了6.97%,平均降低了4.22%;而在系统性能方面,在IPC上平均提升了2.1%。(3)提出了一种面向共享Cache访问均衡性的非一致存储映射策略在片上众核处理器中,大延迟的Cache访问报文往往会成为系统访存的性能瓶颈,因此共享Cache访问均衡性对于系统性能有非常重要的影响。众核处理器中的存储映射实际上影响着最后一级缓存中每个Cache传统的平均访问开销,而传统的静态NUCA(S-NUCA)结构一般采用简单的一致性存储映射。本文提出了一种非一致的存储映射方案,旨在通过改变存储映射设计均衡每个Cache存储体的平均访问开销,达到均衡共享Cache访问均衡性的目的。实验结果表明,相比于传统的S-NUCA结构,本文设计的F-NUCA结构在不同的网络规模下均达到了优化Cache访问均衡性的目标,F-NUCA的结构在16/32/64核规模下在延迟标准差上分别平均降低了0.7%/7.7%/19.6%,在最大延迟上分别平均降低了2.9%/11.6%/12.8%。在系统性能方面,在PARSEC基准测试程序上的实验结果显示,F-NUCA结构在16/32/64核规模下分别最大提升了2.1%/3.9%/14.0%,平均提升了1.1%/2.1%/6.7%。
李存禄[5](2019)在《高性能路由器开关分配与缓存优化技术研究》文中研究表明从片上多核系统到高性能计算机系统,互连网络作为节点之间通信的基础部件,一直是限制系统性能提升的瓶颈。路由器是互连网络的基础结构单元,负责网络中报文的转发,是影响网络吞吐率和报文传输延迟的关键部件。路由器基本结构包括输入端口、缓存、交换开关和输出端口等。其中,缓存用于存储路由器中等待转发的报文,而交换开关负责将报文无冲突的从路由器输入端口转发到输出端口。片上网络通常通过简化路由器流水级来降低报文通过路由器的延迟,而片间网络则通过增加路由器的并行结构来支持多端口和高吞吐率。虽然不同网络中路由器的微体系结构不尽相同,但是交换开关和缓存始终是路由器中的关键部件,因此设计高效的开关分配策略和缓存结构可以提高路由器以至整个网络的性能。本文针对路由器中开关分配方法和缓存优化问题进行了深入研究,主要研究成果及创新点如下:1.提出了通过开关分配与缓存优化协同设计提升性能的方法缓存结构和开关分配的优化都可以有效提升片上网络路由器的性能。已有的方法都是独立地对开关分配和缓存结构进行优化,而忽略了这两部分结构之间的相互影响与协同设计。本文基于已有的片上网络开关分配方法以及缓存优化策略,提出通过协同设计来进一步提升网络性能。该方法一方面采用重排序缓存(Reorder Buffer)技术为开关分配过程提供更多的有效请求,另一方面通过开关分配过程的优化动态选择缓存中的报文进行重排序以有效缓解缓存中的拥塞问题。通过开关分配与缓存优化的协同设计,片上网络的性能可以得到有效提升。2.提出了一种基于网络拥塞信息的开关分配方法传统开关分配方法仅对请求信息进行分析并作出相应的分配决策,忽视了不同端口拥塞程度的差异对开关分配造成的影响。针对这一不足,本文设计了一种新型片上网络开关分配方面CCAS。CCAS将拥塞信息应用在开关分配过程中来提高开关分配的效率。该方法通过在开关分配过程中避免端口拥塞程度进一步加深,在长时间维度上提高了开关分配的效率,显着降低了数据包传输的延迟,提高了网络吞吐率。3.提出了一种基于端点拥塞信息的开关分配方法端点拥塞出现在多个数据流发往同一个目的节点的情况下,并会在网络中形成饱和树从而严重影响网络性能。互连网络设计中通常采用拥塞控制机制来缓解端点拥塞对网络性能的影响,但是很少考虑在开关分配过程中进行针对端点拥塞的优化。本文提出了一种基于端点拥塞信息的开关分配方法,在开关分配过程中限制引起端点拥塞的请求,从而缓解端点拥塞的影响。基于端点拥塞信息的开关分配方法由于推迟了端点拥塞的形成,可以有效提升网络性能。4.提出了一种针对高阶路由器中间缓存的优化设计层次化结构的高阶路由器由很多基于SRAM的中间缓存(Intermediate Buffer)组成。虽然层次化的路由器结构使得路由器可以有效地支持大量端口,但小容量的中间缓存却会成为高阶路由器性能提升的瓶颈。增加中间缓存的容量可以克服这一问题,但是这需要大量的SRAM缓存从而带来很大的硬件开销。本文提出一种新的集中式中间缓存结构,并通过在这一结构中使用新型的STT-MRAM缓存来实现大容量的中间缓存。由于STT-MRAM具有高存储密度和低静态能耗的优点,该设计可以在有效提升高阶路由器性能的同时降低路由器设计的硬件开销。5.提出了一种针对高阶路由器输入端缓存的优化设计高阶路由器中不同端口中输入缓存的容量通常相等且必须匹配网络中的最长链路。但是当前高性能系统大多采用非对称网络,使得网络中链路长度变化很大,从而导致大量输入缓存未被充分利用。已有的工作设计了新的输入缓存架构,允许端口将数据包存储在任意端口上的未使用缓存中。但是,这样的设计在中间缓存中引入了过多的虚通道,使得虚通道过短从而造成性能损失。本文提出一种新的输入缓存架构来有效利用空闲的输入缓存,同时不会在中间缓存引入多余的虚通道。该结构只允许空闲的输入缓存在同一瓦片结构(Tile)上的端口之间共享,不仅减少了复杂的全局电路而且保证了空闲缓存的有效利用。6.完善了一个针对互连网络路由器性能评测的模拟器Net Router Sim针对当前片上以及片间网络性能评测的需要,本文将已有的路由器优化技术进行了实现,并形成了一个新的基于互连网络路由器性能评测的模拟器Net Router Sim。Net Router Sim完善了路由器微体系结构并集成了路由器各个流水阶段新的优化策略,使得高性能路由器体系结构设计以及路由器不同流水级之间的协同设计能够更加快速有效地进行。为高性能路由器设计提供了仿真环境的支持。综上所述,本文围绕“高性能路由器开关分配与缓存优化设计”这一目标,基于对路由器结构与互连网络特性的分析,优化设计了路由器结构,提高了开关分配效率和缓存结构,使得路由器性能和整个互连网络的性能得到很大提升。因此,本文解决了互连路由器设计中的一些实际问题,具有一定的工程价值和理论意义。
杨蕾[6](2019)在《基于片上网络的众核系统的设计与优化》文中指出随着纳米工艺的发展,以及集成电路的设计方法、生产技术、芯片封装和测试技术的进步,晶体管的尺寸越来越小,单个芯片上集成的晶体管的数量成倍增长。大规模集成电路,以及超大规模集成电路(Very Large Scale Integration)已经成为嵌入式系统和多处理器系统发展的主要方向。片上多处理器系统(Many-core Systems)的设计框架成为现代嵌入式系统的发展趋势,也是应用最广泛的超大规模集成电路设计。作为最有潜力的下一代片上多处理器系统架构,基于片上网络的众核系统(Network-on-Chip,简称NoC)互联结构能够提供超强大的并行处理能力、高带宽的片上数据传输能力、高效的计算和通信资源利用率以及系统良好的可扩展性,已经被广泛应用于高性能嵌入式系统。处理器单元个数不断上升以满足任务运行的性能需求。然而,芯片上密集的处理器运行时所产生的功耗密度急剧上升,将会导致处理器的温度升高,进而影响芯片的热可靠性,进而严重威胁芯片的寿命。因此,芯片上集成的处理单元无法在同一时间全部开启或者运行在高效率的状态下,其中一部分不得不被关闭以保证温度可靠性,这就是所谓的暗硅现象。针对暗硅片上网络众核系统的出现对系统性能提升、能耗降低和温度可靠性保证等带来的挑战,现有的方法没有充分利用片上网络众核系统的互联结构与系统级任务管理策略相结合的方式来平衡和解决多目标优化的难题。例如,单方面地分散开启芯片上的处理器,虽然能够保证芯片的安全性,但是会使得处理器之间数据传输的距离增大、片上通信的延迟增加,从而导致系统的性能降低并增加能耗开销。为此,本文基于对片上网络的众核系统架构的设计,采用系统级的任务映射和调度策略,对任务的计算性能、片上的数据通信效率、系统的能耗开销以及芯片的温度可靠性等进行研究并实现协同优化。相对于已有的工作,本文通过深入分析系统架构的特性对研究目标的影响,采用软硬件协同设计的方式,结合新型异构多处理器系统的设计方式以及多处理器系统中任务的管理方式,充分利用片上网络众核系统的互联结构和处理单元的异构性,实现片上网络的众核系统的计算能力、通信效率、系统能耗和芯片温度的多目标优化。主要研究内容如下:(1)分析了片上网络众核系统的通信架构,分析和构建片上网络系统中多处理单元之间的数据传输在空间和时间上的冲突模型,采用整数线性规划方法(Integer Linear Programming,简称ILP)求得高质量解,以减少数据传输冲突从而提高通信效率。细粒度地分析了片上网络系统中多处理单元之间的数据传输在空间和时间上的冲突情况,利用整数线性规划的方法求得片上通信的最优解,以减少数据传输冲突,从而提高通信效率。(2)研究了暗硅片上众核系统性能、能耗和温度可靠性等协同优化技术。根据任务的通信需求,采用软硬件协同设计的技术,设计了静态的片上网络众核系统结构和可重构的片上网络通信架构,并提出了相应的系统级任务分配和调度策略。硬件方面,分别提出三种不同的片上网络互联结构设计方案,包括基于折环式的片上网络结构FoToNoC、基于四核集群的片上网络结构QcNoC和动态可重构的SMART NoC。软件方面,相应地设计了匹配的任务映射和调度的优化模型以及启发式算法。结合集群式的众核系统管理机制,发挥了硬件结构的优势,解决了芯片的热可靠性和片上通信性能优化之间的矛盾,有效提升了片上网络的通信效率,进而提高应用的执行性能和降低系统的能耗。进一步利用SMART NoC的单周期多跳数据传输的技术,根据任务映射和数据交换的需求动态重构片上通信拓扑结构,实现少冲突、低延迟和低能耗的片上通信。(3)针对通信和计算密集型任务,基于非易失性存储技术的新型片上网络众核系统,利用存内计算(Processing-In-Memory,简称PIM)的技术,研究了任务的计算和数据传输性能的优化问题。分析计算和通信密集型应用的任务模型,设计了处理单元和路由器存储单元同时做计算的任务调度方案,减少网络中的数据传输量,从而提高系统效能。利用非易失性存储器可做存内计算(PIM)的属性,在数据传输s中,将处理器上的部分计算在集成STT-RAM的路由器中完成。不仅将原本发生冲突的数据以计算取而代之,还能有效减少网路中数据传输量。提出了任务分配、计算和数据通信管理策略,在任务分配和调度过程中最大化数据相遇。网络冲突不再是性能提升的瓶颈,而被用作提供更多存内计算的机会,最终提高系统通信和计算效率。本文对所提出的片上网络众核系统架构、多处理器的拓扑结构和对应的系统级任务映射和调度策略进行了验证。其中,针对所设计的静态片上网络结构FoToNoC和QcNoC,以及动态可重构的SMART NoC,从处理单元物理结构和逻辑互联不同方面进行管理和优化,在保证芯片温度可靠性的前提下,大大减少片上通信延迟、有效提高系统性能并降低系统能耗。通过GEM 5,McPAT,HotSpot和MatEx等模拟器验证,实验结果表明,上述所提出的结构设计和优化方案能够有效地管理基于片上网络的众核系统的计算和通信,较现有的方法和技术而言,在系统能效和温度可靠性方面均得到了显着的提升。
陈旭[7](2018)在《基三多核架构中片上网络系统若干关键技术研究》文中研究指明随着集成电路制造工艺和体系结构设计水平的不断提高,芯片已进入多核时代。然而,伴随着芯片上的集成度越来越高,特征尺寸的持续缩小加剧了互连线延迟对系统性能的影响,使得片上互连网络成为制约多核处理器系统性能提升的主要瓶颈。如何解决多核处理器中片上网络系统所面临的延迟大、带宽低、功耗高等问题,是多核时代面临的严峻挑战之一。基三多核架构(Triplet-based Architecture,简称TriBA)是本人所在课题组提出的一种新颖的从底层支持面向对象技术的多核处理器体系结构。本文在基三多核架构的背景下,对基三多核架构中片上网络系统相关的关键技术进行了深入研究和探讨,分别从路由算法、路由器结构和布局布线设计等方面进行了相关研究工作。本文的研究内容和研究成果主要包括:(1)提出一种面向TriBA互连网络的最短路径路由算法SPR4T。该算法采用分布式路由策略,仅根据当前节点以及目标节点的二进制编码就能计算出两节点间的最短路径,这样二进制的计算方式大大降低了计算复杂度。此外,SPR4T算法采用了新的编码系统,该编码系统所用到的字符集合与群论中人们所熟知的S3群具有相同的含义。本文证明了TriBA拓扑对于S3变换具有对称性,因此利用S3群所含元素的循环置换特性对路由算法进行了简化。实验结果表明,相比于DDRA算法和SPORT算法,SPR4T算法具有更小的通信延迟以及更高的吞吐量。(2)提出一种面向TriBA互连网络的路由器结构LA-Router。LA-Router采用前瞻路由技术、最小化缓存策略、分段式交叉开关以及基于注入控制的流控策略等四种技术对通用路由器结构进行改进。其中,前瞻路由技术能够在几乎不增加计算逻辑的条件下有效缩短流水线的关键路径,从而有利于减少路由器的传输延迟;最小化缓存策略能够有效减少缓存使用量,从而有利于降低路由器的功耗和面积;分段式交叉开关只利用最小化的电路部分完成数据的转发,能够有效降低路由器的功耗;基于注入控制的流控策略在一定程度上缓解了网络拥塞,从而有利于降低通信延迟。实验结果表明,相比于通用路由器结构,LA-Router不仅可以有效地降低TriBA互连网络的通信延迟和功耗,而且还有助于提高网络的吞吐量。(3)提出一种面向TriBA互连网络的动态快速虚通道技术。快速虚通道的构建需要路由机制的决策支持,目前大多数有关快速虚通道的设计主要是基于维序路由提出的,然而,维序路由并不适用于TriBA互连网络。为了将快速虚通道技术引入TriBA互连网络中,本文提出了一种适用于TriBA互连网络的维度判断模型,并且在此基础上设计了FSP侦测机制为构建快速虚通道提供决策支持。实验结果表明,相比于普通TriBA互连网络,使用快速虚通道技术的TriBA互连网络拥有更低的延迟和功耗,并且具有更高的吞吐量。(4)提出一种Tile化的布局布线方案解决TriBA混合片上网络的布局布线问题。针对片上网络的流量特点,本课题组提出了一种TriBA混合片上网络,该网络包括两个子网:核间通信子网和片上存储子网。针对TriBA混合片上网络的布局布线问题,本文采用Tile布局方式和曼哈顿布线结构实现了两个子网络的融合布局。实验结果表明,本文提出的双网融合的布局布线设计方案是可行的。更重要的是,相比于单TriBA网络,TriBA混合片上网络在平均网络时延、吞吐量以及功耗等性能方面具有明显优势。
张毅[8](2018)在《基于Fat-tree结构的高性能计算机网络仿真平台研究与设计》文中研究说明高性能计算机技术对国民经济各个领域都有着重要的促进作用,已经成为国家科技实力的重要象征。高性能计算机系统包含了网络拓扑、路由器、计算和存储等主要功能模块,涉及了路由算法、流控机制等策略和算法,其仿真器的设计对系统的更新和升级十分关键。本文搭建了高性能计算机网络仿真平台HPCSim,该仿真平台包括了自动化仿真组件PySim,基于OMNeT++的离散事件仿真器以及数据可视化工具PyVisual。本文在仿真平台搭建中引入了硅光互联技术并建立了硅光链路模型,该技术相对于传统电互联技术具有更高的通信密度,更低的功耗和更远的传输距离。在路由器建模上,本文实现了基准路由器,并提出了针对全缓存路由器结构的优化方法,在减少路由器流水线级数的同时,还降低了交叉开关缓存的开销,除此之外还设计了类似天河2号路由器结构的层次化路由器,优化了交叉开关缓存结构。本文还实现了通用Fat-tree网络模型以及天河2号互联网络模型,并提出了根据路由器负载选择路由路径的自适应路由算法。本文在搭建的仿真平台上仿真并分析了各种网络模块结构以及网络配置对高性能计算机性能的影响,基于仿真结果得出所设计的全缓存路由器和层次化路由器相对于基准路由器在均匀注入下有20%的吞吐率提升,且所构建的Fat-tree网络和天河2号网络最大能够达到95%的吞吐率,并且本仿真平台的仿真结果与其他仿真平台相比,最大误差在11%以内。
马世聪[9](2016)在《可重构虚拟化路由器体系结构及关键技术研究》文中认为随着网络应用规模的不断扩大,网络业务的种类和数量进入爆炸式发展的时代。多样化的网络业务要求以路由器、中间盒(MiddleBox)构成的网络基础设施能够提供多样化的服务能力。而现有的网络基础设施由于设备体系结构和实现方式上的僵化与封闭,使得网络难以为多样化的业务提供差异性和灵活性支撑。研究团体普遍认为开放式可定义弹性网络是未来发展方向。可重构虚拟化路由器在保持现有路由器节点地位不变的基础上,引入了可重构技术和虚拟化技术,能够以一套物理基础设施同时为多种网络业务提供差异化的承载服务。因此,可重构虚拟化路由器是实现开放式可定义弹性网络的有效方式之一。对此,国内外研究团体针对可重构虚拟化路由器的体系结构和关键技术提出了很多解决方案。但这些方案存在很多缺陷,具体体现为:1)传统路由器体系结构上的缺陷限制了可重构虚拟化路由器的规模重构能力;2)在数据平面功能路径重构方面,缺少面向异构网络功能组成的功能路径进行统一的建模和抽象控制接口;3)在数据平面性能重构方面,缺少面向异构网络功能实际需求进行物理资源分配的方法;4)在数据平面报文隔离调度方面,缺少能够支持异构网络功能之间流量隔离的方法。针对上述问题,本文从可重构虚拟化路由器体系结构出发,围绕数据平面的若干关键技术展开研究,主要研究工作如下:1)提出了一种新型可重构路由器体系结构RiDC(Router is a Data Center)。RiDC借鉴当前云计算数据中心的思想,将路由器体系结构按照数据中心结构进行重新设计,将路由器功能进一步解耦,将路由器中的路由控制、分组处理、接口交换、内部互连等功能部件进行标准协议式的分离,通过部件功能的统一建模、定义部件间的开放交互接口实现不同组成部件之间的互操作。打破了专用硬件对网络设备的垄断,提出了积木式搭建网络设备的实现思路。2)针对数据平面功能拓扑重构问题,提出了基于有向无环图的异构网络功能拓扑模型。基于给定的有向无环图模型,给出了进行功能路径重构所需要的接口和算法,并对算法的正确性进行了证明。给出了基于Intel通用多核平台的功能重构框架,实验测试表明,功能重构框架可以在不降低网络功能吞吐率的前提下,为软件网络功能拓扑重构提供支撑。3)针对面向多核平台的RiDC数据平面性能重构问题,提出面向异构网络功能间的计算资源分配算法。算法以不同网络功能在流量的不同属性下的计算资源开销为分配权重。算法以DAG图所描述的任务模型中网络功能间的拓扑关系为分配顺序,在多个网络功能之间进行计算资源的分配。算法进行资源分配的目标是确保路径上不会出现瓶颈资源或者资源浪费。相比于传统方法,本文所提出的方法可以在保证吞吐量的前提下,可以实现更精确的负载估计以及达到更好的资源利用率。4)针对RiDC分组处理部件的资源保障问题,提出了面向多种流量属性的物理资源隔离思想,将虚拟数据平面的资源开销特征以及当前流量负载中的不同组成部分相结合,为隔离调度器提供更精确的调度信息。提出了基于周期性令牌分配的报文隔离调度思想,通过周期性的在每个物理接口上分配为每个虚拟数据平面分配一定数量的令牌,确保在单个时钟周期内,每个虚拟数据平面都能够公平的获取相应的报文处理机会。并针对入向和出向报文隔离调度的应用场景,提出了基于多流量属性的入向报文隔离调度算法和基于带宽约束的出向报文隔离调度算法,能够在入向和出向同时提供报文流量隔离保证。最后,在973“可重构信息通信基础网络体系研究”项目的“可重构基础网络的验证平台”课题支持下,实现了一个RiDC原型系统,该原型系统使用当前在数据中心中常用的通用多核服务器、高速交换机以及OpenFlow交换机构成,充分体现了RiDC基于数据中心的设计思想。通过定义部件间的基本的协议交互规范,实现物理部件的设备级融合。通过集成改进当前主流的开源软件并设计开发性能优化软件,实现了通用化的可重构虚拟化网络功能验证环境。实验表明RiDC原型系统具有良好的数据平面报文处理性能和隔离性能,具备成为未来网络基础设施组成部分的潜力。
韩兴[10](2016)在《众核处理器中Cache一致性机制的动态可重构设计》文中研究说明在过去的十几年中,随着工艺尺寸的进步,单芯片集成处理器核数逐步增加,众核处理器成为微处理器发展的趋势之一。传统的总线互连结构已无法适应众核处理器的需求,因此具有高并发特性的片上互连网络(No C)等非顺序互连结构逐渐成为众核处理器中片上互连结构的主流趋势。非顺序互连结构的使用,增加了Cache一致性协议机制的设计复杂度和硬件开销,其高昂的代价限制了众核处理器的性能,即Cache一致性墙(Coherence Wall)的问题。为提高众核处理器中基于Cache一致性协议的核间通信性能,本文基于Cache一致性分区机制,在以下方面进行了研究:1)动态可扩展的Cache一致性分区机制。随着众核处理器中No C规模的增加,Cache一致性协议通常会带来巨大的广播和多播通信代价。当前的Cache一致性协议性能提升通常通过降低通信次数完成,但是其硬件代价较高;静态分区机制可以较低硬件开销避免No C规模上升带来的核间通信性能下降,但是其灵活度较低;而动态分区机制中Cache一致性协议设计较为复杂。由于并行应用程序在使用超过16个处理器核时加速比有限,为应对未来大规模众核处理器的应用场景,本文结合动态可扩展的子网划分机制,提出了动态可扩展的Cache一致性分区(SCCP)机制。基于Gem5的仿真测试表明,相较Token协议0.98%的额外硬件资源开销,SCCP机制以1.67%的硬件开销,提升平均18.8%的Cache系统性能和9%的系统总体性能。同时,与额外硬件开销为3.30%的Di Co协议相比,SCCP机制具有相近的性能。2)针对支持动态可扩展Cache一致性分区的不规则拓扑的子网划分机制。子网划分机制能够有效限制众核处理器中广播和多播的范围,降低并行应用程序之间的通信干扰,提高数据共享和核间通信的性能。传统的子网划分机制通常采用最佳适配的拓扑结构覆盖子网;该机制虽然能够减少广播范围和网络中数据包的数量,但是由于可用路由链路的减少会带来网络拥塞,从而增加了子网内数据包的平均网络延时。在本文提出的支持不规则拓扑结构的子网划分机制中,采用多个矩形子网嵌套的物理子网覆盖逻辑子网,可提供更多可用的路由路径。仿真测试表明,针对众核处理器中Cache一致性协议常见的510%的广播率,较当前已有的子网划分机制相比,可获得10%左右的性能提升。子网嵌套的子网划分机制可有效降低无死锁路由的设计复杂度,同时每个路由节点仅需添加两位寄存器,具有较低硬件代价。3)兼容消息传递机制的动态可重构Cache结构设计。为解决众核处理器中Cache一致性协议带来的核间通信的延时,现有的众核处理器及研究中提出了片内硬件支持的消息传递机制,提升了约13%的系统性能。然而在大规模众核处理器的设计中,通常采用轻量级核心运行单线程,因此在运算时独立的消息传递缓存(MPB)处于闲置状态;同时,运算时的Cache访问延时对独立MPB机制的整体性能也有重要的影响。因此,本文基于现有的Cache一致性协议,提出了可重构为MPB的动态可重构Cache结构(RMCC),可按需将片上SRAM存储重构为Cache或MPB使用;RMCC机制通过复用逻辑电路对基础Cache协议的状态进行扩展,在重构的Cache存储上实现了消息传递机制。仿真实验表明,相较硬件额外开销为5.26%的独立MPB机制,RMCC机制可以在相同的硬件开销下降低8%的Cache缺失率,在当前独立MPB实现机制基础上,提升约11.4%的性能;另外,在避免MPB的5.26%额外开销的情况下,可以带来与独立MPB机制相近的总体系统性能。本文针对众核处理器设计中面临的Cache一致性墙的挑战,分别对Cache一致性协议和子网划分机制进行研究和设计,同时兼顾片上消息传递机制的可重构设计,有效提高了众核处理器核间通信和数据共享性能。
二、并行网络处理器在路由器中的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、并行网络处理器在路由器中的应用(论文提纲范文)
(1)高性能路由器多级缓存架构设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究目的和研究意义 |
1.2 课题来源 |
1.3 国内外研究现状 |
1.4 研究目的和研究意义 |
1.5 论文组织结构 |
第二章 相关工作综述 |
2.1 路由器存储器 |
2.1.1 ROM |
2.1.2 RAM |
2.1.3 FLASH与NVRAM |
2.2 内存碎片 |
2.2.1 内部碎片 |
2.2.2 外部碎片 |
2.3 缓存空间管理算法 |
2.3.1 分区式缓存空间管理 |
2.3.2 分页式缓存空间管理 |
2.3.3 计算机伙伴系统内存管理 |
2.3.4 内存空间管理算法总结 |
2.4 路由器存储转发模式 |
2.4.1 路由器硬件架构 |
2.4.2 路由器转发流水线 |
2.5 本章总结 |
第三章 高性能路由器存储管理方案 |
3.1 片上缓存区间划分及分块研究 |
3.1.1 路由器处理器的缓存需求 |
3.1.2 路由器主要表项的缓存需求 |
3.1.3 数据包内容的缓存需求 |
3.1.4 路由器片上缓存分配方案设计 |
3.2 伙伴式缓存空间管理算法 |
3.2.1 路由器传统缓存空间管理算法的缺陷 |
3.2.2 Linux伙伴关系算法思想 |
3.2.3 伙伴式缓存空间管理算法 |
3.2.4 伙伴式缓存空间管理算法总结 |
3.3 并行化存储调度的存储体系方案 |
3.3.1 路由器多核处理器引入问题 |
3.3.2 缓存空间管理算法并行化 |
3.3.3 路由器存储调度并行化 |
3.4 本章总结 |
第四章 高性能路由器多级缓存架构 |
4.1 多级缓存架构存储体系研究 |
4.1.1 高带宽存储体系研究 |
4.1.2 多级缓存架构下多模块协同 |
4.2 基于多级缓存架构缓存切换控制算法 |
4.2.1 多级缓存架构三种状态 |
4.2.2 突发流预测及片上缓存空间分析 |
4.2.3 缓存切换控制算法 |
4.3 基于多级缓存架构流分类 |
4.3.1 多级缓存架构流分类需求 |
4.3.2 多级缓存架构流分类应用 |
4.3.3 基于流分类的路由器数据平面 |
4.4 支持多级缓存架构下队列优先级调度算法 |
4.4.1 队列调度模块功能需求 |
4.4.2 队列调度模块具体设计 |
4.4.3 队列优先级调度算法 |
4.5 本章总结 |
第五章 仿真平台搭建和结果分析 |
5.1 仿真平台使用 |
5.1.1 ns-3仿真平台研究 |
5.1.2 ns-3模块简介 |
5.2 存储管理方案可行性验证及方案评估 |
5.2.1 片上缓存数据包存储分区验证 |
5.2.2 伙伴式缓存空间管理算法性能优化分析 |
5.2.3 伙伴式缓存管理并行化算法仿真性能评估 |
5.3 高性能路由器多级缓存架构仿真及性能评估 |
5.3.1 多级缓存架构混合存储体系性能分析 |
5.3.2 缓存切换算法仿真实现与性能分析 |
5.3.3 队列优先级调度算法仿真调优 |
5.4 本章总结 |
第六章 总结与进一步的研究展望 |
6.1 研究工作总结 |
6.2 进一步研究计划 |
参考文献 |
附录 缩略语 |
致谢 |
(2)下一代网络处理器及应用综述(论文提纲范文)
1 网络处理器基本概念 |
1.1 网络处理器基本架构 |
1.2 网络处理器发展以及挑战 |
2 利用新型可编程技术的下一代网络处理器 |
2.1 基于ASIC芯片的NGNP设计 |
2.2 FPGA加速辅助的NGNP设计 |
2.3 利用P4等高级语言的NGNP |
3 面向新型网络体系结构的下一代网络处理器 |
3.1 服务SDN的NGNP |
3.2 边缘计算与云计算中的NGNP |
3.3 NGNP与Smart NIC的功能推拉 |
4 针对新型高性能业务的下一代网络处理器 |
4.1 精确网络测量 |
4.2 基于metadata的Qo S保障 |
4.3 NP的处理优化以及应用加速 |
5 下一代网络处理器的工业化及评测 |
5.1 网络处理器的工业化 |
5.2 部分主流网络处理器的性能评测 |
6 未来发展趋势 |
6.1 高性能可演进下一代网络处理器架构 |
6.2 软硬件协同分组处理流水线 |
6.3 多级缓存与分组调度 |
6.4 编程接口及进程实现 |
6.5 基于HPENP的在线智能测量及应用 |
6.6 HPENP原型系统构建与测试 |
7 总结 |
(3)高能效片上网络的近似通信方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景和意义 |
1.1.1 研究背景 |
1.1.2 研究目的与意义 |
1.2 片上网络简介 |
1.2.1 片上网络微体系结构 |
1.2.2 路由器流水线传输 |
1.2.3 无缓冲片上网络 |
1.2.4 片上网络设计流程 |
1.3 国内外研究现状 |
1.3.1 片上网络的研究现状 |
1.3.2 近似体系结构的研究现状 |
1.4 存在的主要问题 |
1.5 本文的主要研究内容 |
第2章 片上近似通信网络的动态流控机制研究 |
2.1 引言 |
2.2 基于近似的动态流控机制设计 |
2.2.1 基于近似的动态流控设计框架 |
2.2.2 动态流控结构设计 |
2.2.3 动态流控算法设计 |
2.3 基于近似的动态流控实验结果与分析 |
2.3.1 实验设置 |
2.3.2 片上网络性能分析 |
2.3.3 灵敏度分析 |
2.3.4 功耗和面积分析 |
2.3.5 应用性能分析 |
2.4 本章小结 |
第3章 基于动态有损压缩的片上网络性能优化 |
3.1 引言 |
3.2 动态有损压缩设计 |
3.2.1 动态有损压缩设计框架 |
3.2.2 压缩编码设计 |
3.2.3 动态有损压缩问题建模及求解 |
3.3 动态有损压缩的实验结果与分析 |
3.3.1 实验设置 |
3.3.2 网络性能分析 |
3.3.3 灵敏度分析 |
3.3.4 功耗和面积分析 |
3.3.5 应用性能分析 |
3.4 本章小结 |
第4章 基于近似通信的无缓冲片上网络性能优化 |
4.1 引言 |
4.2 近似无缓冲片上网络设计 |
4.2.1 无缓冲片上网络的性能分析 |
4.2.2 无缓冲片上网络的近似通信框架 |
4.2.3 无缓冲路由器结构设计 |
4.2.4 数据包近似编解码设计 |
4.3 近似无缓冲片上网络的实验结果与分析 |
4.3.1 实验设置 |
4.3.2 近似无缓冲片上网络的参数分析 |
4.3.3 基于合成流量的性能分析 |
4.3.4 基于全系统的性能分析 |
4.3.5 功耗和面积分析 |
4.4 本章小结 |
第5章 基于多层网络设计的片上网络能耗优化 |
5.1 引言 |
5.2 多层片上网络设计 |
5.2.1 多层片上网络的设计框架 |
5.2.2 多层片上网络的架构设计 |
5.2.3 多层片上网络的分流传输 |
5.3 多层片上网络的实验结果与分析 |
5.3.1 实验设置 |
5.3.2 近似多层片上网络的参数分析 |
5.3.3 基于合成流量的性能分析 |
5.3.4 基于全系统的性能分析 |
5.3.5 功耗和面积分析 |
5.4 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(4)众核处理器共享Cache访问均衡性研究(论文提纲范文)
摘要 |
Abstract |
术语与缩略语 |
第一章 绪论 |
1.1 研究动机 |
1.2 研究内容 |
1.3 研究框架概述 |
1.4 论文组织结构 |
第二章 背景知识与相关研究 |
2.1 众核处理器 |
2.2 非一致Cache访问结构 |
2.2.1 NUCA结构中的物理设计 |
2.2.2 NUCA结构中的逻辑策略 |
2.2.3 多核NUCA结构 |
2.3 片上网络 |
2.3.1 多核架构的通信需求 |
2.3.2 片上网络设计特点 |
2.3.3 片上网络性能评价指标 |
2.3.4 基于共享存储网络结构的片上系统 |
第三章 面向公平性的片上网络交叉开关分配策略 |
3.1 引言 |
3.2 研究背景 |
3.2.1 片上网络路由器结构 |
3.2.2 交叉开关分配器 |
3.3 相关工作 |
3.4 面向公平性的交叉开关分配策略 |
3.4.1 面向公平性的仲裁策略 |
3.4.2 基准路由器结构 |
3.4.3 分配策略设计 |
3.4.4 基于公平因子的仲裁器设计 |
3.4.5 防饿死机制 |
3.5 实验 |
3.5.1 实验配置 |
3.5.2 合成流量模拟实验 |
3.5.3 全系统模拟实验 |
3.5.4 硬件开销评估 |
3.6 本章小结 |
第四章 负载均衡的片上网络链路分布设计 |
4.1 引言 |
4.2 研究背景 |
4.3 相关工作 |
4.4 负载均衡的非一致链路分布设计 |
4.4.1 基准参考结构 |
4.4.2 负载均衡的链路分布计算 |
4.5 实验 |
4.5.1 实验配置 |
4.5.2 合成流量模拟实验 |
4.5.3 全系统模拟实验 |
4.6 本章小结 |
第五章 面向共享Cache访问均衡性的非一致存储映射设计 |
5.1 引言 |
5.2 研究背景 |
5.2.1 共享Cache组织方式 |
5.2.2 存储映射 |
5.3 相关工作 |
5.4 非一致存储映射设计 |
5.4.1 基准S-NUCA结构 |
5.4.2 基于位置的非一致存储映射 |
5.4.3 基于非一致存储映射下的链路分布 |
5.5 实验 |
5.5.1 实验配置 |
5.5.2 合成流量模拟实验 |
5.5.3 全系统模拟实验 |
5.6 本章小结 |
第六章 结束语 |
6.1 工作总结 |
6.2 未来工作 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(5)高性能路由器开关分配与缓存优化技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 高性能计算的发展 |
1.1.2 互连网络 |
1.1.3 交换开关分配的重要性 |
1.1.4 缓存架构设计的重要性 |
1.1.5 相关研究现状 |
1.2 论文主要工作与贡献 |
1.3 论文组织结构 |
第二章 路由器微体系结构 |
2.1 互连网络背景知识 |
2.1.1 拓扑结构 |
2.1.2 低阶路由器微体系结构 |
2.1.3 高阶路由器微体系结构 |
2.2 开关分配方法 |
2.2.1 开关分配过程 |
2.2.2 传统开关分配方法 |
2.2.3 基于网络特性的开关分配方法 |
2.3 缓存架构设计 |
2.3.1 SRAM |
2.3.2 新型存储介质 |
2.4 小结 |
第三章 片上路由器开关分配与缓存优化的协同设计 |
3.1 研究动机 |
3.2 相关工作 |
3.2.1 TS-Router开关分配方法 |
3.2.2 重排序缓存 |
3.3 实现过程 |
3.4 实验评估 |
3.5 小结 |
第四章 基于网络拥塞信息的开关分配方法 |
4.1 引言 |
4.2 研究动机 |
4.3 实现过程 |
4.3.1 基于拥塞信息的开关分配过程 |
4.3.2 基于竞争信息的开关分配过程 |
4.4 实验评估 |
4.5 小结 |
第五章 基于端点拥塞信息的开关分配方法 |
5.1 引言 |
5.2 相关工作 |
5.3 研究动机 |
5.4 基于端点拥塞信息的开关分配过程 |
5.5 实验评估 |
5.5.1 实验方法 |
5.5.2 实验结果 |
5.6 小结 |
第六章 面向高阶路由器中间缓存的优化结构 |
6.1 引言 |
6.2 研究动机 |
6.3 相关工作 |
6.3.1 层次化高阶路由器 |
6.3.2 STT-MRAM |
6.4 层次化高阶路由器中间缓存设计 |
6.4.1 基准路由器微体系结构 |
6.4.2 集中式中间缓存架构 |
6.4.3 基于STT-MRAM的中间缓存架构 |
6.4.4 STT-MRAM和 SRAM混合的集中式中间缓存架构 |
6.5 实验评估 |
6.5.1 实验方法 |
6.5.2 单路由器性能 |
6.5.3 网络性能 |
6.6 小结 |
第七章 面向高阶路由器输入缓存的优化结构 |
7.1 引言 |
7.2 相关工作 |
7.2.1 MBTR-多端口绑定瓦片结构路由器 |
7.2.2 Stash 空闲输入缓存组织方法 |
7.3 CIB-HIER集中式输入缓存设计 |
7.3.1 在瓦片结构内部共享输入缓存的优势 |
7.3.2 集中式输入缓存体系结构 |
7.3.3 集中式输入缓存的应用 |
7.4 实验评估 |
7.4.1 实验方法 |
7.4.2 实验结果 |
7.5 小结 |
第八章 面向互连网络路由器性能评测的模拟器Net Router Sim |
8.1 相关研究 |
8.2 Booksim模拟器 |
8.3 Net Router Sim模拟器设计 |
8.3.1 Buffer |
8.3.2 Allocator |
8.3.3 Router |
8.4 小结 |
第九章 总结与展望 |
9.1 工作总结 |
9.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(6)基于片上网络的众核系统的设计与优化(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 引言 |
1.2 研究背景及国内外研究现状 |
1.2.1 研究背景 |
1.2.2 性能和能耗优化的研究现状分析 |
1.2.3 系统中暗硅现象的研究现状分析 |
1.2.4 异构片上网络众核系统设计的研究现状分析 |
1.2.5 混合型片上网络的众核系统的研究现状分析 |
1.3 研究目的与研究内容 |
1.3.1 片上网络的众核系统中通信优化 |
1.3.2 暗硅片上网络众核系统的设计和优化 |
1.3.3 基于NVM的混合型片上网络众核系统的设计与优化 |
1.4 论文的主要贡献 |
1.4.1 片上网络的众核系统中通信优化的研究 |
1.4.2 暗硅片上网络众核系统的设计和优化的研究 |
1.4.3 基于NVM的混合型片上众核系统的设计与优化的研究 |
1.5 论文组织结构 |
2 片上网络的众核系统中通信分析优化模型的研究 |
2.1 引言 |
2.2 研究动机 |
2.2.1 国内外发展现状 |
2.2.2 现有问题的分析和总结 |
2.3 片上网络系统的通信优化模型 |
2.3.1 系统和任务模型定义 |
2.3.2 片上网络的众核系统中数据传输的冲突模型构建 |
2.3.3 片上网络的众核系统中任务计算和数据交换的优化 |
2.4 实验及分析 |
2.4.1 实验方法和配置 |
2.4.2 实验结果和分析 |
2.5 小结 |
3 暗硅片上众核系统的设计与优化 |
3.1 引言 |
3.2 研究动机 |
3.2.1 国内外发展现状 |
3.2.2 现有问题的分析和总结 |
3.3 软硬件协同优化片上众核系统的性能、能耗和温度可靠性 |
3.3.1 芯片运行时温度预测模型设计与实现 |
3.3.2 基于折环式的众核系统FoToNoC的设计与实现 |
3.3.3 针对片上网络的暗硅众核系统的协同优化方案 |
3.3.4 基于四核集群的众核系统QcNoC的设计与实现 |
3.3.5 动态可重构的众核系统SMART NoC的设计与实现 |
3.3.6 两阶段的系统级任务映射和集群管理方案设计与实现 |
3.4 实验及分析 |
3.4.1 实验方法和配置 |
3.4.2 实验结果和分析 |
3.5 小结 |
4 基于非易失性内存的混合型片上众核系统设计与优化 |
4.1 引言 |
4.2 研究动机 |
4.2.1 国内外发展现状 |
4.2.2 现有问题的分析和总结 |
4.3 基于STT-RAM混合架构的片上计算和通信架构 |
4.3.1 基于STT-RAM的片上网络众核系统对计算和通信的优化 |
4.3.2 基于STT-RAM的片上网络众核系统的设计和问题的定义 |
4.3.3 针对应用任务计算和通信优化的方案 |
4.4 实验及分析 |
4.4.1 实验方法和配置 |
4.4.2 实验结果和分析 |
4.5 小结 |
5 总结与展望 |
5.1 工作总结 |
5.2 展望 |
5.2.1 现有工作的应用和优化 |
5.2.2 将继续对片上网络的存储结构的探索 |
参考文献 |
附录 |
A 攻读博士学位期间的主要研究成果 |
B 攻读博士学位期间申请的专利和软件着作权 |
C 攻读博士学位期间参加的主要科研项目和得奖情况 |
D 学位论文数据集 |
致谢 |
(7)基三多核架构中片上网络系统若干关键技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究的背景和意义 |
1.2 TriBA多核架构简介 |
1.2.1 TriBA内核微体系结构 |
1.2.2 TriBA核间互连网络 |
1.2.3 TriBA片上存储系统 |
1.3 国内外研究现状 |
1.3.1 片上网络路由算法研究现状 |
1.3.2 片上网络路由器结构研究现状 |
1.3.3 片上网络布局布线方法研究现状 |
1.4 主要研究内容和创新点 |
1.4.1 主要研究内容 |
1.4.2 研究成果与创新点 |
1.5 论文组织结构 |
第2章 TriBA核间通信互连网络的最短路径路由 |
2.1 引言 |
2.2 相关工作 |
2.3 TriBA的图论定义 |
2.3.1 TriBA的编码系统 |
2.3.2 两个特殊的子图 |
2.4 分布式最短路径路由算法设计 |
2.4.1 数据流模型 |
2.4.2 端口定义 |
2.4.3 FM_0模式下的最短路径路由 |
2.4.4 任意模式下的最短路径路由 |
2.5 实验评估 |
2.5.1 实验设计 |
2.5.2 实验结果与分析 |
2.6 本章小结 |
第3章 面向低延迟的路由器结构优化 |
3.1 引言 |
3.2 研究背景及动机 |
3.3 路由器结构设计优化 |
3.3.1 基于前瞻路由技术的流水线优化设计 |
3.3.2 最小化缓存策略 |
3.3.3 分段式交叉开关 |
3.3.4 基于注入控制的流控策略 |
3.4 实验评估 |
3.4.1 实验设计及方法 |
3.4.2 实验结果与分析 |
3.5 本章小结 |
第4章 基于快速虚通道技术的流控机制研究 |
4.1 引言 |
4.2 相关工作 |
4.3 面向快速虚通道的路由机制设计 |
4.3.1 维度判断模型 |
4.3.2 侦测FSP |
4.4 基于快速虚通道的流控机制设计 |
4.4.1 动态快速虚通道设计 |
4.4.2 防饥饿机制 |
4.4.3 动态缓存管理策略 |
4.5 实验评估 |
4.5.1 实验设计及方法 |
4.5.2 实验结果与分析 |
4.6 本章小结 |
第5章 TriBA片上网络布局布线策略探讨 |
5.1 引言 |
5.2 相关工作 |
5.3 TriBA混合片上网络 |
5.3.1 核间通信子网及定义 |
5.3.2 片上存储子网及定义 |
5.3.3 互连网络静态度量 |
5.4 TriBA混合片上网络布局布线设计 |
5.4.1 双网融合布局布线设计 |
5.4.2 多端口存储控制器设计 |
5.4.3 异构的路由器设计 |
5.5 实验评估 |
5.5.1 实验设计及方法 |
5.5.2 实验结果与分析 |
5.6 本章小结 |
结论 |
参考文献 |
攻读学位期间发表论文与研究成果清单 |
致谢 |
作者简介 |
(8)基于Fat-tree结构的高性能计算机网络仿真平台研究与设计(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题背景与研究意义 |
1.2 国内外研究现状 |
1.3 研究目标和内容 |
1.4 论文章节安排 |
第二章 仿真平台技术综述 |
2.1 仿真平台框架介绍 |
2.2 离散事件仿真器介绍 |
2.3 网络拓扑介绍 |
2.4 网络路由器介绍 |
2.5 流控机制介绍 |
2.5.1 数据包格式 |
2.5.2 电交换 |
2.5.3 包交换 |
2.5.4 缓存背压 |
2.6 流量模型介绍 |
2.7 网络性能评价指标 |
2.7.1 注入率和吞吐率 |
2.7.2 网络延时 |
2.7.3 最大信道负载 |
2.8 高性能计算机实例 |
2.8.1 天河2 号超级计算机 |
2.8.2 神威太湖之光 |
2.9 本章小结 |
第三章 仿真平台设计 |
3.1 HPCSim仿真平台框架设计 |
3.2 PySim自动化仿真工具设计 |
3.3 PyVisual可视化工具设计 |
3.4 仿真器设计 |
3.4.1 网络拓扑模型 |
3.4.2 路由器模型 |
3.4.3 计算节点模型 |
3.4.4 链路模型 |
3.5 Fat-tree网络设计 |
3.5.1 网络性能分析 |
3.5.2 网络拓扑数学描述 |
3.5.3 自适应路由算法设计 |
3.6 本章小结 |
第四章 路由器设计 |
4.1 基准路由器模型 |
4.2 全缓存路由器模型 |
4.2.1 结构一 |
4.2.2 结构二 |
4.2.3 结构三 |
4.2.4 全缓存路由器性能分析 |
4.3 层次路由器模型 |
4.3.1 最优阶数 |
4.3.2 层次路由器结构设计 |
4.3.3 类天河2 号层次路由器 |
4.4 本章小结 |
第五章 网络仿真与结果分析 |
5.1 仿真内容 |
5.2 仿真结果与分析 |
5.2.1 基于Fat-tree网络的路由器性能仿真 |
5.2.2 天河2 号网络仿真 |
5.2.3 层次化路由器性能仿真 |
5.2.4 仿真结果准确性分析 |
5.3 本章小结 |
第六章 结束语 |
6.1 论文主要工作 |
6.2 研究展望 |
参考文献 |
致谢 |
攻读硕士学位期间已发表或录用的论文 |
(9)可重构虚拟化路由器体系结构及关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究背景 |
1.2 可重构虚拟化路由器发展趋势与挑战 |
1.3 主要研究内容及文章结构 |
1.3.1 主要研究内容及贡献 |
1.3.2 本文结构 |
第二章 相关技术研究 |
2.1 路由器开放技术研究 |
2.1.1 主动网络与可编程网络时代的开放技术 |
2.1.2 控制与数据分离时代的开放技术 |
2.1.3 软件定义网络时代的开放技术 |
2.1.4 网络设备开放性的总结与分析 |
2.2 路由器虚拟化技术研究 |
2.2.1 路由器虚拟化技术的发展脉络 |
2.2.2 路由器虚拟化的物理承载平台 |
2.2.3 路由器虚拟化隔离机制的实现方式 |
2.3 路由器平台功能重构技术 |
2.3.1 路由平台功能重构模型 |
2.3.2 支持路由器功能重构的可编程硬件平台 |
2.4 软件路由器平台性能优化技术 |
2.5 本章小结 |
第三章 新型可重构路由器体系结构模型:RiDC |
3.1 问题的分析与描述 |
3.2 RiDC路由器体系结构模型 |
3.2.1 RiDC体系结构概述 |
3.2.2 接口交换部件结构 |
3.2.3 分组处理部件结构 |
3.2.4 控制部件结构 |
3.2.5 数据与控制交换结构 |
3.3 RiDC的重构方式 |
3.3.1 重构方式分析 |
3.3.2 设备规模的重构方式 |
3.3.3 业务性能的重构方式 |
3.3.4 部件级平台功能的重构方式 |
3.4 本章小结 |
第四章 RiDC数据平面分组处理部件功能重构方法 |
4.1 问题的分析与描述 |
4.2 基于DAG的RiDC分组处理部件功能拓扑模型 |
4.3 RiDC功能拓扑重构接口 |
4.3.1 带回路避免的DAG图的合并算法 |
4.3.2 无乱序现象的DAG图的删除算法 |
4.4 基于通用多核平台的RiDC功能拓扑重构实例化框架 |
4.5 功能拓扑重构框架的验证 |
4.6 本章小结 |
第五章 面向多核平台的RiDC数据平面性能重构方法 |
5.1 问题的分析与描述 |
5.2 DAG任务图计算开销资源定义 |
5.3 基于多流量属性的多核计算资源分配算法 |
5.4 面向多核平台任务实例映射方法 |
5.5 多核分配算法的仿真实验验证 |
5.6 本章小结 |
第六章 面向多核平台的RiDC数据平面物理资源保障方法 |
6.1 问题的分析与描述 |
6.2 资源保障调度算法的基本思想 |
6.3 入向资源保障调度算法 |
6.3.1 入向调度队列选择 |
6.3.2 入向资源保障判定过程 |
6.4 出向资源保障调度算法 |
6.4.1 出向调度队列选择 |
6.4.2 出向资源保障判定 |
6.5 实验与验证 |
6.5.1 入向资源保障算法调度过程的仿真验证 |
6.5.2 出向资源保障算法调度过程的仿真验证 |
6.6 本章小结 |
第七章 基于COTS平台的RiDC原型系统设计实现 |
7.1 问题的分析与描述 |
7.2 RiDC原型系统实现关键支撑技术 |
7.2.1 RiDC部件间开放交互协议 |
7.2.2 RiDC外部物理接口映射机制 |
7.2.3 控制部件运行环境 |
7.2.4 分组处理部件运行环境 |
7.3 RiDC原型系统验证 |
7.3.1 数据平面基本性能验证 |
7.3.2 控制平面基本处理时延验证 |
7.3.3 原型系统可重构能力验证 |
7.3.4 数据平面虚拟化隔离能力验证 |
7.4 本章小结 |
第八章 结论与展望 |
8.1 本文总结 |
8.2 未来工作 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(10)众核处理器中Cache一致性机制的动态可重构设计(论文提纲范文)
摘要 |
ABSTRACT |
符号说明与缩略语表 |
第一章 绪论 |
1.1 研究背景 |
1.1.1 众核处理器简介 |
1.1.2 片上互连结构 |
1.1.3 数据共享及核间通信 |
1.2 研究内容 |
1.2.1 研究动机 |
1.2.2 国内外研究现状 |
1.2.3 关键挑战 |
1.3 创新点 |
1.4 论文的组织结构 |
1.5 本章小结 |
第二章 众核处理器的基础结构与仿真平台 |
2.1 众核处理器仿真平台及其结构 |
2.2 NoC互连结构 |
2.2.1 路由器微结构 |
2.2.2 无死锁路由的设计基础 |
2.3 数据共享机制 |
2.3.1 Cache组织结构 |
2.3.2 Cache一致性协议 |
2.3.3 众核处理器的MPI机制 |
2.4 本章小结 |
第三章 众核处理器中动态可扩展的Cache一致性分区机制 |
3.1 问题描述 |
3.1.1 研究现状分析 |
3.1.2 目标问题 |
3.2 支持动态可扩展Cache一致性分区的众核处理器计算模式 |
3.2.1 软硬件接口 |
3.2.2 编程模型 |
3.3 动态可扩展Cache一致性分区的硬件支持 |
3.3.1 动态可重构的子网及广播支持 |
3.3.2 动态可重构的Cache一致性协议 |
3.4 性能测试及分析 |
3.4.1 仿真测试环境 |
3.4.2 性能分析 |
3.4.3 硬件开销分析 |
3.4.4 结果与分析 |
3.5 本章小结 |
第四章 支持动态Cache一致性分区的不规则拓扑的子网划分机制 |
4.1 问题描述 |
4.1.1 问题来源 |
4.1.2 目标问题 |
4.2 动态可重构的子网划分算法 |
4.2.1 相关定义 |
4.2.2 评估方法 |
4.2.3 子网划分算法 |
4.3 路由算法及硬件实现 |
4.3.1 无死锁路由设计 |
4.3.2 硬件支持电路及硬件开销分析 |
4.4 性能评估与分析 |
4.4.1 仿真测试环境 |
4.4.2 结果与分析 |
4.5 本章小结 |
第五章 支持MPI机制的动态可重构Cache结构设计 |
5.1 众核处理器消息传递机制的分析与优化目标 |
5.1.1 问题来源 |
5.1.2 目标问题 |
5.2 RMCC的编程模型及软硬件接口 |
5.2.1 编程模型及接口 |
5.2.2 地址映射与地址转换 |
5.3 RMCC的 Cache系统结构 |
5.3.1 RMCC控制器 |
5.3.2 RMCC状态机及状态转移函数 |
5.3.3 RMCC中 MPI的通信流程 |
5.4 性能分析及仿真测试 |
5.4.1 性能分析及硬件代价 |
5.4.2 仿真测试环境 |
5.4.3 结果分析 |
5.5 本章小结 |
第六章 总结 |
6.1 工作小结 |
6.2 未来工作展望 |
6.3 本章小结 |
参考文献 |
攻读博士学位期间已发表或录用的论文 |
攻读博士学位期间参与的科研项目 |
致谢 |
四、并行网络处理器在路由器中的应用(论文参考文献)
- [1]高性能路由器多级缓存架构设计与实现[D]. 赵鹏程. 北京邮电大学, 2021
- [2]下一代网络处理器及应用综述[J]. 赵玉宇,程光,刘旭辉,袁帅,唐路. 软件学报, 2021(02)
- [3]高能效片上网络的近似通信方法研究[D]. 王领. 哈尔滨工业大学, 2020(02)
- [4]众核处理器共享Cache访问均衡性研究[D]. 王子聪. 国防科技大学, 2019(01)
- [5]高性能路由器开关分配与缓存优化技术研究[D]. 李存禄. 国防科技大学, 2019(01)
- [6]基于片上网络的众核系统的设计与优化[D]. 杨蕾. 重庆大学, 2019(01)
- [7]基三多核架构中片上网络系统若干关键技术研究[D]. 陈旭. 北京理工大学, 2018(07)
- [8]基于Fat-tree结构的高性能计算机网络仿真平台研究与设计[D]. 张毅. 上海交通大学, 2018(01)
- [9]可重构虚拟化路由器体系结构及关键技术研究[D]. 马世聪. 国防科学技术大学, 2016(01)
- [10]众核处理器中Cache一致性机制的动态可重构设计[D]. 韩兴. 上海交通大学, 2016(01)