1. NSR简介

NSR是在有主用主控板和备用主控板的设备上,主用主控板发生故障时不影响邻居关系的一种可靠性技术。

不间断转发NSF(Non-Stopping Forwarding)和不间断路由NSR(Non-Stopping Routing)是高可靠性的两个解决方案。

NSR与NSF

不间断转发NSF(Non-Stopping Forwarding)和不间断路由NSR(Non-Stopping Routing)是高可靠性的两个解决方案。

  • NSF:通过协议的GR(Graceful Restart)机制,支持系统主备倒换时,转发业务不中断。
    • 当由于某种原因系统发生故障时,在系统重启过程中,转发平面(业务)不中断

    • 系统恢复后,设备能够重新建立邻居关系,从邻居处获取路由信息并重建路由表

  • NSR:通过协议备份机制,实现主备倒换时控制平面(路由)和转发平面(业务)均不中断。

    在设备发生倒换的过程中,路由处理不中断,因为:

    • 邻居和拓扑信息不丢失

    • 邻居关系不中断

    这种方式的优点有:

    • 不依赖也不影响对端设备,没有互通问题

    • 路由的收敛速度要比NSF快

NSR与GR

在主备倒换端,系统支持NSR和GR两种不同的高可靠性保护,他们是互斥的。即,对于一个特定协议,系统倒换后,只能采用NSR或GR两种处理方式的一种。设备在部署NSR时,仍然可以支持GR Helper的功能,以支持自己的邻居GR过程,最大可能的保证用户全网网络节点业务的高可靠性。

 

2  原理描述

介绍NSR的实现原理。

相关概念

  • HA(High Availability):高可靠性/高实用性的简称,这里指主备板间的备份通道。
  • NSF(Non-Stop Forwarding):不间断转发。
  • NSR(Non-Stop Routing):不间断路由,是一种在系统控制平面发生故障且存在备用控制平面的场景下邻居控制平面不感知的技术。
  • AMB(Active Main Board)和SMB(Slave Main Board):主用主控板和备用主控板,单板上承载控制平面进程。
  • LPU(Line Interface Process Unit):接口板,单板上承载转发控制进程。

NSR原理

如图2-1所示,NSR原理主要包括以下三个过程:

  1. 批量备份:NSR功能使能后,备板复位重启时,主用主控板将路由信息和转发信息批量备份到备用主控板上。批量备份过程在实时备份过程之前进行,此时NSR无法实施主备倒换过程。
  2. 实时备份:当批量备份过程结束后,系统进入实时备份阶段。任何在控制平面和转发平面的改变都将实时从主用主控板备份到备用主控板上。在该阶段,备用主控板能够随时代替主用主控板工作。
  3. 主备倒换:在已经完成备份的NSR系统主用主控板发生故障时,备用主控板会通过硬件状态感知到主用主控板故障,并成为新的主用主控板。备用主控板升主后,该单板会切换接口板的报文上送通道。由于倒换时间足够短,路由协议在主备切换的过程中不会和邻居节点断连。

图2-1  NSR主备倒换示意图 
NSR功能介绍-编程知识网

NSR倒换详细过程如表2-1所示。

表2-1  NSR倒换流程

NSR倒换阶段

各阶段示意图

实现过程

NSR批量备份过程

图2-2  NSR批量备份过程 

NSR功能介绍-编程知识网

NSR功能使能后,备板复位重启时,主用主控板上的业务进程会收到备用主控板上线的消息。业务进程开始进行内部数据的批量备份。

  • 批量数据备份完毕后,系统进入冗余保护状态。进入该状态后,如果主控板出现故障,备板升主后就可以利用之前从主板备份过来的数据进行升主,恢复业务。

  • 如果业务批量备份尚未结束时,主控板故障,备板升主后可能会因为业务数据不全而导致无法升主,因此这个种状态下无法完成NSR倒换,设备会整机重启,恢复故障前状态。

NSR实时备份过程

图2-3  NSR实时备份过程 

NSR功能介绍-编程知识网

完成批量备份后,系统进入实时备份阶段,在该阶段当邻居状态或路由信息发生时,主用主控板会实时将变化信息备份到备用主控板。

NSR倒换升主过程

图2-4  NSR倒换升主过程 

NSR功能介绍-编程知识网

完成批量备份,进入冗余保护状态的系统,当主用主控板发生软件或硬件故障后,备用主控板会从底层应该感知到主用主控板的故障,并自行升主。升主后业务进程会使用之前从主用主控板备份来的数据进行工作。同时也会向接口板平滑倒换期间变化的信息。实现真正的路由不中断,转发不中断。

 

3  配置NSR

介绍NSR详细的配置过程。

背景信息

NSR对系统可靠性要求很高。要求当系统控制平面发生故障后,不依赖于邻居就能将控制平面平滑切换到备用平面,路由不间断。

在以下情况下,使用系统级NSR功能:

  • 系统故障触发主备倒换

  • 软件升级或系统维护时网络管理员手动触发主备倒换

使用NSR特性有如下限制:

  • 系统倒换后的平滑时间不是关键的性能指标。NSR不会针对系统倒换后的平滑时间进行优化设计,全部采用全平滑的方式。
  • 由于采用备份稳态邻居的方案,可能会导致对端设备认为已经建立的邻居关系在倒换过后重新建立。这种情况下邻居设备会感知倒换的发生。对于这种临界情况下倒换瞬间建立的邻居关系,还没有更新报文发生,邻居重新建立不会导致业务发生任何中断。
  • 对于单主控的系统,不能使用NSR实现高可靠性。
  • 如果在批量备份之前主用进程发生故障,备用进程的状态是不可预知的,没有进入可以倒换的状态,不能够承担主用进程的角色,此时使用NSF技术。
  • 使能了NSR的系统不支持系统级GR、ISSU。