华为海思芯片的热备与切换机制主要通过主备状态监测、数据同步、流量切换等方式实现故障隔离,确保在部分组件出现故障时,业务能快速、平滑地转移到备用组件上,维持系统正常运行。具体如下:
- 基于 VRRP 的故障隔离:VRRP(虚拟路由冗余协议)可用于实现海思芯片相关设备的热备与切换。通过将 HSB(热备服务)主备业务备份组与 VRRP 备份组绑定,使 HSB 备份组设备状态与 VRRP 备份组设备状态同步。主设备正常工作时,业务流量由主设备处理,备设备监控主设备状态。当主设备故障,VRRP 备份组根据优先级选举备设备成为新的 Master,HSB 感知状态变化,通知业务模块将流量切换到备设备,实现故障隔离,避免业务中断。
- 板间热备故障隔离:在配备多块业务板的 NAT 设备中,可通过配置主备业务板实现板间热备。主业务板建立 NAT 会话表,业务流量仅从主业务板经过,备业务板会自动同步主业务板的 NAT 会话。一旦主业务板出现故障,机框将检测出故障,接口板切换流量至备业务板,由于备业务板已同步会话表,可快速承接业务,保证业务快速恢复,实现故障隔离。
- 框间热备故障隔离:框间热备通过框间备份机制保证主备设备业务数据的一致性。当主设备、主业务板、公网侧链路或私网侧链路出现故障时,触发设备间主备倒换。例如在集中式 NAT444 框间热备方案中,主设备故障后,业务流量会根据备份到备设备上的 NAT 转发表项,平滑切换到备设备,确保业务正常运行,将故障影响隔离在故障设备范围内。
- 镜像模式热备故障隔离:基于镜像模式实现双机热备时,两台设备形成主备备份组网,两台设备上编号相同的业务接口使用相同的 IP 地址。主设备响应内网主机的 ARP 请求,处理业务流量,备设备不响应。当主设备故障,备设备的 VGMP 组状态变为 active,业务接口发送免费 ARP 报文,引导流量切换到自身,从而将故障设备的业务隔离,由正常设备继续提供服务。
- 数据同步保障故障隔离效果:为确保故障隔离时业务平滑切换,海思芯片热备机制会进行数据同步。包括初始的批量备份,将主设备已有的会话表项等数据一次性同步到备设备;还有定时同步,备设备每隔一定时间检查会话表项与主设备是否一致,不一致则进行同步,保证主备设备数据一致,使流量切换到备设备时,业务能正常处理,有效实现故障隔离。