1.1 资质与法律:确认越南当地落地的合规要求(备案、海关与设备入境许可),联系本地运营商(VNPT、Viettel、CMC 等)询问国际出口带宽与延迟SLA。
1.2 机房选址:选择Tier等级、海线或内陆机房,核实电力N+1、UPS、冷却与冗余光纤入点。
1.3 线路评估:要求运营商提供路由图、海缆/陆缆路径、带宽可用性与接入时延样本,安排 7x24 的链路测试窗口并记录 baseline 延迟与丢包率。
2.1 确认带宽模型:按峰值与95百分位计费选择合适带宽(例如两条10Gb或一条20Gb),并考虑链路冗余。
2.2 下单流程:向运营商提交LOI/PO,明确IP段、BGP ASN、路由过滤策略与SLA条款(抖动、丢包、修复时限)。
2.3 交付检查:收到光纤/以太网电路后,用网测设备(iperf3、mtr)在双方测试端验证带宽、连续1小时的丢包率与RTT曲线,并保存日志作为验收依据。
3.1 设备上架:按U位图放置路由器、交换机和防火墙,连好光纤跳线并标注。
3.2 交换层配置(示例 Cisco):启用LACP做上游链路聚合:
- interface Port-channel1
- switchport trunk encapsulation dot1q
- channel-group 1 mode active
3.3 路由器基础配置(示例):分配Loopback、配置BGP ASN,并开启必要的ACL和防护策略。
4.1 BGP 建连:在路由器上配置邻居(neighbor x.x.x.x remote-as Y),交换完整前缀并使用Prefix-sets限制接收前缀。
4.2 路由策略示例(Cisco IOS):使用route-map设定本地优先级(LOCAL_PREF)以偏好低延迟或低丢包链路,示例:
- ip prefix-list P-LOCAL seq 5 permit 0.0.0.0/0 le 32
- route-map SET-LOCAL permit 10
set local-preference 200
- neighbor x.x.x.x route-map SET-LOCAL in
4.3 多路径:启用bgp maximum-paths 4(或等价配置)实现ECMP,提升带宽利用率。
5.1 流量分类:定义关键业务、普通业务与后备业务的DSCP值(例如:critical EF 46,interactive AF41,bulk BE 0)。
5.2 QoS 策略示例(Linux tc 与 Cisco):
- Linux (tc):tc qdisc add dev eth0 root handle 1: htb default 20;tc class add ... tc filter add ...
- Cisco:class-map match-any CRITICAL;policy-map QOS-POLICY;class CRITICAL;bandwidth percent 40;class class-default;fair-queue。
5.3 测试:使用iperf3在不同DSCP下并发测试,验证队列占比与延迟抖动(jitter)是否满足SLA。
6.1 监控项:带宽利用率、丢包率、延迟、BGP状态、接口错误、CPU/内存。
6.2 工具与部署:部署Zabbix/Prometheus采集SNMP与metrics,配置Grafana面板展示95th统计、流量TopN和mtr历史曲线;启用sFlow/NetFlow导出以便流量分析。
6.3 告警策略:设定阈值(如丢包>1%持续5分钟触发),并把告警接入Slack/邮件与工单系统,自动化执行初步排查脚本(ping、traceroute、clear counters)。
7.1 快速定位:收到告警后先确认物理链路(光功率、接口统计),再检查BGP邻居与路由表(show ip bgp summary / show bgp ipv4 unicast neighbors)。
7.2 应急切换:如果主链路故障,使用route-map或BGP community更改local-preference将流量切换到备用链路,并启用流量镜像到清洗厂商如有DDoS。
7.3 回滚与记录:问题解决后回滚策略并保存全部命令与日志,形成RCA并更新Runbook。
8.1 迁移演练:在业务低峰期做一次完整迁移演练,包括BGP failover、QoS生效与监控告警验证。
8.2 验收标准:带宽达标(iperf3 95%以上吞吐)、延迟与丢包满足SLA、所有服务可用性与监控数据完整。
8.3 文档交付:交付拓扑图、配置备份、SLA合同、运维Runbook与故障处理流程。
9.1 周报与阈值调整:每周统计95th流量并评估是否需要扩容或降级QoS策略。
9.2 路由稳定性:定期审查BGP prefix-filter与community使用,防止路由泄露。
9.3 自动化:用Ansible/GitOps管理配置,CI检测配合变更审批降低人为风险。
Q1:在越南机房部署后,如何快速验证带宽是否真实到位?
A1:用三步法:1) 在机房内外各布置一台iperf3服务器,做并发吞吐测试(单方向与双向),记录峰值与持续30分钟的平均值;2) 用mtr连续测试到核心出口的延迟与丢包曲线,确认无短时抖动;3) 在生产时间窗口做真实业务流量比对(如HTTP下载/上传),结合监控历史95th统计验证是否达到采购带宽。
Q2:多条国际链路如何配置才能实现最低延迟的出口选择?
A2:采用BGP路由策略优先选择低延迟链路:收集各链路到目标节点的实时延迟并打分,使用route-map结合community或LOCAL_PREF动态调整优先级。可结合BGP Flowspec或SDN控制器做更细粒度的流量分发,对敏感业务设置静态路由或策略路由(PBR)引导到最优链路。
Q3:遇到突发丢包或抖动时,第一时间有哪些排查与缓解措施?
A3:立即执行:1) 检查链路层(光功率、CRC、interface errors);2) 检查BGP邻居是否频繁flap与路由是否被污染;3) 临时提升备用链路local-preference或启用备用链路的高带宽转移流量;4) 若疑似DDoS,联系上游或清洗厂商,临时投递null-route或引导到清洗中心并保留证据用于后续RCA。