||
MIT: 使光绕弯就是为了更便宜的互联网
诸平
Credit: Pixabay/CC0 Public Domain (Bending light for cheaper Internet)
据美国麻省理工学院(Massachusetts Institute of Technology简称MIT)2021年8月26日提供的消息,MIT的研究人员能够使光弯曲就是为了更便宜的互联网。广域网络(Wide area networks简称WANs)是当今互联网的全球骨干(global backbones)和主力(workhorses),它连接着跨越大陆和海洋的数十亿台计算机,是现代在线服务的基础。由于COVID-19严重依赖在线服务,与机器学习(machine learning)、视频通话(video calls)和医疗保健(health care)相关的新出现的工作负荷使当今的网络难以提供高带宽和可用性。
为了连接数百英里的广域网,光纤电缆(fiber optic cables)通过光传输数据,由被称为光纤(optical fibers)的极细的玻璃或塑料线组成,在我们的社区中贯穿。虽然它们速度极快,但并不总是可靠:它们可以轻易因天气、雷雨、事故,甚至动物的影响而中断。这些泪水会造成严重和昂贵的损害,导致911服务中断,无法连接互联网,无法使用智能手机应用程序。
麻省理工学院计算机科学与人工智能实验室(MIT's Computer Science and Artificial Intelligence Laboratory 简称CSAIL)的科学家们最近提出了一种方法,可以在光纤中断时保护网络并降低成本。
他们的系统名为“阿罗(ARROW)”,可以将受损光纤中的光重新配置为健康光纤,同时根据实时互联网流量需求,使用在线算法提前主动规划光纤可能被切断的情况。
ARROW建立在两种不同方法的交叉点上:“故障感知流量工程(failure-aware traffic engineering 后二个单词简称TE)”和“波长重新配置(wavelength reconfiguration)”,前者是一种在光纤切割期间将流量引导到带宽资源所在的技术,后者是通过重新配置光来恢复失效的带宽资源。
尽管这种组合是强大的,但这个问题在数学上很难解决,因为它在计算复杂性理论(computational complexity theory)中具有NP –难度(NP-hardness)。
该团队创造了一种新的算法,本质上可以创建“彩票(LotteryTickets)”,作为光纤“波长重新配置问题”的抽象,只向“流量工程问题(traffic engineering problem)”提供必要的信息。这与他们的“光修复方法(optical restoration method)”一起工作,该方法将光线从切断的光纤转移到“替代”健康光纤,以恢复网络的连通性。该系统还考虑了实时流量,以优化最大的网络吞吐量。
使用大规模模拟和测试平台,ARROW可以在不部署新光纤的情况下增加2-2.4倍的流量,同时保持网络高度可靠。
一篇关于ARROW的新论文的主要作者、麻省理工学院博士后钟智珍(Zhizhen Zhong音译)说:“ARROW可以用来提高服务可用性,并增强互联网基础设施对光纤中断的弹性。它革新了我们对故障和网络管理之间关系的思考方式,以前的故障是确定性事件,在那里,故障就是故障,除了过度配置网络外,没有其他方法可以避免。有了ARROW,一些故障可以消除或部分恢复,这改变了我们对网络管理和流量工程(TE)的思考方式,也为重新思考流量工程系统、风险评估系统和新兴应用提供了机会。”
管理可重构性(Managing reconfigurability)
今天的网络基础设施的设计,无论是在数据中心还是在广域网络中,仍然遵循“电话模型(telephony model)”,网络工程师将网络的物理层视为一个没有可重构性的静态黑盒子。
因此,网络基础设施可以在所有可能的故障场景下、承载最坏情况下的流量需求,这使得其效率低下,成本昂贵。然而,现代网络具有弹性应用程序,这些应用程序可以从动态可重构的物理层中受益,从而实现高吞吐量(high throughput)、低延时(low latency)和从故障中无缝恢复,这正是ARROW所支持的。
在传统系统中,网络工程师事先决定在网络的物理层中提供多少容量。在不改变电缆的情况下改变网络的拓扑结构似乎是不可能的,但由于光波可以使用微小的镜子重新定向,它们能够快速改变:不需要重新布线。在这个领域中,网络不再是一个静态实体(static entity),而是一个可以根据工作负载变化的动态互连结构。
想象一个假设的地铁系统,其中一些列车可能会偶尔发生故障。地铁控制部门希望在考虑所有可能的列车和交通的同时,规划如何将乘客分配到其他路线。使用ARROW,当火车发生故障时,控制单元只需向乘客宣布最佳备选路线,以减少他们的旅行时间,避免拥堵。
指导此项研究的麻省理工学院(MIT)曼雅•戈巴迪(Manya Ghobadi) 教授说:“我的长期目标是提高大规模计算机网络的效率,并最终开发适应数据和应用的智能网络。拥有可重构的光学拓扑结构将彻底改变我们对网络的看法,因为进行这项研究需要打破多年来广域网部署中建立的正统观念。”
为了在现实世界的广域网络中部署ARROW,该团队一直在与脸书(Facebook)合作,并希望与其他大型服务提供商合作。参与这项研究的脸书软件工程师经理张颖(Ying Zhang音译)说:“这项研究为重新配置的益处提供了初步的见解。可靠性改进的巨大潜力,对生产主干网的网络管理具有吸引力。”
钟智珍说:“我们很兴奋,会有许多实际的挑战将ARROW从实验室的想法带入真实世界系统,使数十亿人受益,并可能减少服务中断频次。以我们今天的经验,比如关于光纤切断如何影响互联网连接的新闻报道减少。我们希望ARROW可以让我们的互联网以更低的成本抵御故障。”
钟智珍与麻省理工学院教授曼雅•戈巴迪、麻省理工学院研究生Alaa Khaddaj、Jonathan Leach、张颖(Ying Zhang音译)和Facebook的夏奕婷(Yiting Xia音译)共同撰写了这篇论文。他们将在美国计算机协会的SIGCOMM会议上展示关于ARROW的研究。这项工作由麻省理工学院(MIT)领导,目前正在评估Facebook的部署情况。上述介绍,仅供参考。欲了解更多信息敬请注意浏览原文或者相关报道。
Latency-aware optical networking for automated deployment of 5G services
ARROW: Restoration-Aware Traffic Engineering
Video: ARROW: Restoration-Aware Traffic Engineering:
More information: For more information, see arrow.csail.mit.edu/
Fiber cut events reduce the capacity of wide-area networks (WANs) by several Tbps. In this paper, we revive the lost capacity by reconfiguring the wavelengths from cut fibers into healthy fibers. We highlight two challenges that made prior solutions impractical and propose a system called Arrow to address them. First, our measurements show that contrary to common belief, in most cases, the lost capacity is only partially restorable. This poses a cross-layer challenge from the Traffic Engineering (TE) perspective that has not been considered before: "Which IP links should be restored and by how much to best match the TE objective?" To address this challenge, Arrow's restoration-aware TE system takes a set of partial restoration candidates (that we call LotteryTickets) as input and proactively finds the best restoration plan. Second, prior work has not considered the reconfiguration latency of amplifiers. However, in practical settings, amplifiers add tens of minutes of reconfiguration delay. To enable fast and practical restoration, Arrow leverages optical noise loading and bypasses amplifier reconfiguration altogether. We evaluate Arrow using large-scale simulations and a testbed. Our testbed demonstrates Arrow's end-to-end restoration latency is eight seconds. Our large-scale simulations compare Arrow to the state-of-the-art TE schemes and show it can support 2.0x-2.4x more demand without compromising 99.99% availability.
· 50% of fiber cut events last longer than 9 hours, and 10% of them last over a day.
· Several Tbps network capacity is lost only because the cut fiber cannot carry light anymore, leaving the related routers ports and transponders sitting idle.
· Contrary to common belief, in most cases, the lost capacity of fiber cut is only partially restorable, due to limited resources and wavelength continuity constraint on fibers.
· Arrow tackles a new challenge posed by partial restoration: Which IP links should be restored and by how much to best match the TE objective?
· Reconfiguring 14 wavelengths from the cut fiber to surrogate fibers can be done within 8 seconds in our wide-area network testbed.
· Arrow is production-ready TE system, and can support 2.0x-2.4x more demand without compromising 99.99% availability.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 18:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社