随着算力成为数字经济时代推动科技创新和经济发展的核心驱动力,构建覆盖全国、多层联动的算力基础设施网络体系,成为建设数字中国、网络强国及智慧社会的重要环节,是筑牢中国式现代化数字基座、促进数字经济高质量发展的重要举措。近年来,“东数西算”工程作为落实算力基础设施网络体系建设的重大举措,已成为继西气东输、西电东送、南水北调等跨区域调配工程后的又一国家级战略工程。
2023年12月,国家发展改革委、国家数据局、中央网信办、工业和信息化部、国家能源局等部门联合印发《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》,提出打造高速泛在、安全可靠的算力传输网络,积极推进低时延、高带宽、低抖动的新兴网络技术在“东数西算”工程中应用。
未来网络是为满足互联网与实体经济深度融合所产生的一种新型的网络体系架构以及相关的核心技术群,确定性网络作为未来网络最为关键的核心技术,具备了低时延、微抖动、零丢包等特性,相比于传统网络的“尽力而为”可实现“确保所需”。我们认为,以确定性网络为“新总线”构建我国的全国一体化算力网,可实现“全国一台超级计算机”战略构想。
“东数西算”的实现对网络提出重大挑战
“东数西算”的本质就是用西部丰富的算力资源来满足东部的数据计算需求,尽管我们规划建设了很多数据中心,但这些数据中心就像一个个分散的“算力孤岛”,很难实现协同计算。传统方式超算使用的海量数据,大多是通过卡车、火车、飞机等运输工具将存储数据的硬盘运到超算中心进行计算。这种方式既不高效,也不经济,必然难以适应数据指数增长的数字经济时代的需要。
以大模型为例,公开资料显示,ChatGPT-4包含1.8万亿参数,训练一次所需要的FLOPS约为2.15e25,需要在大约25000个A100 GPU上训练90到100天。而我国大模型的发展也如火如荼,各类大模型层出不穷,堪称“百模大战”。根据《北京市人工智能行业大模型创新应用白皮书(2023年)》显示,截至2023年10月,我国10亿参数规模以上的大模型厂商及高校院所共计254家。
算力资源供应不足将成为阻碍我国大模型发展的关键桎梏,美国对我国禁运英伟达A100、H100、A800、H800等高端GPU芯片,企图在大模型发展上对我国永远保持领先。因此,对于我们而言,通过确定性网络将这些数据中心连接起来,形成算力集群,开展协同计算是适合我国国情的全国一体化算力网发展路径。
然而,广域算力资源的互联共享需要解决广域确定性无损传输问题。国际上做过相关试验,传统互联网如果丢包率大于1%,传输效率将下降50%;如果丢包率大于2%,传输效率则将接近于0。利用确定性网络,并结合RDMA等无损传输技术可有效提升数据广域无损传输能力,将极大提升国家整体算力资源效能。
确定性网络为我国全国一体化算力网发展提供关键能力支撑
面对互联网下半场变革的重大历史机遇,从2010年开始,中国工程院一批院士向国家建议布局“未来网络试验设施项目”。2013年,我国将未来网络试验设施(CENI)项目列入《国家重大科技基础设施建设中长期规划(2012-2030)》。经过十余年的不懈努力,科研团队系统性攻克了未来网络关键技术,构建了基于服务定制架构(SCN)的未来网络试验设施(CENI),并成功开通了覆盖全国38个城市的广域确定性网络。这是我国为数不多的超前国际近十年的关键核心技术布局,处于领先水平,可以为东数西算、大模型、元宇宙、工业互联网等下一代互联网应用提供关键能力支撑。
一是“分钟级”按需定制能力。大模型的出现和蓬勃发展让我们看到了数字经济的更多可能性,然而在通用大模型的发展上,以OpenAI为代表的大模型从全球爬取互联网数据,始终保持领先优势,并对我国形成了制约。但我国作为世界上唯一拥有联合国产业分类当中全部工业门类的国家,也是最大的制造业国家,行业数据可以说是全球最全、价值最大,而且大部分还没有上网,还没有被爬走,这是我们发展行业大模型的重要基础和宝贵财富。
东西部跨广域的算力资源调度需要解决算力枢纽节点和边缘性的数据中心之间资源灵活调度问题,以满足企业“东数西算”、“东数西存”等各种业务需求。科研团队研发全球首个大网级网络操作系统(CNOS),具备全网端到端控制、按需定制虚网,分钟级开通(传统至少需要1个月以上)的能力,已在全球近400个城市1100多个节点的大规模骨干网中已稳定运行5年以上。可为千行百业发展自身的行业大模型提供公用专网(PPnet)服务,即专门提供专网服务的公网,提供专网一样的质量和安全,但可享受公网一样的方便和经济性,能有效支撑我国数字经济高质量发展。
二是“微秒级”确定性保障能力。构建满足未来不同场景需求的确定性网络服务能力已经成为国际共识,IETF在2015年10月成立DetNet工作小组,侧重研究为网络层数据传输提供确定性延迟、丢包、抖动以及高可靠性的标准和能力;工业互联网产业联盟,启动了“时间敏感网络(TSN)产业链名录活动”;美国能源部、国际电工委员会等组织也都制定了相关标准。
今年6月,苹果公司发布了其头显设备——Apple Vision Pro,可在12毫秒以内将设备内置的12部相机、5个传感器和6个麦克风收集到的信息形成新影像串流至显示屏,对算力提出更高要求的同时,也需要构建满足这一应用场景的更高速率、更低时延的网络能力。目前,科研团队基于CENI开通了覆盖全国38个城市的广域确定性网络,在100%网络负载、跨10000公里距离的业务情况下,实现零丢包、时延抖动小于50μs。可满足东数西算、元宇宙等对网络质量要求很高的数字经济典型应用。
三是“千万级”多云交换能力。企业上云是推动数字化转型的重要手段,也是重要基础。然而,公开资料显示,目前我国企业上云率只有30%,与欧美国家70%的企业上云率仍有较大差距。特别是工业、交通、能源等传统行业的上云率更低,约为20%左右。其中一个重要原因就是“多云”的存在,多云在提高容错率和安全性的同时,也造成了企业上云成本更高,多云之间数据交换困难的问题,导致了更多“数据孤岛”的产生。
科研团队依托CENI网络,构建了业界首个泛边界异构多云交换平台,已实现与阿里云、腾讯云、华为云、亚马逊云等各大公有云互通,实现“一点接入,多云互联”,有效解决消除云孤岛问题。同时,我们已正式面向业界发布“工业互联网多云融合计划”,建设服务工业互联网的云网应用市场,吸引更多的工业、能源、政务等行业用户使用,助推企业数字化转型发展。
四是“TB级”安全防护能力。分布式拒绝服务(DDoS)攻击已成为威胁网络安全的重要问题,尤其对于全国一体化算力网来说,非常低的成本就可能造成难以估量的损失。2016年,美国一家服务器管理机构称其遭受了一次大规模的DDoS攻击,攻击导致的断网时间持续长达6个小时,使得Twitter、Amazon、Netflix等知名网站都无法访问,造成近百亿美元的经济损失。2022年,由于遭到大规模DDoS攻击,俄罗斯总统普京被迫将其在第25届圣彼得堡国际经济论坛上的演讲推迟到当地时间下午3点。
全国一体化算力网是我国发展数字经济,推进新型工业化的重要基础设施,网络安全是必须面对和解决的重要问题。科研团队突破分布式主动防御的网络DDoS防护技术,实现秒级远端压制,内外网双向防御、近服务防御、多级协同安全等创新技术。实现了超高性能10TB级DDoS安全防护,中心节点对全网安全状态统一研判部署、本地节点独立即时响应决策,已在在北京、南京、上海等7个节点率先部署试验,并将应用于工业互联网、“东数西算”等工程项目,可有效为我国全国一体化算力网建设与发展保驾护航。
结语
当前,全球正加速进入产业互联网时代,美国以构建“算”和“网”融合服务能力为目标,依托其在云计算领域积累的优势,加速推进信息化建设,其能源科学网络(ESnet 6)基于全国算力资源支撑国家实验室前沿科技发展,已服务于阿贡、橡树岭等国家实验室EB级数据、AI模型计算,并在其下一代版本(ESnet 7)中规划了端到端确定性网络和资源一体化调度能力。
尽管我国有率先布局确定性网络的优势,但在新技术应用推广方面仍然与美国存在差距。需要我们把握好这一历史机遇,发挥我国集中力量办大事的制度优势,建立起政、产、学、研、用融通发展的良好生态,尽快突破更多确定性网络关键技术,核心器件,依托“东数西算”等国家工程,发掘和建立良好的应用场景,真正构建起能够服务千行百业数字化、智能化发展的“信息大动脉”,助力中国式现代化。
来源:中国发展改革报
作者:中国工程院院士 刘韵洁