新闻中心

News Center

“四力”汇聚,算力网络发展迈入快车道

时间:2023-03-21 来源:C114通信网

一、政策聚力、行业发力、技术给力、业务加力,“四力”驱动算力网络加速发展

算力网络的发展是一个长期进程,当前尚面临很多问题与挑战。从近期政策、行业、技术、业务等关键领域趋势与动态来看,算力网络的正向驱动力越来越大,笔者总结为“四力”:政策聚力、行业发力、技术给力、业务加力,四个关键力量正驱动2023年算力网络全面加速。

1、政策聚力,国家及省市相关产业政策陆续出台

算力网络作为关系国计民生的新型信息基础设施,政策的导向与影响至关重要。国家层面近几年大力推进“东数西算”重点工程,针对算网基础设施建设及创新发展出台了系列政策举措,如《全国一体化大数据中心协同创新体系算力枢纽实施方案》、《新型数据中心发展三年行动计划》等。2022年7月工信部在济南举办中国首届算力(基础设施)大会,近期“华彩杯”算力应用大赛等活动,也有力推动各行业对算力网络建设、运营及应用创新发展。

去年以来,政策进一步在省市层面落地,如上海、山东、广西、湖北、青海等多个省市政府先后发布算力网络相关行动计划或实施方案。以《山东一体化算力网络建设行动方案(2022-2025年)》 为例,明确算力供给均衡合理、存力保障安全可靠、运力网络优质互联、算力网络应用创新4项目标,以及未来三年9项关键发展指标:

C114通信网-1.png

同时我们也看到,前期的算力网络相关政策主要聚焦基础设施建设要求,建议持续细化政策举措,进一步从“建好算力”到“用好算力”,比如加大力度推动算网融合业务的创新、应用开发与集成等工作,引导各行业更积极使用算网资源能力及公共服务,加快应用落地。

2、行业发力,三大运营商明确战略方向,加速资源布局

中国移动、中国电信中国联通三大运营商均已明确提出算力网络/云网融合发展战略及相关举措,聚合计算与网络资源的能力,加快提供算网一体化服务。

中国移动正构建以“5G、算力网络、智慧中台”为重点的新型信息基础设施,发展“连接+算力+能力”的新型信息服务体系。算力网络明确为中国移动关键战略领域,围绕“基础设施建设、业务创新、技术引领”三条主线推动算力网络创新发展。2022年中国移动算力整体规模已达7.3EFLOPS,并通过建设“CFITI”试验网,发布算网服务1.0、《算力网络技术白皮书》等系列举措,有力提升行业影响。

中国电信认为算力网络是云网融合数字基础设施的特征和重要组成部分,2022年发布“云网融合3.0”, 提出六大特征:云网一体、要素聚合、智能敏捷、安全可信、能力开放、绿色低碳。中国电信在智能算力领域布局相对领先,率先构建“6+31+N+X”的四级AI算力架构,将有力提升天翼视联网等重点业务的数智化能力。

中国联通明确推进架构先进、安全可靠、服务卓越的算力网络新布局,为数字经济打造“第一算力引擎“。制定《联通算网融合发展行动计划2022~2025》,提出通过云、网、边、端、业的高效协同提供算网一体化的新型算力基础设施及服务,打造基于算网融合设计的服务型算力网络,形成网络与计算深度融合的算网一体化格局,赋能算力产业发展。

对运营商而言,一方面是算网资源的规划与布局,尤其是如何发挥网络优势,以网强算;另一方面是如何尽快将算网的优质资源与融合能力,转化为客户可感知、易交付的产品服务。

3、技术给力,联接+计算新技术新产品方案持续发展

基于产学研用多方协同,算力网络各相关领域新技术正在加速成熟、逐步落地应用。

华为在《智能世界2030》白皮书中,阐述了未来十年的计算与通信网络两大领域关键技术方向。其中多项技术已在商用,比如基于鲲鹏CPU、昇腾NPU的多样性计算,通过ADN(自动驾驶网络)推进通信网络自身的智能化等。

C114通信网-2.png

2022年中国移动发布《算力网络技术白皮书》,系统梳理了算力网络十大技术方向、三十二大核心技术。同时,中国移动已建设CFITI算力网络创新试验示范网,并与华为等产业合作伙伴加快新型智算中心、400G、SRv6等技术的试点和落地应用,超前布局存算一体、算力原生、800G、算网一体等创新技术。

C114通信网-3.png

4、业务加力,新型应用场景不断涌现,驱动算网需求

技术与业务的双轮驱动、相互促进才能有力牵引算力网络发展。算力网络面临的关键挑战之一,就是会带来哪些有价值、成规模的新型业务应用?当前基础设施的规划与建设已在进行,同时算网融合的各类应用创新开发也在加速,一些大颗粒业务场景对算力网络需求逐步凸显,以两个典型业务为例:

一是视频监控类业务。视频监控市场空间巨大,2022年国内整体规模达3375亿元,预计2025年将超过4300亿元,同时视频业务正从“看得见、看得清” 走向“看得懂”,加速智能化升级。智能视频发展要求算力、网络、安全等多要素融合。算力方面,通过视频平台的云化及云边协同能力提升,构建低成本、高性能的视频云底座;同时增强AI能力,打造统一AI算力及算法仓,为智能视频业务提供高效的平台支撑。网络上则需要灵活、泛在、安全及应用可感知的连接能力,保障视频监控业务的入云融智。

二是AI大模型应用。ChatGPT成为现象级热点,也让行业对AI预训练大模型的应用赋予诸多期待。AI大模型业务对算力网络带来哪些需求与机会?最直接的自然是海量的智能算力需求,千亿级的参数、数十TB的数据集,需要百P甚至E级的算力支撑。但不仅是单纯的算力增强,也会对网络带来新挑战,比如数据中心内部如何构建“零丢包”的无损网络,如何实现广域、高通量的数据传输,如何保障数据及模型的安全,甚至进一步支撑分布式的联邦训练,通过网络高效聚合多个智算中心的算力?这些都会驱动对算网融合的能力适配要求,带来新的市场机会。

在业务应用领域,需要提升行业伙伴与客户对算力网络的认知及投入,从而主动结合运营商的算网资源及能力去规划和开发其产品服务。发展产业生态,协同上下游资源,挖掘刚需场景,加大算网融合的业务创新成为关键。

二、夯实运力、增强算力、强化存力、完善脑力,持续提升算网“四力”

前面整体阐述了驱动算力网络发展的四个重点领域,具体到算力网络的目标架构演进上,也有关键的“四力”:夯实运力、增强算力、强化存力、完善脑力。

1、夯实运力,构建全光+”IPV6+”底座,完善DCN、DCI及DCA网络

算力服务是算、网能力共同作用的结果,从算力供给维度,网络可分为三个方面:数据中心内网络DCN、数据中心之间网络DCI、用户到数据中心的接入网络DCA。

C114通信网-4.png

在DCN中,常见的有以太、存储专用FC以及重算力专用的IB(Infiniband)网络。随着如AI大模型训练、HPC等高性能、重算力需求与应用场景增加,对DCN网络的压力越来越大,传统以太网络性能无法满足,而专用IB网络又存在成本等问题。基于RoCE协议的无损以太技术,在相对低成本和通用性基础上,可达成IB网络的高性能,成为DCN多网合一建设的重要方向。

再看DCI和DCA,DCI即用于算力中心互联的城域、省干、枢纽间骨干网络,DCA网络是最终用户的接入网络。这两类网络应该以全光结合IPv6+来构建,以实现确定性的时延圈,并满足各类流量的吞吐,最终是为了满足全程全网的“算力调度”,即全程全网数据与应用的调度,让用户像使用一台计算机一样,使用算力网络的算力。

另外,网络能力关键是要服务于业务与应用,各类新技术、新特性不能只在运营商、设备商之间内循环,应通过产品化、服务化方式对外提供,并加速与业务场景的结合,切实支撑各行业的业务创新实践。

2、增强算力:加速智能算力布局;向DC as a Computer架构演进

算力分为通用算力、智能算力和超算算力。运营商目前主要提供基于CPU资源的通用算力服务,而超算算力重点面向科研等领域,客户群及市场空间相对有限。面向未来,建议在持续做好通用算力服务基础上,重点布局智能算力。

由于AI模型训练对时延要求不敏感,较为适合“东数西训“。结合东数西算工程,建议在西部规划建设集约的大规模AI训练集群,支撑大模型等AI海量算力需求业务。在中东部建设训推一体AI平台,进行模型的增量训练与调优,以及场景化AI解决方案的落地实施。逐步实现AI算力中心的联网与调度,包括运营商自身算力与政府等智算中心连接,构建一体化AI算力网络。

同时,计算架构持续创新,进一步向DC as a Computer演进,满足多样性计算需求:

一是从当前以CPU为中心的异构计算架构,走向支持多样性算力的对等平构计算,打破IO墙、内存墙,革命性提升整个计算的带宽和时延,大幅提升系统性能。

二是在硬件体系,从现在以服务器为基础升级为以集群为基础的硬件系统,围绕集群计算架构持续创新,把计算、存储、网络、能源整合在一起,一个数据中心集群就是一套硬件,实现极致的算力密度和算力能耗。

三是在基础软件架构层面,从单算力烟囱化基础软件升级为多样性计算融合基础软件,把不同XPU专属的加速库、编译器等基础软件进行重构,提升应用软件开发效率和性能。

3、强化存力:推进东数西存、西备应用;以数据为中心,重定义存储架构

东数西存、西备是东数西算工程的重要场景,也是体现算网融合能力的关键业务。2022年中国移动已在贵州、内蒙等多省市试点验证跨域数据存储、备份技术方案的可行性,以与华为存储的联合创新为例,基于全局文件系统、数据智能分级等新技术,有力保障数据的可靠存储及安全、高效流动。2023年结合东数西算工程推进,建议在西部建设统一存储及灾备中心,并打通跨域网络及业务流程,同时完善产商品及商业模式设计,实现东数西存、西备类业务的规模应用。

对于未来存储架构的持续创新,将通过以数据为中心的软硬件架构重构,结合多样化数据应用加速引擎,实现性能大幅提升:一是通过高通量的全局数据总线,将当前数据流动的DDR内存总线、系统PCIe总线整合,提升数据流通效率;二是通过数控分离架构实现从应用到存储,减少当前数据从应用、计算、网络到存储的每层索引与缓存,缩短数据访问时延;三是将应用的数据处理层直接下放到存储系统实现近数据处理,实现应用加速。

4、完善脑力:单域使能、跨域编排,构建态势感知的能力开放中心

算网大脑是实现算网融合服务的关键点,同时也是难点。算网大脑在功能上首先应具备对算力、网络、数据等资源的全域感知能力,构建全域态势感知地图。针对不同业务的SLA需求、网络负载、算力分布等因素,进行资源的灵活组合编排,智能、动态地计算出最优协同调度策略。然后通过跨域资源调度将多域协同的调度任务智能、自动地分解给单域的使能平台,实现算、网、数的资源协同调度。

在编排与协同方面,现有云和网的编排实践,是算网大脑非常好的实现基础与参考。算网大脑的架构设计应抓住解耦这个核心原则,既实现跨域的协同,同时又保持各域相对独立的自治、自闭环。这样在运营方面,就可以实现统一的运营,同时在运维上,也遵循各自的技术本质,避免相互影响。

宏观层面的“四力”驱动:政策聚力、行业发力、技术给力、业务加力,结合运营商算力网络目标架构的“四力”提升:夯实运力、增强算力、强化存力、完善脑力,2023年算力网络已迈入发展快车道。构建算网融合能力,实现算力成为“一点接入、即取即用”的社会级服务将不再遥远….


返回列表