环球报道:助攻AI大模型，腾讯云星脉高性能计算网络首次完整披露

智东西

(资料图片仅供参考)

编译 | Glu

编辑 | 李水青

智东西6月27日消息，昨天下午，腾讯云在北京举办了一场面向AI大模型的高性能网络沟通会，在现场首次完整披露了其自研的星脉高性能计算网络。据称，星脉网络具备3.2Tbps业界最高互联带宽，能提升40%的GPU利用率，节省30%~60%的模型训练成本，还让AI大模型通信性能提升10倍。

同时，基于腾讯云新一代算力集群HCC，星脉网络可支持10万卡的超大计算规模。

AI新时代，大模型成为AI领域最火热的话题，各大科技公司纷纷入局，腾讯公司也不例外，继6月19日公布其行业大模型研发进展后，腾讯云副总裁王亚晨、腾讯云数据中心网络总监李翔于今日与智东西等媒体官宣了“星脉网络”实现全新升级，并分享了腾讯云网络研究的发展历程。

王亚晨称：“星脉网络是为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务，将助力算力瓶颈的突破，进一步释放AI潜能，全面提升企业大模型的训练效率，在云上加速大模型技术的迭代升级和落地应用。”

演讲嘉宾：腾讯云副总裁王亚晨

演讲嘉宾：腾讯云数据中心网络总监李翔

一、AI大模型3大网络需求：大带宽、高利用率、无损网络

目前，AI大模型的训练参数已飙升至万亿级别，如此庞大的训练任务无法由单个服务器完成，而需要大量GPU服务器组成算力集群，相互协作完成任务。

这些服务器通过机间网络相连接，不断交换数据。因此，高性能网络具有至关重要的地位，它有利于让算力集群更加快速、准确地完成大规模的训练任务。

大集群不等于大算力，相反，GPU集群规模的扩大还会引发额外的通信开销。因为传统网络架构下，数据传输时会通过多层协议栈，需要反复停下来检查、分拣、打包，导致通信效率低下。

也就是说，网络层级越多，致GPU集群通信性能将越低。现在爆火的生成式AI大模型需要运用千亿、万亿参数规模进行训练，这个训练过程中通信占比最大可达50%，而传统低速网络的带宽无法支撑。

在这个问题的解决上，业界通常会引入RDMA技术（GPU之间直接通信），这是一种高性能、低延迟的网络通信技术，能够允许计算节点之间直接进行数据传输，减少中间环节。

但光靠RDMA技术还远远不够，传统网络协议也将制约GPU集群的运行效率。传统网络协议也很容易导致网络拥塞、高延时和丢包，而仅0.1%的网络丢包就可能导致50%的算力损失，最终造成算力资源的严重浪费。

王亚晨幽默地将传统网络协议喻为“交通管理系统”：“这让所有人都在一条大马路上行走，自然会导致交通堵塞。”

二、3.2Tbps带宽，支持10万卡集群组网

基于以上问题，腾讯云在交换机、通信协议、通信库以及运营系统等软硬件方面进行升级，推出了自研的大模型专属高性能网络“星脉”。

“带宽”决定了能够同时传输的数据，“拓扑”是节点设备间的连接方式，决定了组网规模的大小。在这两项硬指标上，腾讯云称星脉皆达到了业界最高水平。

在硬件方面，星脉网络自研白盒交换机，这是一种软硬件解耦的开放网络设备，采用四层解耦体系，包括接入、转发、路由、管控系统；腾讯云还自研了网络操作系统，包括网络OS与网管平台，构建了互联底座，实现自动化部署和配置。

在软件方面，腾讯云自研的TiTa网络协议，能够实时监测并调整网络拥塞，TiTa网络协议能够提升40%的带宽负载，还能提供低延时无损网络，实现高负载下的0丢包，使集群通信效率达90%以上。

王亚晨将其与传统网络协议对比，称：“这是让有不同需求的人走不同的路，就不会导致堵塞了。”

此外，腾讯云还为星脉网络设计了高性能集合通信库TCCL，融入定制化解决方案，使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道，可以避免因网络问题导致的训练中断等问题，让通信时延降低40%。

王亚晨将其比喻为“导航系统”，优化后的集合通信就像有了导航一样，可以快速找到最优路径。

为确保星脉网络的高可用，腾讯云自研端到端全栈网络运营系统。它可以让大模型训练系统的整体部署时间从19天缩减至4.5天，保证基础配置100%准确；通过端网立体化监控与智能定位系统，它可以进行离线故障诊断、在线故障实时告警，让整体故障的排查时间由天级降低至分钟级；此外，它具有秒级的故障自愈能力，端侧会主动发起路径选择，能够极速恢复网络故障。

三、3代演进，17年耕耘，网络硬软件全自研

根据腾讯云官方数据，目前，腾讯云在全球26个地理区域运营70个可用区，同时在70多个国家和地区部署了超过2800个CDN加速节点，全网带宽资源储备超过200T。

而在星脉网络技术升级的背后，是腾讯数据中心网络历经3代技术演进、17年耕耘的成果。

第一代是互联网驱动时期。数据中心网络流量主要由用户访问数据中心服务器的南北向流量构成，网络架构以接入、汇聚、出口为主。这一阶段主要使用了商用网络设备，搭建标准化数据中心网络，支撑QQ在线人数增长超过1亿，服务器规模增长超10万。

第二代是云服务驱动时期。随着大数据和云计算的兴起，服务器之间的东西向流量逐渐增多，云租户对网络产生了虚拟化和隔离的要求。数据中心网络架构逐渐演变为同时承载南北向和东西向流量的云网络架构，腾讯云构建了全自研网络设备与管理系统，打造超大规模数据中心网络，服务器规模近200万台。

第三代是大规模算力驱动时期。随着AI大模型的出现，腾讯云在国内率先推出高性能计算网络，采用东西向、南北向流量的分离架构。构建了独立的超大带宽、符合AI训练流量特征的网络架构，并配合自研软硬件设施，实现整套系统的自主可控，满足超强算力对网络性能的新需求。

日前，腾讯云发布的新一代HCC高性能计算集群，正是基于星脉高性能网络打造，可以实现3.2T超高互联带宽，算力性能较前代提升3倍，为AI大模型训练构筑可靠的高性能网络底座。

结语：面向AI大模型，腾讯星脉网络打助攻

参数达到千亿、万亿级别的AI大模型尤其看重网络性能，它需要大带宽、高利用率、无损的网络来帮助它高效地完成训练任务。以此为契机，腾讯云基于过往17年的网络布局经验与技术成果，研发了助攻AI大模型的星脉网络。星脉网络具备3.2Tbps带宽，可支持10万卡集群组网，能让AI大模型通信性提升10倍。

自OpenAI于去年推出ChatGPT后，各方势力纷纷入局AI大模型，千模大战一触即发。腾讯公司上周了公布其行业大模型的研究进度，腾讯云不“卷”参数，而聚焦到具体产业端，关注AI大模型的落地。此外，他们积极构建高性能网络以助攻AI大模型。此次沟通会中，王亚晨还透露腾讯云正在积极探索下一代高性能网络，致力于构建更强算力的计算集群。

一、AI大模型3大网络需求：大带宽、高利用率、无损网络

二、3.2Tbps带宽，支持10万卡集群组网

三、3代演进，17年耕耘，网络硬软件全自研

结语：面向AI大模型，腾讯星脉网络打助攻

推荐内容

环球报道:助攻AI大模型，腾讯云星脉高性能计算网络首次完整披露

怎样预防和去除日晒斑？

侯友宜出席政治幕僚培训营 与学员玩自拍

6月27日亿利洁能现4378.86万元大宗交易

百度推出高考热搜大数据服务，食堂最好吃、颜值最高的高校有哪些

当前观点：常德高新区：氢气储运关键技术与产业化项目正式开工

全球视点！美机场地勤被卷入飞机引擎当场死亡 法医判定为自杀

讨可以组什么词(讨的组词有哪些词语)

中国确实在技术上面现在有很多的发展，速度甚至超过我们预期，我们不必太过兴奋 世界新资讯

【天天报资讯】中国非处方药行业发展环境（PEST）及趋势预测 互联网终端渠道拓展

花几千元就能“拿证” 高考志愿填报市场乱象调查

6月27日 13:59分 西南证券（600369）股价快速拉升

俄方表示正在调查西方情报部门是否参与瓦格纳事件_今日热搜

2023佛山律动音乐节在哪里举办？ 天天新消息

环球今热点：中国首个“超深井、超大规模”矿山开工 总投资将超百亿元

国内商品期市午盘多数上涨-环球通讯

马尔泰若曦真正死因（历史真正的马尔泰若曦）-焦点快看

“唐宫小姐姐”太忙引热议|环球时讯

大学生“零距离”体验“城管日常” 世界信息

哈焊华通:公司目前没有光伏焊带产品-天天速看

全球热消息：科蒂斯控制器_科蒂

世界快播：momo大军流行背后：即将消失的匿名社交

世界快资讯：我国拟立法保障粮食安全

焦点速讯：全球最大海拔最高的水光互补项目柯拉一期光伏电站正式投产发电

环球热门:2020女性创业项目_女性创业项目大全

环球时讯：在“中国南大门”筑牢禁毒的铜墙铁壁

支付宝"极小版"将上线，微信将何去何从？

世界最资讯丨西南林大安宁校区_西南林大官网

【环球聚看点】好消息！HPV疫苗可以岔起打了！

三星本月开始从LG采购OLED面板，相关新品或于今年内上市

乌克兰总统泽连斯基前往顿涅茨克地区进行视察

清华“轮椅博士”毕业了，他选择……

7月电动车销量超市场预期 插混占比环比向上 全球微资讯

微视频丨熟悉的陌生人 简讯

全国人大社会委、国家医疗保障局赴北京市开展医疗保障法立法调研

《支撑20%新能源电量占比场景下的电网智能调度关键技术》交流会举办-独家焦点

报道：农业农村部：6月26日“农产品批发价格200指数”为121.23

当前报道:多多宝贝_多多宝

蓬生麻中不扶而直白沙在涅与之俱黑读音（蓬生麻中不扶而直白沙在涅与之俱黑）

速递！这样开车太恶劣！来回穿插超车致人死亡，刑拘！

【焦点热闻】西藏：撬动“智治”支撑创新点 全力提升乡村治理效能

百事通！索辰科技跌5.83% 上市超募13.5亿海通证券保荐

《最终幻想16》致PS5过热引起玩家讨论：性能模式背大锅？ 焦点热议

第四届盐城市未成年人心理健康教育宣传月精彩纷呈|天天速讯

赛砌筑、比维修 内蒙古446名职工选手开赛乡村振兴技能

环球看热讯：《封神第一部》曝 IMAX专属海报 姜子牙杨戬哪吒一袭白衣亮相仙风道骨

视觉传达设计是什么院系（视觉传达设计是什么）|看热讯

张莜雨高清图片_张莜雨

环球报道:融资太难了！3家房企忍痛割爱百亿元级项目

全球热议:瑞典最古老游乐园发生过山车事故 致1人死9人伤

环球报道:助攻AI大模型，腾讯云星脉高性能计算网络首次完整披露

准英超球队丨牙买加能否实现实质突破？

《一拳超人》的波罗斯是不是最强的怪人

fate stay night [heaven's feel]删减内容Ⅲ 世界时讯

“蝙蝠侠”大本拒绝《奇异2》，但可能会参演另外一部漫威作品？-天天速读

全球消息！俄罗斯宣布针对普里戈任的刑事立案已撤销

【渣翻】ゆかひれ老师的孤独摇滚同人④

最新工资价位表来了！你是什么段位？ 焦点日报

二次元美图第189期

《X战警：黑凤凰》：画面精致细腻，动作戏流畅刺激

《X战警：黑凤凰》：琴·葛蕾的电影里没有了金刚狼 世界速讯

25岁的唐三成神，40岁的萧炎成斗帝，而12岁的他却主宰动漫_环球资讯

全球实时：《仙逆》靠边站！这4本玄幻神作小说更精彩，本本评分高达9.6！

25位漫威电影演员将为动画系列《whatif》配音

今热点：40cm可发光的特利迦奥特曼巨像周边硬核夜灯从此睡觉高枕无忧

天天消息！【可爱的小萝莉谁不喜欢呢？】第二弹（237）

“蝙蝠侠”大本拒绝《奇异2》，但可能会参演另外一部漫威作品？

头条：《一拳超人》龙卷秒杀大炯眼，龙卷到底有多强？

【世界时快讯】北京：指定部分道路作为自动驾驶车辆测试道路

世界快看：5周年纪念特别限定钢普拉MG系列公开独角兽高达光之结晶体降临

布莱泽奥特曼7月杂志新画面，巨大感和氛围感太足了

贵阳雅礼高级中学（贵阳市第九中学）2023年特长生招生简章

山高新能源(01250.HK)1-5月累计总发电量约242.67万兆瓦时 同比增长约16.6%

怎样预防和去除日晒斑？

2023开封商业住房贷款转公积金贷款条件 当前滚动

侯友宜出席政治幕僚培训营　与学员玩自拍

全球视点！美机场地勤被卷入飞机引擎当场死亡法医判定为自杀

中国确实在技术上面现在有很多的发展，速度甚至超过我们预期，我们不必太过兴奋世界新资讯

【天天报资讯】中国非处方药行业发展环境（PEST）及趋势预测互联网终端渠道拓展

6月27日 13:59分西南证券（600369）股价快速拉升

2023佛山律动音乐节在哪里举办？天天新消息

环球今热点：中国首个“超深井、超大规模”矿山开工总投资将超百亿元

7月电动车销量超市场预期插混占比环比向上全球微资讯

微视频丨熟悉的陌生人简讯

【焦点热闻】西藏：撬动“智治”支撑创新点全力提升乡村治理效能

《最终幻想16》致PS5过热引起玩家讨论：性能模式背大锅？焦点热议

赛砌筑、比维修内蒙古446名职工选手开赛乡村振兴技能

环球看热讯：《封神第一部》曝 IMAX专属海报姜子牙杨戬哪吒一袭白衣亮相仙风道骨

全球热议:瑞典最古老游乐园发生过山车事故致1人死9人伤

最新工资价位表来了！你是什么段位？焦点日报

《X战警：黑凤凰》：琴·葛蕾的电影里没有了金刚狼世界速讯

山高新能源(01250.HK)1-5月累计总发电量约242.67万兆瓦时同比增长约16.6%

2023开封商业住房贷款转公积金贷款条件当前滚动

侯友宜出席政治幕僚培训营　与学员玩自拍

英雄联盟手游在哪下载_LOL手游在哪里下载天天报资讯

overlord填词系列雅儿贝德&夏提雅（勾指起誓）

铝：复产在即利润定价回归_每日热门

精选！从袖袖的才情看风灵玉秀的国风特质

全球通讯！以开放理念办开放大学揭秘河南开放大学的“办学之道”

（成都大运纪事）成都繁花迎宾全市新增绿地5712万平方米_今日快讯

《完美黑暗》仍处于前期开发阶段发售还需2-3年

累计减免货车通行费20.5亿元甘肃这一高速收费政策持续惠民

教育部部署暑期校外培训治理工作严防学科类培训机构违规开班_焦点讯息

临澧农商银行：支持集体经济助力乡村振兴