联系人: 刘经理
手机: 15378180513
电话: 028-83252151
邮箱: liutao@cdh3c.com
地址: 成都市武候区人民南路4段53号嘉云台丙栋7楼
万卡时代,中国智算该如何应对!
时间就是金钱,效率就是生命”,这句改开时代的口号,在大模型驱动的智算时代,仍旧不过时。
算力作为生产力,所节约的不只是金钱,更重要的是时间。
目前算力集群已经从千卡,迈入了万卡、五万卡集群。甚至有媒体预测,GPT6未来部署的时候,需要70万-80万张卡才能支撑。
那问题来了,万卡集群在执行大规模训练任务时负载重,发生软硬件错误的概率,当然也就更高。万卡时代,一张卡、一台机器或一个链路的故障,都可能导致中断,拖慢进程。那么十万卡、百万卡等更大数量级的提升,未来如何应对?
目前,国际科技巨头如谷歌、微软、苹果等,在算力集群建设上持续投入,其中AI算力占总算力支出的比例持续增长,预计到2025年将达到25%。放眼国内,万卡及以上的组网也成为下一代智算中心的建设重点。
然而,算力集群卡的数量非线性增加,会带来更大的不稳定性和协作难度。正如新华三在前不久的媒体与分析师大会上所说,单卡单打独斗我们(与N卡)有差距,多卡集群服务不能打群架。
(拍摄自新华三集团2024媒体与分析师沟通会)
我们知道,分布式并行训练能够加速训练过程,是大模型常用的训练方式,相当于将任务分配给多个AI硬件,组成协作节点和集群,主打一个“人多力量大”。但是,人多还得心齐啊,让多卡用高效一致的步伐进行协作,却是一件难事,容易出现“打群架”的情况。
多卡“打架”,集群就会因故障而中断。
一位清华大学计算机教授曾分享过一个数据,其团队写一次容错检查点checkpoint需要三小时,这还是世界先进水平(未经优化前)。
工作三小时就得被迫停下,活(训练过程)又一点不能少,只能加班加点。普通打工人听了都得“抓狂”,更别说要跟技术创新抢速度、作业生产要效率的产学界了。
多卡集群“不打群架”,将算力最大化地有效使用起来,发挥每一张GPU的价值,提升训练效率,对开发人员来说,堪比中“彩票”,价值很大,但概率却不定。
显然,千行百业智能化,当然不能靠“中彩”和运气。
当算力集群即将从万卡,迈入五万、十万乃至百万卡的清晰未来,我们不能只以单一的规模和FLOPS浮点运算次数,来衡量智算中心的综合水平。其他因素也同样重要,比如集群扩展性、兼容性、算效比、能耗比等。
而万卡时代,意味着AI硬件的种类更多,既有不同架构,还有不同品类、不同版本。企业或开发者想要着手AI模型和应用开发,会在复杂的软件生态中晕头转向,很难快速找到路径。
比如说,每个芯片厂商都有自己的底层软件栈,且彼此不兼容,这就给AI开发者带来了大量移植工作,适配迁移的操作繁琐,时间、人力、金钱成本都很高。
我们注意到,2024年以来,为帮助企业和AI开发者加快走出软件丛林,不少智算厂商都在强化AI软件赋能。比如宁畅在3月提出了“全局智算”战略,以“AI软动力”支持“精、准、稳”的AI集群设计,帮助客户实现大规模AI集群方案架构设计;中科曙光首次提出了“立体计算”体系,在“建、用、生态”三维发力的全新计算体系中,加大对软件生态的投入和支持;4月浪潮信息发布的企业大模型开发平台“元脑企智(EPAI)”,通过端到端的解决方案,为企业提供AI应用开发全流程的系列工具。
可以看到,“软硬兼施”的均衡能力,正在成为智算市场的兵家必争之地。
- 上一篇:精进AI、稳固生态、发力行业:新华三作答AI时代
- 下一篇:没有了!
-
2024-05-08万卡时代,中国智算该如何应对!
-
2023-10-24新华三H3C:AIGC将成为数字内容创新发展的新引擎
-
2023-01-05大事件:HPE 卖出新华三全部股权、H3C完全国产化
-
2022-10-21打造面向未来的IT基础,新华三助力歌尔在越南建厂
-
2023-01-05H3C公司的前身今世
-
2023-10-30国内计算能力逐步增强,新华三H3C正在加紧引领和适应
-
H3C 小贝优选 UR7208-P-E路由器 华三RT-UR7208-P-E 10口全千兆PoE路由器(2GE WAN,8GE LAN(5GE LAN,3GE LAN/WAN,110W PoE+))
-
H3C ER5200G3全新一代高性能企业级路由器
-
小贝优选 H3C Mini S2G八口千兆无管理桌面型交换机 (H3C Mini S2G 8个10/100/1000Base-T电口)小贝优选交换机
-
H3C S5120V3-LI系列网管接入交换机
-
H3C WAP952 Wi-Fi 6 802.11ax 无线接入设备
-
华三EWP-WAP722XS-W2-FIT无线AP WAP722XS-W2 内置天线双频四流802.11ac/n Wave 2室外型无线接入点-FIT