金融理财服务管理HPC 2024：上半年建 140 个智算中心但实际需求正在萎缩

能源知识

您所在的位置是： BD半岛(中国体育) 官方网站 > 能源知识

金融理财服务管理HPC 2024：上半年建 140 个智算中心但实际需求正在萎缩

2024-11-22 22:28:39

浏览次数：次

返回列表

　　9月24日至26日，第20届CCF全国高性能计算学术年会（CCF HPC China 2024）在武汉市中国光谷科技会展中心举行，主题为“华章廿载新质未来”。

　　本届大会由12位院士领衔，携手了来自算力领域的400多位顶尖学者，进行学术交流和专题分享。值得一提的是，此次参会人数也创下历届新高，总数突破4000人。

　　在当下的智算时代，面对软硬件兼容复杂、训练集群故障频发、可用算力效率不高、电力及空间限制等算力相关“卡脖子”的问题，多名业内大佬阐述了自身认知。

　　在结合海内外发展的判断下，他们也先后展开了包括“高通量以太网(ETH+)”“晶圆级变结构计算”“类脑算力”等在内多种解法的分享和探讨。

　　值得一提的是，有关于全球市场中“算力的尽头是电力”的类似焦虑，在会上也出现了不同的声音——中国工程院院士邬江兴特别强调了“用电力拼算力”这一发展范式的不可持续。

　　另外，AI科技评论注意到，作为一年一度为超算、智算、数算等提供学术交流机会的平台，在今年的CCF HPC中，“超智融合”被一众大咖反复提及，成为本届大会最鲜明的特点。

　　超算是可以用来训练AI的，而国内过往在超算领域的丰富经验积累，需要移植到智算领域中来，超算和智算走向融合已然成为大势所趋。

　　这一趋势的出现，也标志着HPC由传统通用计算主导的科学计算，逐步过渡到了异构加速的AI计算新时代。

　　需要关注的是，近年，对于“算力网”这一概念的呼声走高也同超智融合息息相关。这也是基于中美需求差异的洞察下，更为符合国内算力市场现状的解决方案之一。

　　当前，国内在算力集群之上已有不少千卡、万卡级别的实践，但要实现十万卡，甚至超万卡的突破仍颇具挑战性。

　　国产算力究竟还有哪些“卡脖子”的问题？在此次CCF HPC China 2024上，业界大咖齐聚一堂对此作出讨论，与此同时，也带来了多种不同的解题思路。

　　“大算力需要大集群的扩展，但大集群并不一定能够提供大算力”，高通量以太网联盟执行主席、中国科学院计算技术副研究院王展分析。

　　“今天基于并行的计算范式，对于每次的计算迭代来说，完成之后GPU之间都要通过全局参数和提督同步才能进行下一轮迭代，这种同步通信的特质决定了训练集群很强的‘木桶短板’效应，任何一点拥塞、故障，都会导致整个集群训练性能的损失或下降。”

　　所以，“为了让大集群获得好的算力，提高算力的线性扩展度，需要做很多方面的优化工作，包括上面的算法、通讯框架、并行的计算模式，以及计算和网络协同，存储和网络的协同等等。”他总结发现，“其中最核心的需求是需要一个稳定高性能的网络互联。”

　　去年，大模型的兴起带动了算力需求的提升，而王展观察到，“彼时，许多头部互联网和云计算公司都还没有基于以太网成熟的解决方案，一时间业内唱衰以太网，认为只有InfiniBand（IB）才可以提供高性能的网络互联。”

　　发展至今年，“高通量以太网（ETH+）”逐渐走向主流舞台，也在今年的大会上再度引来一波热议。而从海外巨头的动向来看，据王展透露，AMD发布的UALINK 联盟也或将改为以太网：

　　“目前，AMD采用的是Infinity Fabri（IF）的私有协议，在服务器内部是基于全互联，而它下一步的GPU一定是采用Infinity Fabric Switch放在服务的外部，这方面如何构建将成为行业重要风向标。”

　　不过，“高通量以太网（ETH+）”仅仅是解决思路之一，邬江兴给出的“答卷”则聚焦于“晶圆级变结构计算”。

　　一是性能增长与算力需求的矛盾凸显；二是还原论模式导入带宽、时延和单位算力密度的插损；三是刚性计算架构造成总体效率低下；四是存储程序控制机理存在自在性安全矛盾。

　　金融理财服务管理

　　当前，晶上计算正成为大规模、低功耗、高密度、高性能计算系统主流，这一点从世界主流厂家的布局中可以窥见一斑——

　　2019年，美国AI芯片独角兽Cerebras Systems首推晶圆级处理器WSE系列挑战英伟达。2021年，特斯拉也推出了晶圆级Dojo处理器，此外，也包括英特尔的M2+晶圆级拼装、台积电的TSMC-SoW等等。

　　而和前述布局稍有不同的是，邬江兴讲述了“软件定义晶上系统（SDSoW）”的新概念。

　　他提出了一个“SMV困境定理”，即现实技术物理环境在满足全生命周期可扩展性前提下，任何单一技术体制都不可能在S、M、V三维空间内同时达到最优，这也是当前国产算力发展之时，所面对的计算架构单一性与算力需求多样性的矛盾所在。

　　针对这一“不可能三角”金融理财服务管理，“变结构计算”则是关键突破点。据邬江兴介绍，变结构计算的第一性原理为软件定义的节点+互联，SDSoW则是这一解法的物理实现载体。

　　不同的算力处理特征适用场景各有差异，于是芯片也需要实现异构融合，这也同人脑处理任务具有相似之处。沿着这套逻辑，“类脑算力”的概念也成为当前业界前沿的思考之一。

　　“类脑处理器（BPU）更加接近生物脑信息处理特征，比较适用于一些密度比高的矩阵和稀疏矩阵，以及知识图谱、动力学方程的运算，处理非结构化随机排布的数据运算更有效率。”中国科学院院士张旭如是说道。

　　当前，在全球范围内均有类脑计算相关布局——去年年底，广东智能科学与技术研究院发布了天琴芯类脑晶圆计算芯片，今年4月，英特尔也发布了Hala Point大型神经拟态系统。

　　不过，类脑芯片在功耗上能够占据一定优势的同时，对于成本问题，在业内仍有部分顾虑的声音存在。

　　金融理财服务管理

　　“我在一年前预测过芯片短缺，而下一个短缺的将是电力，明年将没有足够的电力来运行所有芯片。”特斯拉首席执行官埃隆·马斯克曾发表过这方面的担忧。

　　无独有偶，此前，OpenAI创始人山姆·奥特曼也曾提出类似警告：“下一波生成型人工智能系统消耗的电力将远远超出预期，能源系统将难以应对，未来AI的技术取决于能源，我们需要更多的光伏和储能。”

　　金融理财服务管理

　　美国科技巨头们的焦虑尽显，海外研究机构曾有报告称，ChatGPT每天要响应大约2亿个请求，在此过程中消耗超过50万度电力，这基本相当于1.7万个美国普通家庭的用电量。

　　针对国内情况，邬江兴在会上对此发表了不同看法，他强调了“用电力拼算力”这一发展范式的不可持续。“算力的极限不是电力，不应该是电力，电力支持不了算力的持续发展。”邬江兴坚持认为。

　　今年以来，“超智融合”也已成为业界广泛认可的国内HPC新趋势，这一点在本次大会上体现尤为明显。

　　“超算是可以用来训练超大模型的”，清华大学计算机系教授陈文光在演讲中提到，“过去，我国在超算上是有很好的基础的，那为什么到了智算时代，所有人都觉得我们落后了很多，是不是可以把超算领域的经验移植到智算领域里面来，通过‘超智融合’的方式。”

　　“我们在新神威计算机上研发了一个大模型训练框架叫‘Bagualu’，不过之前没有说要去超智融合金融理财服务管理，所以在双精度算力和半精度算力上面只做到了1：4。但是如果这台机器能做到1：16，用来做AI训练的话也会有一定竞争力。”陈文光说道。

　　“确实超算过去只有科学和工程计算作为主要的应用，面临商业用户相对来说是比较少的问题，如果能够做到很好的超智融合，也能给国产超级计算及的商业应用，提高整个的投资效率起到很好的作用。”

　　并行科技董事长、CCF副理事长陈健对于“超智融合”的趋势也有类似的感受。

　　在他看来，“在AI的进化史中，较长时间内我们理解AI是AI，超算是超算。但从去年开始，AI的大模型训练需求暴涨，这是典型的并行计算应用，底层需要超级计算机，是以GPU为主的超级计算机。其实超算也并不是说只有CPU的超级计算机，我们去看top500，70%是英伟达和AMD的GPU搭建起来的超级计算机，主要的算力是由GPU来组成的。”

　　自“百模大战”打响后，过去两年，业内不少实践发现，传统的基于云主机、虚拟化所搭建的云服务平台，面对大模型训练并不合适，而最关键的一点在于，没有解决卡与卡之间性能的问题，也就是超算中常用的带宽问题，或者说计算与通信的比例关系。

　　陈健将当前大模型的算力需求总结为以下方面——超大规模大模型训练供不应求，包括微调在内的常规的大模型训练供大于求。

　　对于常规大模型训练，目前看到的情况是：“今年上半年大概有140多个智算中心在建，全国在规划中的共有250多个智算中心，这部分算力搭建出来之后，大概率是2000卡以下的集群，而现在这样的需求正在萎缩。”

　　其中，关键原因在于两方面——“卷”基础大模型的厂商变少以及随着基础大模型版本的更新迭代，许多行业模型的存在价值正在消失。

　　当前，业内有关“算力网”建设的呼吁金融理财服务管理，则是在对“超智融合”这一趋势的预判之下给出的解决方案，对此，大会现场也有不少相关讨论。

　　国防科技大学院士王怀民介绍道，“超算与智算融合不仅体现在算力中心，还出现在更广泛范围内算力中心资源的有效连接和共享，所以我们都在呼唤中国算力网的出现。”

　　这也是由中美需求上的差异所决定的，美国的算力主要集中在云服务商手里，通信运营商并没有很强的算力，也并没有强调建立算力网，而是利用分布式的系统和编程语言技术来解决云的孤立的问题。

　　“Spark的发明人Ion Stoica组建了一个SkyComputing实验室，2022年正式启动，主要是想解决云服务平台的孤岛问题，想要发展成一种公共服务。主要包括三层平台，兼容层隐藏云之间的差异，云间层寻找不同服务的最佳性价比，互惠对等层则主要实现免费和快速地在云间传输。”

　　说回到国内，据李国杰观察，当前，由于在训练过程中需要频繁交换模型参数和梯度信息，所以实现反向传播的延迟通常要控制在毫秒级以下，国内的龙头企业都在做支持10万GPU卡以上规模的大模型，但采用的都是相对集中的集群系统，并没有采用异地分布式计算。

　　“他们的集群一般装在一个园区，可能有几个楼，分成几个计算岛，岛里面进行张量并行和流水线并行，岛之间做数据并行。但数据并行有个大问题，它要求一个GPU就要把整个模型参数存起来，GPT4有1.8万亿参数，可能需要10个TB以上的内存，这个成本非常高。”他说道。

　　同时，他还表示，“在西部建很多小的超算中心、智算中心，联合起来就可以解决我们国家的人工智能训练问题，这样的想法可能并不太靠谱。”

　　在李国杰的设想中，“算力网要发挥智能时代的基础设施的作用，也需要像有浏览器、微信一样的全民的普及应用。”

　　当前算力提供商、政府及学界纷纷在呼吁算力网的建设，在这方面也做出了不同的努力：

　　运营商布局云网融合，地方政府建算力枢纽中心，计算机界则聚焦于分布式计算的基础研究，例如，中科院计算所在做信息高铁项目、刘韵洁院士在做确定性计算网络、蒋昌俊院士在做机动性的方舱计算。

　　不过李国杰也发现，目前，真正需要这种远程算力的关键用户到底在哪，暂时还不是很清楚。

　　“最迫切的一点在于为需要几百卡、几千卡做训练的中小模型单位找到合适的算力，如果把这件事真正做好了，就能打磨出算力网的1.0版本。几年后，推理会比训练需要更多算力，等到那时再升级2.0版本的算力网。”李国杰预判。

　　当前，算力网的抽象还涉及以下四个问题：一是怎么统一命名资源空间，也就是实现算力资源的池化；二是怎么提供一个万维网网页一样的运行式抽象；三是怎么提供一个统一的编程方法；四是怎么系统性评价算力网的性能。雷峰网(公众号：雷峰网)雷峰网

上一篇：金融理财服务管理国电南瑞申请一种松耦合的电力知识图谱共享协作方法专利提高知识利用效率

下一篇：中华人民共和国能源法金融理财服务管理

BD半岛(中国体育) 官方网站

首页

关于BD半岛综合

BD半岛新闻中心

产品展示

留言板

能源知识

联系我们

能源知识

金融理财服务管理HPC 2024：上半年建 140 个智算中心但实际需求正在萎缩

友情链接：