如何看懂智算中心!

智算中心,就是以人工智能计算任务为主的数据中心。

 

数据中心通常包括三种类别,除了智算中心以外,另外两种分别是以通用计算任务为主的通算中心,以及以超级计算任务为主的超算中心。

 

2023年以来,以ChatCPT、Sora为代表的AIGC大模型横空出世,掀起了一股席卷全球的AI浪潮。

 

想要在AI浪潮中占据优势,就必须拥有强劲的AI算力支撑。智算中心,作为AI算力的核心基础设施,逐渐成为人们关注的焦点,也是行业重点建设的对象。

 

根据数据显示,我国目前已经有包括武汉、成都、长沙、南京、呼和浩特等在内的20多个城市建设了智算中心。到2025年,国内智算中心数量将超过50个。

 

这些智算中心采用专门的AI算力硬件,适合高效运行AI算法。它们可以应用于计算机视觉、自然语言处理、机器学习等领域,处理图像识别、语音识别、文本分析、模型训练推理等任务。

 

█ 智算服务器,到底有什么不同?
智算服务器是智算中心的主要算力硬件。它和传统通用服务器最大的区别,在于算力芯片的不同。

 

传统通用服务器以CPU作为主要芯片,有的配置了GPU(图形处理单元)卡,也有的没配。即便配置了,也数量不多(1-2块),以完成传统图形处理任务(3D图形渲染等)为主。

 

智算服务器,为了保证的操作系统运行,也配置了CPU。但是,为了更好地完成AI计算任务,所以配置了更多的GPU、NPU(神经网络处理单元)、TPU(张量处理单元)等计算芯片(4块或8块),以这些芯片输出的算力为主。

 

这种“CPU+GPU”、“CPU+NPU”的架构,也被称为“异构计算”架构,能够充分发挥不同算力芯片在性能、成本和能耗上的优势。

 

GPU、NPU、TPU的内核数量多,擅长并行计算。AI算法涉及到大量的简单矩阵运算任务,需要强大的并行计算能力。

 

在实际使用中,GPU、NPU、TPU会做成板卡的形态,插入到智算服务器的插槽中。等服务器上电启动后,再根据调度执行计算任务。

 

除了芯片不同之外,为了充分发挥性能以及保障稳定运行,AI服务器在架构、存储、散热、拓扑等方面也进行了强化设计。

 

例如,智算服务器的DRAM容量通常是普通服务器的8倍,NAND容量是普通服务器的3倍。甚至它的PCB电路板层数也明显多于传统服务器。

 

疯狂堆料,肯定也会带来两者之间的成本差异。一台智算服务器的价格,可能会达到传统通用服务器的数十倍以上。

 

不久前,中国移动公示了2024年至2025年新型智算中心集采中标结果,采购智算服务器总规模达到8054台,中标总金额达到了约191.04亿元人民币(不含税)。平均下来,每台的价格是237.2万元。通用服务器的价格,根据品牌和配置的不同,大约在1到10万元之间。

受算力板卡的影响,智算服务器的功耗也明显大于通用服务器。

 

以英伟达GPU为例,A100单卡功耗400W,H100单卡功耗700W。配置了8张GPU的智算服务器,仅GPU的热功耗就能达到3.2~5.6 kW。传统通用服务器的话,也就0.3~0.5 kW左右。

从外型上来看,智算服务器和通用服务器并没有很大的区别。两者都是标准架构,可以放入42U标准机架。如果内置了较多的AI算力板卡,智算服务器的厚度可能会稍微大一些,达到4U、5U甚至10U。

 

这里需要注意,根据工作任务的不同,智算服务器也会分为训练服务器、推理服务器或者训推一体服务器。这些服务器在架构和体型上会存在一些差异。一般来说,训练服务器会比推理服务器更庞大一些(AI算力板卡更多)。

下一篇:无下一篇
分享到: