算力与人工智能

对算力在人工智能发展中的作用、基础设施需求及政策影响的全面分析

By Jai Vipra & Sarah Myers West | AI Now Institute

发布时间:2023年9月

报告概述

本报告探讨计算力("compute")在人工智能系统中的关键作用。随着AI模型规模和复杂度的增长,其计算需求正以前所未有的速度增加,这在技术、环境、经济及政策领域引发了新的挑战与影响。

我们分析了从硬件组件到数据中心的全栈计算基础设施,并探讨计算资源的限制与分配如何影响人工智能的发展方向、参与主体范围以及最终构建的AI系统类型。

关键数据点

算力需求增长

自2012年以来,训练大型AI模型所需的算力每3-4个月翻一番,远超摩尔定律的增长速度。

能耗

训练单个大型语言模型的耗电量可能超过100多户美国家庭的年用电量。

市场集中度

仅三家公司就控制了提供AI训练基础设施的云计算市场65%以上的份额。

Carbon Footprint

到2025年,人工智能行业的计算需求可能占据全球电力消耗总量的3%。

核心洞见摘要

算力决定人工智能能力

计算资源的规模直接决定了能够开发何种人工智能模型以及由谁来开发,形成了巨大的准入门槛。

环境影响

人工智能系统日益增长的计算需求带来了巨大的环境代价,包括显著的能源消耗和碳排放。

供应链脆弱性

AI计算依赖于复杂的全球供应链,其制造环节高度集中且存在潜在的单点故障风险。

政策滞后

现行政策框架未能跟上人工智能计算基础设施的快速扩张步伐,导致监管缺口。

Hardware Lottery Effect

人工智能的研究方向深受现有硬件影响,适配当前计算基础设施的研究方法会获得不成比例的关注。

地缘政治影响

对计算资源的控制已成为国际竞争的关键因素,出口管制和产业政策正深刻影响着人工智能能力的获取途径。

Document Contents

报告内容

1. 引言:算力在人工智能中的核心地位

计算能力已成为决定人工智能能力的基本要素。与早期算法创新推动发展的时代不同,当代人工智能的进步越来越依赖于大规模计算资源。

这一转变对谁能参与前沿人工智能研究、开发何种人工智能系统以及人工智能效益如何在社会中分配具有深远影响。

2. How Compute Demand Shapes AI Development

先进人工智能模型对计算能力需求的不断攀升,形成了显著的行业准入门槛,使得开发能力集中于资源充裕的科技公司。

这场算力军备竞赛影响着研究方向的优先级,使得能够随算力扩展的研究方法更受青睐,而非那些可能更高效但计算强度较低的技术路径。

  • 初创企业 vs 行业巨头: 大型科技公司的算力优势构筑了显著的竞争壁垒
  • 研究方向: 计算密集型方法获得了不成比例的关注和资金
  • 全球分布: 计算能力在全球分布不均,影响各地区参与AI开发的能力

3. 大规模AI模型中的计算能力衡量

人工智能训练的计算需求通常以浮点运算次数(FLOPs)衡量。当代最先进的模型需要消耗10^23至10^25 FLOPs量级的训练计算量。

这些需求的增长速度远超硬件效率的提升幅度,导致训练最先进模型的成本呈指数级增长。

4. AI计算硬件堆栈

AI硬件生态系统包含专为并行计算优化的专用处理器,特别是GPU以及日益增多的领域专用架构,如TPU和其他AI加速器。

不同的硬件配置针对AI生命周期中的不同阶段进行了优化:训练与推理,具有独特的性能和效率特征。

5. Hardware Components and Supply Chains

人工智能硬件的全球供应链在设计、制造、组装和分销环节存在复杂的相互依赖关系,且每个阶段都具有显著的地域集中性。

  • 芯片设计: 由NVIDIA、AMD和Google等公司主导
  • 芯片制造: 高度集中于台湾(台积电)和韩国(三星)
  • 封装与测试: 主要位于东亚和东南亚地区
  • 原材料: 对特种材料的依赖会带来额外的供应链脆弱性

6. 数据中心基础设施

数据中心作为承载AI训练与部署计算资源的物理基础设施,其地理分布、能源来源和冷却系统将显著影响AI计算的经济效益与环境足迹。

大型科技公司正日益开发专门针对AI工作负载优化的专用数据中心,尤其关注电力输送和冷却系统。

7. Environmental Impact and Sustainability

现代人工智能系统的计算强度产生了显著的环境外部性,包括:

  • 训练和推理过程中的巨大电力消耗
  • 数据中心冷却系统的用水量
  • 硬件更新产生的电子垃圾
  • 能源生产产生的碳排放

为减轻这些影响所采取的措施包括:提高计算效率、将数据中心设在可再生能源丰富的地区,以及开发更可持续的冷却技术。

8. 政策应对与治理

现行政策框架难以跟上人工智能计算基础设施的快速扩张步伐。关键政策考量包括:

  • 针对数据中心排放与能耗的环境监管条例
  • 关于计算资源集中化的反垄断考量
  • 先进计算硬件的出口管制
  • 计算效率的测量与报告标准
  • 面向研究的计算基础设施公共投资

9. 结论与未来方向

计算能力已成为影响人工智能发展与部署的关键因素。不断攀升的计算需求造成了显著的准入壁垒、环境挑战及供应链脆弱性问题。

应对这些挑战需要协调多方面的行动:通过技术改进提升效率、制定政策管控外部效应,并采取结构性措施确保更广泛地获取计算资源。

未来研究应聚焦于开发计算密集度较低的AI方法、改进计算效率的衡量标准,并设计用于计算资源分配与访问的治理机制。