POST:AI芯片算力基础知识

[原文地址](AI芯片算力基础知识 (qq.com))

AI计算的主要过程

  1. 提取/转换/加载数据(ETL)
  2. 选择或设计AI模型
  3. AI推理(非训练)

算力及AI算力主要芯片的分类

算力:计算机处理信息的能力(数学运算、数据处理和执行程序)

  • 基础算力

    基于CPU芯片的服务器所提供的算力,主要用于基础通用计算。(移动计算、物联网、云计算、边缘计算)

  • 智能算力即AI算力

    面向AI应用,提供AI算法模型训练模型运行服务的计算机系统能力。

    算力芯片:GPU(图像处理器)Graphics Processing Unit、ASIC(专用集成电路)Application-Specific Integrated Circuit、FPGA(现场可编程逻辑门阵列)Field Programmable Gate Array等。

  • 超算算力

    超级计算机等高性能计算集群所提供的算力(行星模拟、药物分子设计、基因分析)。

算力的常见单位

  • FLOPS(每秒浮点运算次数)

  • OPS(每秒运算次数)

  • TOPS(每秒万亿次操作)

  • TFLOPS(每秒万亿次浮点操作)

  • 计量单位

    K(千),M(百万),G(十亿),T(万亿),P(千万亿),E(百亿亿)

不同场景对应算力精度

  • 浮点计算(半精度FP16、单精度FP32、双精度FP64)

    • FP64主要用于对精度要求很高的科学计算

    • AI训练场景下支持FP32和FP16

    • 模型推理阶段支持FP16和INT8

  • 整型计算(整型精度INT8)

    • 模型推理阶段支持FP16和INT8

稀疏算力与稠密算力

描述计算资源的利用程度

  • 稠密算力

    计算过程中,数据点之间的关联度较高,需要处理大量连续的数据(图像处理、视频编码、大规模数值模拟)。

  • 稀疏算力

    数据点之间的关联度较低,数据分布稀疏(社交网络分析、推荐系统、基因序列分析)。

AI芯片架构与参数

  • GPU与ASIC架构(通常采用)

    Tensor Core(GPU)

    用于加速深度学习计算的关键技术,其主要功能是执行深度神经网络中的矩阵乘法卷积计算

    采用半精度(FP16)作为输入和输出(矩阵Ax矩阵B),并利用全精度(矩阵C)进行存储中间结果计算,以确保计算精度的同时最大限度地提高计算效率。

  • FPGA架构

  • 性能指标

    • 计算能力:TFLOPS(每秒万亿次浮点操作)衡量

    • 显存:GPU专用内存,与RAM不同,有更高的带宽和更快的访问速度。其大小和性能直接影响GPU处理大规模数据的能力。

    • 功耗:单位时间内的能量消耗,单位瓦特(W)。

    • 卡间互联:为多GPU系统服务,连接两块显卡实现显存和性能扩展。

    • 显存带宽

      GPU和显存之间数据传输的桥梁

      显存带宽=显存位宽×显存频率

      显存位宽‌是显存在一个‌时钟周期内所能传送数据的位数。

GPU核心分类及结构

图片处理器GPU又称显示核心、视觉处理器、显示芯片,是在设备上做图像运算工作的微处理器。

  • 构成

    • 运算单元(ALU)

      在GPU中,运算单元占比更大。因此CPU运算能力更加均衡,GPU更适合做大量运算。

    • 控制单元(Control)

    • 缓存单元(Cache)

  • 几种Core

    • CUDA Core

      用于通用并行计算任务,每个CUDA核心含有一个ALU(整数单元)和一个浮点单元,并且提供了对于单精度和双精度浮点数的FMA指令

      特殊的浮点运算指令,用于在单个操作中执行乘法和加法运算。它的全称是“乘积累加操作”,其基本逻辑是将两个浮点数相乘,然后将结果加到一个累加器上,即执行 a = a + (b × c) 的操作。

    • Tensor Core

      针对深度学习和AI工作负载设计的专用核心,擅长FP16和FP32的矩阵乘法和类加。

    • RT Core

      专用于光线追踪处理的核心,能高效进行光线、声音的渲染。

  • 架构及流式多处理器的结构组成实例

    • Nvidia Volta架构:GV100
    • ASIC-AI芯片:TPU