POST:AI芯片算力基础知识
POST:AI芯片算力基础知识
[原文地址](AI芯片算力基础知识 (qq.com))
AI计算的主要过程
- 提取/转换/加载数据(ETL)
- 选择或设计AI模型
- AI推理(非训练)
算力及AI算力主要芯片的分类
算力:计算机处理信息的能力(数学运算、数据处理和执行程序)
-
基础算力
基于CPU芯片的服务器所提供的算力,主要用于基础通用计算。(移动计算、物联网、云计算、边缘计算)
-
智能算力即AI算力
面向AI应用,提供AI算法模型训练与模型运行服务的计算机系统能力。
算力芯片:GPU(图像处理器)Graphics Processing Unit、ASIC(专用集成电路)Application-Specific Integrated Circuit、FPGA(现场可编程逻辑门阵列)Field Programmable Gate Array等。
-
超算算力
超级计算机等高性能计算集群所提供的算力(行星模拟、药物分子设计、基因分析)。
算力的常见单位
-
FLOPS(每秒浮点运算次数)
-
OPS(每秒运算次数)
-
TOPS(每秒万亿次操作)
-
TFLOPS(每秒万亿次浮点操作)
-
计量单位
K(千),M(百万),G(十亿),T(万亿),P(千万亿),E(百亿亿)
不同场景对应算力精度
-
浮点计算(半精度FP16、单精度FP32、双精度FP64)
-
FP64主要用于对精度要求很高的科学计算
-
AI训练场景下支持FP32和FP16
-
模型推理阶段支持FP16和INT8
-
-
整型计算(整型精度INT8)
- 模型推理阶段支持FP16和INT8
稀疏算力与稠密算力
描述计算资源的利用程度
-
稠密算力
计算过程中,数据点之间的关联度较高,需要处理大量连续的数据(图像处理、视频编码、大规模数值模拟)。
-
稀疏算力
数据点之间的关联度较低,数据分布稀疏(社交网络分析、推荐系统、基因序列分析)。
AI芯片架构与参数
-
GPU与ASIC架构(通常采用)
Tensor Core(GPU)
用于加速深度学习计算的关键技术,其主要功能是执行深度神经网络中的矩阵乘法和卷积计算。
采用半精度(FP16)作为输入和输出(矩阵Ax矩阵B),并利用全精度(矩阵C)进行存储中间结果计算,以确保计算精度的同时最大限度地提高计算效率。
-
FPGA架构
-
性能指标
-
计算能力:TFLOPS(每秒万亿次浮点操作)衡量
-
显存:GPU专用内存,与RAM不同,有更高的带宽和更快的访问速度。其大小和性能直接影响GPU处理大规模数据的能力。
-
功耗:单位时间内的能量消耗,单位瓦特(W)。
-
卡间互联:为多GPU系统服务,连接两块显卡实现显存和性能扩展。
-
显存带宽
GPU和显存之间数据传输的桥梁
显存带宽=显存位宽×显存频率
显存位宽是显存在一个时钟周期内所能传送数据的位数。
-
GPU核心分类及结构
图片处理器GPU又称显示核心、视觉处理器、显示芯片,是在设备上做图像运算工作的微处理器。
-
构成
-
运算单元(ALU)
在GPU中,运算单元占比更大。因此CPU运算能力更加均衡,GPU更适合做大量运算。
-
控制单元(Control)
-
缓存单元(Cache)
-
-
几种Core
-
CUDA Core
用于通用并行计算任务,每个CUDA核心含有一个ALU(整数单元)和一个浮点单元,并且提供了对于单精度和双精度浮点数的FMA指令。
特殊的浮点运算指令,用于在单个操作中执行乘法和加法运算。它的全称是“乘积累加操作”,其基本逻辑是将两个浮点数相乘,然后将结果加到一个累加器上,即执行 a = a + (b × c) 的操作。
-
Tensor Core
针对深度学习和AI工作负载设计的专用核心,擅长FP16和FP32的矩阵乘法和类加。
-
RT Core
专用于光线追踪处理的核心,能高效进行光线、声音的渲染。
-
-
架构及流式多处理器的结构组成实例
- Nvidia Volta架构:GV100
- ASIC-AI芯片:TPU
