POST:AI芯片算力基础知识

发表于2024-09-09|更新于2024-09-09|Post

POST：AI芯片算力基础知识

[原文地址](AI芯片算力基础知识 (qq.com))

AI计算的主要过程

提取/转换/加载数据（ETL）
选择或设计AI模型
AI推理（非训练）

算力及AI算力主要芯片的分类

算力：计算机处理信息的能力（数学运算、数据处理和执行程序）

基础算力

基于CPU芯片的服务器所提供的算力，主要用于基础通用计算。（移动计算、物联网、云计算、边缘计算）
智能算力即AI算力

面向AI应用，提供AI算法模型训练与模型运行服务的计算机系统能力。

算力芯片：GPU（图像处理器）Graphics Processing Unit、ASIC（专用集成电路）Application-Specific Integrated Circuit、FPGA（现场可编程逻辑门阵列）Field Programmable Gate Array等。
超算算力

超级计算机等高性能计算集群所提供的算力（行星模拟、药物分子设计、基因分析）。

算力的常见单位

FLOPS（每秒浮点运算次数）
OPS（每秒运算次数）
TOPS（每秒万亿次操作）
TFLOPS（每秒万亿次浮点操作）
计量单位

K（千），M（百万），G（十亿），T（万亿），P（千万亿），E（百亿亿）

不同场景对应算力精度

浮点计算（半精度FP16、单精度FP32、双精度FP64）
- FP64主要用于对精度要求很高的科学计算
- AI训练场景下支持FP32和FP16
- 模型推理阶段支持FP16和INT8
整型计算（整型精度INT8）
- 模型推理阶段支持FP16和INT8

稀疏算力与稠密算力

描述计算资源的利用程度

稠密算力

计算过程中，数据点之间的关联度较高，需要处理大量连续的数据（图像处理、视频编码、大规模数值模拟）。
稀疏算力

数据点之间的关联度较低，数据分布稀疏（社交网络分析、推荐系统、基因序列分析）。

AI芯片架构与参数

GPU与ASIC架构（通常采用）

Tensor Core（GPU）

用于加速深度学习计算的关键技术，其主要功能是执行深度神经网络中的矩阵乘法和卷积计算。

采用半精度（FP16）作为输入和输出（矩阵Ax矩阵B），并利用全精度（矩阵C）进行存储中间结果计算，以确保计算精度的同时最大限度地提高计算效率。
FPGA架构
性能指标
- 计算能力：TFLOPS（每秒万亿次浮点操作）衡量
- 显存：GPU专用内存，与RAM不同，有更高的带宽和更快的访问速度。其大小和性能直接影响GPU处理大规模数据的能力。
- 功耗：单位时间内的能量消耗，单位瓦特（W）。
- 卡间互联：为多GPU系统服务，连接两块显卡实现显存和性能扩展。
- 显存带宽
  
  GPU和显存之间数据传输的桥梁
  
  显存带宽=显存位宽×显存频率
  
  显存位宽‌是显存在一个‌时钟周期内所能传送数据的位数。

GPU核心分类及结构

图片处理器GPU又称显示核心、视觉处理器、显示芯片，是在设备上做图像运算工作的微处理器。

构成
- 运算单元（ALU）
  
  在GPU中，运算单元占比更大。因此CPU运算能力更加均衡，GPU更适合做大量运算。
- 控制单元（Control）
- 缓存单元（Cache）
几种Core
- CUDA Core
  
  用于通用并行计算任务，每个CUDA核心含有一个ALU(整数单元)和一个浮点单元，并且提供了对于单精度和双精度浮点数的FMA指令。
  
  特殊的浮点运算指令，用于在单个操作中执行乘法和加法运算。它的全称是“乘积累加操作”，其基本逻辑是将两个浮点数相乘，然后将结果加到一个累加器上，即执行 a = a + (b × c) 的操作。
- Tensor Core
  
  针对深度学习和AI工作负载设计的专用核心，擅长FP16和FP32的矩阵乘法和类加。
- RT Core
  
  专用于光线追踪处理的核心，能高效进行光线、声音的渲染。
架构及流式多处理器的结构组成实例
- Nvidia Volta架构：GV100
- ASIC-AI芯片：TPU

相关推荐

计算机网络:应用层

计算机网络:协议层次和服务模型

计算机网络:分组延时、丢失和吞吐量

计算机网络:Internet结构和ISP

POST:Fine-tuning - 训练和推理（Training vs Inference）

POST:交换机工作原理与基本配置

评论

数据库加载中