图形卡计算卡推理卡的区别

我们可以把“显卡”看作一个总称，根据其主要用途和硬件设计侧重点的不同，可以分为以下几类：

是什么：这是我们最常说的“显卡”，也叫游戏卡或消费级显卡。它的核心任务是实时生成和渲染图像，输出到显示器上。
核心功能：
- 3D 渲染：处理游戏、三维建模软件（如 Blender, Maya）中的复杂光影、纹理、几何计算。
- 显示输出：连接显示器，将最终画面显示出来。
技术特点：
- 拥有强大的光栅化和光线追踪单元，专门为游戏画面优化。
- 通常配备多种显示输出接口（如 HDMI, DP）。
- 带有视频编解码器，用于视频剪辑和直播推流。
典型代表：NVIDIA GeForce RTX 30/40/50 系列（如 RTX 4090）、AMD Radeon RX 系列。

是什么：也叫加速卡或数据中心GPU。它的核心任务是进行大规模并行数值计算，而不是直接生成图像。
核心功能：
- 科学计算：天气预报、流体动力学、基因测序等。
- AI 训练：训练庞大的深度学习模型（如 ChatGPT 背后的模型）。
- 仿真模拟：金融风险模拟、汽车碰撞测试等。
技术特点：
- 极度强大的双精度浮点性能：科学计算需要极高的精度，计算卡在这方面远强于图形卡。
- 巨大的显存和带宽：用于容纳超大规模的数据集和模型。
- 支持 NVLink：允许多卡高速互联，共享显存，像一块大卡一样工作。
- 无显示输出接口：因为它们不需要连接显示器。
- 更好的稳定性和可靠性：为7x24小时不间断运行设计。
典型代表：NVIDIA Tesla / A100 / H100系列、AMD Instinct 系列。

是什么：是计算卡的一个细分领域，专门用于AI推理。所谓“推理”，就是将已经训练好的AI模型投入实际使用（例如，输入一张图片，模型输出识别结果）。
核心功能：
- 部署AI模型，执行高并发的推理任务。
- 应用于智能视频分析、语音助手、推荐系统、自动驾驶（实时决策）等场景。
技术特点：
- 针对低延迟、高吞吐量的推理场景进行优化。
- 功耗和成本通常低于顶级的训练用计算卡。
- 形态多样，有插在PCIe插槽上的，也有集成在服务器里的M.2形态的小卡。
典型代表：NVIDIA T4, L4, A2，以及您提到的华为 Atlas 200 卡。

它们本质上是图形卡（游戏卡）。

但是，由于它们也具备强大的并行计算能力（CUDA核心），因此也常被用于：

需要注意的是：游戏卡在运行大型科学计算或AI训练时，相比专业的计算卡（如H100）主要有以下劣势：

所以，RTX系列是“兼职”做计算，而专业计算卡是“全职”做计算。

是什么：华为 Atlas 200 是一款AI推理卡，它基于华为自研的昇腾（Ascend）AI 处理器。它不是用于图形显示的游戏卡，也不是用于大规模AI训练的计算卡，其核心使命就是在端侧或边缘侧高效地运行已经训练好的AI模型。
特点：
- 功耗极低，体积小巧（有M.2和PCIe两种形态）。
- 专为推理优化，提供高性价比的推理算力。
怎么用：
1. 硬件安装：将其插入服务器的PCIe插槽或专用的M.2接口。
2. 软件环境：需要在运行的操作系统（通常是Linux）上安装华为昇腾AI处理器的驱动和CANN（Compute Architecture for Neural Networks）软件栈。
3. 模型转换：主流框架（如TensorFlow, PyTorch）训练好的模型，不能直接用在昇腾芯片上。需要使用 ATC（Ascend Tensor Compiler）工具 将其转换为昇腾芯片能高效执行的 .om 格式模型。
4. 开发部署：开发者使用昇腾提供的插件（如AscendCL接口）或与主流推理框架（如TensorRT, OpenVINO）对接的套件，来编写程序加载转换后的模型，并向其输入数据、获取推理结果。
5. 应用场景：广泛应用于边缘服务器、智能摄像头、无人机、机器人等需要实时AI处理的设备中。例如，一个智能摄像头利用Atlas 200卡实时分析视频流，检测是否有人闯入、是否佩戴了安全帽等。

为了让您更好理解，我们可以做一个简单的类比：

图形卡（RTX 4090）：像一辆高性能跑车。主要用来飙车（打游戏），偶尔也能下赛道跑圈（做计算），但不是最专业的。
计算卡（NVIDIA H100）：像一辆巨型重卡。专门用来拉极重的货物（大规模科学计算和AI训练），干粗活重活是一把好手，但不能上街买菜。
推理卡（华为Atlas 200, NVIDIA T4）：像一辆高效的快递小车。不负责生产货物（训练模型），只负责把已经生产好的货物（训练好的模型）最快最省油地分发到各个网点（执行推理）。