CUDA 编程指南(中文版)¶
📖 关于本文档¶
本文档是 NVIDIA CUDA Programming Guide 的官方中文翻译版本,旨在帮助中文开发者更好地学习和使用 CUDA 并行计算框架。
- ✅ 专业翻译:专业术语准确,语句通顺自然
- ✅ 格式保留:完整保留原文代码块、链接、表格结构
- ✅ 持续更新:跟进官方文档最新版本
- ✅ 完整覆盖:覆盖全部 5 个部分、40+ 章节
📚 文档结构¶
第二部分:CUDA GPU 编程¶
深入学习 CUDA C++ 编程,掌握内核编写、内存管理与编译工具。
- 2.1 CUDA C++ 入门
- 2.2 编写 CUDA SIMT 内核
- 2.3 异步执行
- 2.4 统一内存与系统内存
- 2.5 NVCC 编译器
第三部分:高级 CUDA¶
探索高级 API、多 GPU 编程、驱动层接口等进阶主题。
- 3.1 高级 CUDA API 与特性
- 3.2 高级内核编程
- 3.3 CUDA 驱动 API
- 3.4 多 GPU 系统编程
- 3.5 CUDA 特性全览
🔑 核心概念速查¶
| 概念 | 英文 | 说明 |
|---|---|---|
| 内核 | Kernel | 在 GPU 上并行执行的函数 |
| 线程 | Thread | CUDA 并行执行的最小单元 |
| 线程块 | Block | 线程的组织单位,可协作执行 |
| 线程网格 | Grid | 线程块的集合 |
| 线程束 | Warp | 32 个线程的执行单位 |
| 共享内存 | Shared Memory | 同一线程块内线程共享的高速内存 |
| 全局内存 | Global Memory | GPU 上所有线程可访问的主内存 |
| 流 | Stream | 按顺序执行的 CUDA 操作序列 |
| 计算能力 | Compute Capability | GPU 架构版本与特性集合 |
| 占用率 | Occupancy | SM 上活跃线程束与最大数量之比 |
📝 翻译说明¶
本文档使用 AI 辅助翻译,并对专业术语进行了人工审校。翻译原则:
- 专业术语优先:遵循业界通用中文译法
- 代码保留原文:所有代码块保持英文原样
- 语句通顺自然:在准确的前提下确保中文可读性
如发现翻译问题,欢迎在 GitHub Issues 提出。
本翻译仅供学习参考,一切以 NVIDIA 官方文档 为准。