5.3 C++ 语言支持¶

本文档为 NVIDIA CUDA Programming Guide 官方文档中文翻译版

原文地址：https://docs.nvidia.com/cuda/cuda-programming-guide/05-appendices/cpp-language-support.html

本页面是否有帮助？

5.3. C++ 语言支持¶

nvcc 根据以下规范处理 CUDA 和设备代码：

C++03 (ISO/IEC 14882:2003)，使用 --std=c++03 标志。
C++11 (ISO/IEC 14882:2011)，使用 --std=c++11 标志。
C++14 (ISO/IEC 14882:2014)，使用 --std=c++14 标志。
C++17 (ISO/IEC 14882:2017)，使用 --std=c++17 标志。
C++20 (ISO/IEC 14882:2020)，使用 --std=c++20 标志。

向 nvcc 传递 -std=c++<version> 标志会启用与指定版本相关的所有 C++ 功能，并使用相应的 C++ 方言选项调用主机预处理器、编译器和链接器。

编译器支持所有受支持标准中的语言功能，但需遵循后续章节中报告的限制。

5.3.1. C++11 语言功能¶

语言功能	C++11 提案	NVCC/CUDA Toolkit 7.x
右值引用	N2118	✔
*this 的右值引用	N2439	✔
通过右值初始化类对象	N1610	✔
非静态数据成员初始化器	N2756	✔
可变参数模板	N2242	✔
扩展可变参数模板的模板参数	N2555	✔
初始化列表	N2672	✔
静态断言	N1720	✔
auto 类型变量	N1984	✔
多声明符 auto	N1737	✔
移除 auto 作为存储类说明符	N2546	✔
新的函数声明符语法	N2541	✔
Lambda 表达式	N2927	✔
表达式的声明类型	N2343	✔
不完整的返回类型	N3276	✔
右尖括号	N1757	✔
函数模板的默认模板参数	DR226	✔
解决表达式的 SFINAE 问题	DR339	✔
别名模板	N2258	✔
外部模板	N1987	✔
空指针常量	N2431	✔
强类型枚举	N2347	✔
枚举的前向声明	N2764 DR1206	✔
标准化的属性语法	N2761	✔
广义常量表达式	N2235	✔
对齐支持	N2341	✔
有条件支持的行为	N1627	✔
将未定义行为更改为可诊断错误	N1727	✔
委托构造函数	N1986	✔
继承构造函数	N2540	✔
显式转换运算符	N2437	✔
新字符类型	N2249	✔
Unicode 字符串字面量	N2442	✔
原始字符串字面量	N2442	✔
字面量中的通用字符名称	N2170	✔
用户定义字面量	N2765	✔
标准布局类型	N2342	✔
默认函数	N2346	✔
删除的函数	N2346	✔
扩展的友元声明	N1791	✔
扩展 sizeof	N2253 DR850	✔
内联命名空间	N2535	✔
无限制联合体	N2544	✔
局部和未命名类型作为模板参数	N2657	✔
基于范围的 for 循环	N2930	✔
显式虚函数重写	N2928 N3206 N3272	✔
对垃圾回收和基于可达性的泄漏检测的最小支持	N2670	✘
允许移动构造函数抛出异常 [noexcept]	N3050	✔
定义移动特殊成员函数	N3053	✔
并发
序列点	N2239	✘
原子操作	N2427	✘
强比较与交换	N2748	✘
双向栅栏	N2752	✘
内存模型	N2429	✘
数据依赖排序：原子操作与内存模型	N2664	✘
异常传播	N2179	✘
允许在信号处理器中使用原子操作	N2547	✘
线程局部存储	N2659	✘
并发环境下的动态初始化与析构	N2660	✘
C++11 中的 C99 特性
func 预定义标识符	N2340	✔
C99 预处理器	N1653	✔
long long	N1811	✔
扩展整数类型	N1988	✘

5.3.2. C++14 语言特性¶

语言特性	C++14 提案	NVCC/CUDA Toolkit 9.x
对某些 C++ 上下文转换的调整	N3323	✔
二进制字面量	N3472	✔
返回类型可推导的函数	N3638	✔
广义 lambda 捕获（初始化捕获）	N3648	✔
泛型（多态）lambda 表达式	N3649	✔
变量模板	N3651	✔
放宽对 constexpr 函数的要求	N3652	✔
成员初始化器与聚合类	N3653	✔
明确内存分配	N3664	✘
指定大小的释放	N3778	✘
[[deprecated]] 属性	N3760	✔
单引号作为数字分隔符	N3781	✔

5.3.3. C++17 语言特性¶

语言特性	C++17 提案	NVCC/CUDA Toolkit 11.x
移除三字符组	N4086	✔
u8 字符字面量	N4267	✔
折叠表达式	N4295	✔
命名空间和枚举项的属性	N4266	✔
嵌套命名空间定义	N4230	✔
允许对所有非类型模板参数进行常量求值	N4268	✔
扩展 static_assert	N3928	✔
从大括号初始化列表推导 auto 的新规则	N3922	✔
允许在模板模板参数中使用 typename	N4051	✔
[[fallthrough]] 属性	P0188R1	✔
[[nodiscard]] 属性	P0189R1	✔
[[maybe_unused]] 属性	P0212R1	✔
聚合初始化的扩展	P0017R1	✔
constexpr lambda 的措辞	P0170R1	✔
一元折叠与空参数包	P0036R0	✔
泛化基于范围的 for 循环	P0184R0	✔
按值捕获 *this 的 Lambda	P0018R3	✔
enum class 变量的构造规则	P0138R2	✔
C++ 的十六进制浮点数字面量	P0245R1	✔
超对齐数据的动态内存分配	P0035R4	✔
保证的拷贝消除	P0135R1	✔
为惯用 C++ 优化表达式求值顺序	P0145R3	✔
constexpr if	P0292R2	✔
带初始化器的选择语句	P0305R1	✔
类模板的模板参数推导	P0091R3 P0512R0	✔
使用 auto 声明非类型模板参数	P0127R2	✔
无需重复使用属性命名空间	P0028R4	✔
忽略不支持的非标准属性	P0283R2	✔
结构化绑定	P0217R3	✔
移除 register 关键字的已弃用用法	P0001R1	✔
移除已弃用的 operator++(bool)	P0002R1	✔
使异常规范成为类型系统的一部分	P0012R1	✔
C++17 的 __has_include	P0061R1	✔
重写继承构造函数（核心问题 1941 等）	P0136R1	✔
内联变量	P0386R2	✔
DR 150，模板模板参数的匹配	P0522R0	✔
移除动态异常规范	P0003R5	✔
using 声明中的包展开	P0195R2	✔
字节类型定义	P0298R0	✔
DR 727，类内显式实例化	CWG727	✔

5.3.4. C++20 语言特性¶

GCC 版本 ≥ 10.0，Clang 版本 ≥ 10.0，Microsoft Visual Studio ≥ 2022，以及 nvc++ 版本 ≥ 20.7。

语言特性	C++20 提案	NVCC/CUDA Toolkit 12.x
位域的默认成员初始化器	P0683R1	✔
修复指向成员的 const 限定指针	P0704R1	✔
允许 lambda 捕获 [=, this]	P0409R2	✔
用于预处理器逗号省略的 VA_OPT	P0306R4 P1042R1	✔
指定初始化器	P0329R4	✔
泛型 lambda 的熟悉模板语法	P0428R2	✔
vector 的列表推导	P0702R1	✔
概念	P0734R0 P0857R0 P1084R2 P1141R2 P0848R3 P1616R1 P1452R2 P1972R0 P1980R0 P2092R0 P2103R0 P2113R0	✔
带有初始化器的基于范围的 for 语句	P0614R1	✔
简化隐式 lambda 捕获	P0588R1	✔
ADL 和不可见的函数模板	P0846R0	✔
默认复制构造函数的 const 不匹配	P0641R2	✔
减少 constexpr 函数的急切实例化	P0859R0	✔
一致比较（operator<=>）	P0515R3 P0905R1 P1120R0 P1185R2 P1186R3 P1630R1 P1946R0 P1959R0 P2002R1 P2085R0	✔
特化的访问检查	P0692R1	✔
可默认构造和可赋值的无状态 lambda	P0624R2	✔
未求值上下文中的 lambda	P0315R4	✔
空对象的语言支持	P0840R2	✔
放宽范围 for 循环定制点查找规则	P0962R1	✔
允许结构化绑定访问可访问成员	P0969R0	✔
放宽结构化绑定定制点查找规则	P0961R1	✔
告别 typename！	P0634R3	✔
允许在 lambda 初始化捕获中展开包	P0780R2 P2095R0	✔
likely 和 unlikely 属性的建议措辞	P0479R5	✔
弃用通过 [=] 隐式捕获 this	P0806R2	✔
非类型模板参数中的类类型	P0732R2	✔
非类型模板参数的不一致性	P1907R1	✔
带填充位的原子比较并交换	P0528R3	✔
可变大小类的高效大小删除	P0722R3	✔
允许在常量表达式中进行虚函数调用	P1064R0	✔
禁止具有用户声明构造函数的聚合类型	P1008R1	✅
explicit(bool)	P0892R2	✅
有符号整数采用二进制补码表示	P1236R1	✅
char8_t	P0482R6	✅
立即函数 ( consteval )	P1073R3 P1937R2	✅
std::is_constant_evaluated	P0595R2	✅
嵌套的内联命名空间	P1094R2	✅
放宽 constexpr 限制	P1002R1 P1327R1 P1330R0 P1331R2 P1668R1 P0784R7	✅
功能测试宏	P0941R2	✅
模块	P1103R3 P1766R1 P1811R0 P1703R1 P1874R1 P1979R0 P1779R3 P1857R3 P2115R0 P1815R2	❌
协程	P0912R5	❌
聚合类型的括号初始化	P0960R3 P1975R0	✅
DR: new 表达式中的数组大小推导	P1009R2	✅
DR: 从 T* 到 bool 的转换应被视为窄化转换	P1957R2	✅
更强的 Unicode 要求	P1041R4 P1139R2	✅
结构化绑定扩展	P1091R3 P1381R1	✅
弃用 a[b,c]	P1161R3	✅
弃用 volatile 的某些用法	P1152R4	✅
[[nodiscard("附带原因")]]	P1301R4	✅
using enum	P1099R5	✅
聚合类型的类模板参数推导	P1816R0 P2082R1	✅
别名模板的类模板参数推导	P1814R0	✅
允许转换为未知边界的数组	P0388R4	✅
constinit	P1143R2	✅
布局兼容性与指针可互转换性特征	P0466R5	✅
DR: 检查抽象类类型	P0929R2	✅
DR: 更多的隐式移动	P1825R0	✅
DR: 伪析构函数结束对象生命周期	P0593R6	✅

5.3.5. CUDA C++ 标准库¶

CUDA 提供了一个 C++ 标准库（STL）的实现，称为 libcu++。该库具有以下优点：

功能在主机和设备上均可用。
与 CUDA 工具包支持的所有 Linux 和 Windows 平台兼容。
与最近两个主要版本的 CUDA 工具包支持的所有 GPU 架构兼容。
与当前和上一个主要版本的所有 CUDA 工具包兼容。
提供新近标准版本（包括 C++20、C++23 和 C++26）中 C++ 标准库功能的 C++17 向后移植。
支持扩展数据类型，例如 128 位整数（__int128）、半精度浮点数（__half）、Bfloat16（__nv_bfloat16）和四精度浮点数（__float128）。
针对设备代码进行了高度优化。

此外，libcu++ 还提供了 C++ 标准库中未包含的扩展功能，以提高生产力和应用程序性能。这些功能包括数学函数、内存操作、同步原语、容器扩展、CUDA 内部函数的高级抽象、C++ PTX 包装器等。

libcu++ 作为 CUDA 工具包的一部分提供，同时也是开源 CCCL 仓库的一部分。

5.3.6. C 标准库函数¶

5.3.6.1. clock() 和 clock64()¶

__host__ __device__ clock_t   clock();
__device__          long long clock64();

在设备代码中执行时，它返回每个流式多处理器（SM）计数器的值，该计数器在每个时钟周期递增。在内核开始和结束时采样此计数器，将两个值相减，并记录每个线程的结果，可以估算出设备执行该线程所花费的时钟周期数。然而，这个值并不代表设备实际执行该线程指令所花费的时钟周期数。前者大于后者，因为线程是分时执行的。

提示

相应的 CUDA C++ 函数 cuda::std::clock() 在 <cuda/std/ctime> 头文件中提供。为了类似目的，在 <cuda/std/chrono> 头文件中也提供了一个可移植的 C++ <chrono> 实现。

5.3.6.2. printf()¶

int printf(const char* format[, arg, ...]);

该函数将来自内核的格式化输出打印到主机端的输出流。

内核内的 printf() 函数行为类似于标准 C 库的 printf() 函数。用户应参考其主机系统的手册页以获取 printf() 行为的完整描述。本质上，作为 format 传入的字符串被输出到主机上的一个流。

printf() 命令像任何其他设备端函数一样执行：每个线程执行，并在调用线程的上下文中执行。在多线程内核中，对 printf() 的直接调用将由每个线程使用该线程指定的数据来执行。因此，主机流上会出现多个版本的输出字符串，每个字符串对应一个遇到 printf() 的线程。

与返回打印字符数的 C 标准 printf() 不同，CUDA 的 printf() 返回解析的参数数量。如果格式字符串后没有参数，则返回 0。如果格式字符串为 NULL，则返回 -1。如果发生内部错误，则返回 -2。

在内部，printf() 使用一个共享的数据结构，因此调用 printf() 可能会改变线程的执行顺序。具体来说，调用 printf() 的线程可能比不调用 printf() 的线程执行路径更长，并且该路径的长度取决于 printf() 的参数。但是，请注意，除了在显式的 __syncthreads() 屏障处，CUDA 不保证线程的执行顺序。因此，无法判断执行顺序是否被 printf() 或硬件中的其他调度行为所修改。

格式说明符

与标准 printf() 一样，格式说明符的形式为：%[flags][width][.precision][size]type

支持以下字段。有关所有行为的完整描述，请参阅广泛可用的文档。

标志： # , ' ' , 0 , + , -
宽度： * , 0-9
精度：0-9
大小：h、l、ll
类型：%cdiouxXpeEfgGaAs

限制

printf() 输出的最终格式化发生在主机系统上。这意味着格式字符串必须能被主机系统的编译器和 C 库理解。尽管已尽最大努力确保 CUDA printf() 函数支持的格式说明符是大多数常见主机编译器所支持格式的通用子集，但其确切行为将取决于主机操作系统。

printf() 接受所有有效的标志和类型组合。这是因为它无法确定在最终输出格式化的主机系统上哪些组合有效、哪些无效。因此，如果程序发出的格式字符串包含无效组合，输出可能是未定义的。

除了格式字符串外，printf() 函数最多可以接受 32 个参数。任何额外的参数将被忽略，格式说明符将按原样输出。

由于 Windows 平台（32 位）和 Linux 平台（64 位）上 long 类型的大小不同，在 Linux 机器上编译然后在 Windows 机器上运行的内核，对于所有包含 %ld 的格式字符串，将产生损坏的输出。为确保安全，建议编译和执行平台保持一致。

主机端缓冲区

printf() 的输出缓冲区在内核启动前被设置为固定大小。该缓冲区是循环的，因此如果内核执行期间产生的输出超过了缓冲区容量，较早的输出将被覆盖。只有在执行以下操作之一时，缓冲区才会被刷新：

通过 <<< >>> 或 cuLaunchKernel() 启动内核：在启动开始时，如果 CUDA_LAUNCH_BLOCKING 环境变量设置为 1，则在启动结束时也会刷新；
通过 cudaDeviceSynchronize()、cuCtxSynchronize()、cudaStreamSynchronize()、cuStreamSynchronize()、cudaEventSynchronize() 或 cuEventSynchronize() 进行同步；
通过任何阻塞版本的 cudaMemcpy*() 或 cuMemcpy*() 进行内存复制；
通过 cuModuleLoad() 或 cuModuleUnload() 加载/卸载模块；
通过 cudaDeviceReset() 或 cuCtxDestroy() 销毁上下文；
在执行由 cudaLaunchHostFunc() 或 cuLaunchHostFunc() 添加的流回调之前。

请注意，程序退出时缓冲区不会自动刷新。

以下 API 函数设置和检索用于将 printf() 参数和内部元数据传输到主机的缓冲区大小。默认大小为 1 兆字节。

cudaDeviceGetLimit(size_t* size, cudaLimitPrintfFifoSize)
cudaDeviceSetLimit(cudaLimitPrintfFifoSize, size_t size)

示例

以下代码示例：

#include <stdio.h>

__global__ void helloCUDA(float value) {
    printf("Hello thread %d, value=%f\n", threadIdx.x, value);
}

int main() {
    helloCUDA<<<1, 5>>>(1.2345f);
    cudaDeviceSynchronize();
    return 0;
}

将输出：

Hello thread 2, value=1.2345
Hello thread 1, value=1.2345
Hello thread 4, value=1.2345
Hello thread 0, value=1.2345
Hello thread 3, value=1.2345

请注意，每个线程都会遇到 printf() 命令。因此，输出的行数与线程网格中的线程数一样多。

查看 Compiler Explorer 上的示例。

以下代码示例：

#include <stdio.h>

__global__ void helloCUDA(float value) {
    if (threadIdx.x == 0)
        printf("Hello thread %d, value=%f\n", threadIdx.x, value);
}

int main() {
    helloCUDA<<<1, 5>>>(1.2345f);
    cudaDeviceSynchronize();
    return 0;
}

将输出：

Hello thread 0, value=1.2345

显然，if() 语句限制了哪些线程调用 printf()，因此只看到一行输出。

查看 Compiler Explorer 上的示例。

5.3.6.3. memcpy() 和 memset()¶

__host__ __device__ void* memcpy(void* dest, const void* src, size_t size);

该函数将 size 字节从 src 指向的内存位置复制到 dest 指向的内存位置。

__host__ __device__ void* memset(void* ptr, int value, size_t size);

该函数将 ptr 指向的内存块的 size 字节设置为 value，value 被解释为 unsigned char。

提示

建议使用头文件中提供的 cuda::std::memcpy() 和 cuda::std::memset() 函数，作为 memcpy 和 memset 的更安全版本。

5.3.6.4. malloc() 和 free()¶

__host__ __device__ void* malloc(size_t size);
// 或者 <cuda/std/cstdlib> 头文件中的 cuda::std::malloc(), cuda::std::calloc()

函数 malloc()（设备端）、cuda::std::malloc() 和 cuda::std::calloc() 从设备堆中分配至少 size 字节，并返回一个指向已分配内存的指针。如果没有足够的内存来满足请求，则返回 NULL。返回的指针保证按 16 字节边界对齐。

__device__ void* __nv_aligned_device_malloc(size_t size, size_t align);
// 或者 <cuda/std/cstdlib> 头文件中的 cuda::std::aligned_alloc()

函数 __nv_aligned_device_malloc() 和 C++ cuda::std::aligned_alloc() 从设备堆中分配至少 size 字节，并返回一个指向已分配内存的指针。如果没有足够的内存来满足请求的大小或对齐要求，则返回 NULL。已分配内存的地址是 align 的倍数。align 必须是非零的 2 的幂。

__host__ __device__ void free(void* ptr);
// 或者 <cuda/std/cstdlib> 头文件中的 cuda::std::free()

设备端函数 free() 和 cuda::std::free() 释放 ptr 指向的内存，该内存必须是由之前对 malloc()、cuda::std::malloc()、cuda::std::calloc()、__nv_aligned_device_malloc() 或 cuda::std::aligned_alloc() 的调用返回的。如果 ptr 是 NULL，则对 free() 或 cuda::std::free() 的调用将被忽略。使用相同的 ptr 重复调用 free() 或 cuda::std::free() 会导致未定义行为。由给定 CUDA 线程通过 malloc()、cuda::std::malloc()、cuda::std::calloc()、__nv_aligned_device_malloc() 或 cuda::std::aligned_alloc() 分配的内存，将在 CUDA 上下文的整个生命周期内保持分配状态，直到通过调用 free() 或 cuda::std::free() 显式释放。此内存可被其他 CUDA 线程使用，甚至包括后续内核启动的线程。任何 CUDA 线程都可以释放由另一个线程分配的内存；但是，应注意确保同一指针不会被释放超过一次。

堆内存 API

必须在任何在设备代码中分配或释放内存的程序（包括使用 new 和 delete 关键字）之前指定设备内存堆的大小。如果任何程序使用设备内存堆而未显式指定堆大小，则会分配一个默认的 8 兆字节堆。

以下 API 函数用于获取和设置堆大小：

cudaDeviceGetLimit(size_t* size, cudaLimitMallocHeapSize)
cudaDeviceSetLimit(cudaLimitMallocHeapSize, size_t size)

授予的堆大小将至少为 size 字节。cuCtxGetLimit() 和 cudaDeviceGetLimit() 返回当前请求的堆大小。

堆的实际内存分配发生在模块加载到上下文时，无论是通过 CUDA 驱动程序 API（参见模块）显式加载，还是通过 CUDA 运行时 API 隐式加载。如果内存分配失败，模块加载会产生 CUDA_ERROR_SHARED_OBJECT_INIT_FAILED 错误。

堆大小在模块加载后无法更改，并且不会根据需求动态调整。

为设备堆保留的内存是额外的，不包含通过主机端 CUDA API 调用（如 cudaMalloc()）分配的内存。

与主机内存 API 的互操作性

通过设备端函数 malloc()、cuda::std::malloc()、cuda::std::calloc()、__nv_aligned_device_malloc()、cuda::std::aligned_alloc() 或 new 关键字分配的内存，不能通过运行时或驱动程序 API 调用（如 cudaMalloc、cudaMemcpy 或 cudaMemset）来使用或释放。同样，通过主机运行时 API 分配的内存也不能使用设备端函数 free()、cuda::std::free() 或 delete 关键字来释放。

每线程分配示例：

#include <stdlib.h>
#include <stdio.h>

__global__ void single_thread_allocation_kernel() {
    size_t size = 123;
    char*  ptr  = (char*) malloc(size);
    memset(ptr, 0, size);
    printf("Thread %d got pointer: %p\n", threadIdx.x, ptr);
    free(ptr);
}

int main() {
    // 设置堆大小为 128 兆字节。
    // 注意，这必须在任何内核启动之前完成。
    cudaDeviceSetLimit(cudaLimitMallocHeapSize, 128 * 1024 * 1024);
    single_thread_allocation_kernel<<<1, 5>>>();
    cudaDeviceSynchronize();
    return 0;
}

将输出：

Thread 0 got pointer: 0x20d5ffe20
Thread 1 got pointer: 0x20d5ffec0
Thread 2 got pointer: 0x20d5fff60
Thread 3 got pointer: 0x20d5f97c0
Thread 4 got pointer: 0x20d5f9720

请注意，每个线程都遇到了 malloc() 和 memset() 命令，因此接收并初始化了自己的分配。

在 Compiler Explorer 上查看此示例。

每个线程块分配示例：

#include <stdlib.h>

__global__ void block_level_allocation_kernel() {
    __shared__ int* data;
    // 线程块中的第一个线程执行分配，并通过共享内存将指针
    // 与所有其他线程共享，以便访问可以合并。
    if (threadIdx.x == 0) {
        size_t size = blockDim.x * 64; // 为每个线程分配 64 字节。
        data = (int*) malloc(size);
    }
    __syncthreads();
    // 检查是否分配失败
    if (data == nullptr)
        return;

    // 线程索引到内存中，确保合并访问
    for (int i = 0; i < 64; ++i)
        data[i * blockDim.x + threadIdx.x] = threadIdx.x;
    // 确保所有线程在释放内存前完成操作
    __syncthreads();

    // 只能由一个线程释放内存！
    if (threadIdx.x == 0)
        free(data);
}

int main() {
    cudaDeviceSetLimit(cudaLimitMallocHeapSize, 128 * 1024 * 1024);
    block_level_allocation_kernel<<<10, 128>>>();
    cudaDeviceSynchronize();
    return 0;
}

在 Compiler Explorer 上查看此示例。

内核启动间持久化分配示例：

#include <stdlib.h>
#include <stdio.h>

const int NUM_BLOCKS = 20;

__device__ int* data_ptrs[NUM_BLOCKS]; // 每个线程块的指针

__global__ void allocate_memory_kernel() {
    // 只有线程块中的第一个线程执行分配，
    // 因为每个线程块只需要一次分配。
    if (threadIdx.x == 0)
        data_ptrs[blockIdx.x] = (int*) malloc(blockDim.x * 4);
    __syncthreads();
    // 检查是否分配失败
    if (data_ptrs[blockIdx.x] == nullptr)
        return;
    // 所有线程并行地将数据清零
    data_ptrs[blockIdx.x][threadIdx.x] = 0;
}

// 简单示例：将线程 ID 存储到每个元素中
__global__ void use_memory_kernel() {
    int* ptr = data_ptrs[blockIdx.x];
    if (ptr != nullptr)
        ptr[threadIdx.x] += threadIdx.x;
}

// 在释放缓冲区之前打印其内容
__global__ void free_memory_kernel() {
    int* ptr = data_ptrs[blockIdx.x];
    if (ptr != nullptr)
        printf("Block %d, Thread %d: final value = %d\n",
            blockIdx.x, threadIdx.x, ptr[threadIdx.x]);
    // 只能由一个线程释放！
    if (threadIdx.x == 0)
        free(ptr);
}

int main() {
    cudaDeviceSetLimit(cudaLimitMallocHeapSize, 128*1024*1024);
    // 分配内存
    allocate_memory_kernel<<<NUM_BLOCKS, 10>>>();

    // 使用内存
    use_memory_kernel<<<NUM_BLOCKS, 10>>>();
    use_memory_kernel<<<NUM_BLOCKS, 10>>>();
    use_memory_kernel<<<NUM_BLOCKS, 10>>>();

    // 释放内存
    free_memory_kernel<<<NUM_BLOCKS, 10>>>();
    cudaDeviceSynchronize();
    return 0;
}

请参阅 Compiler Explorer 上的示例。

5.3.6.5.alloca()¶

__host__ __device__ void* alloca(size_t size);

alloca() 函数在调用者的栈帧内分配 size 字节的内存。返回值是指向所分配内存的指针。当从设备代码调用该函数时，内存的起始地址是 16 字节对齐的。当调用者从 alloca() 返回时，内存会自动释放。

注意

在 Windows 平台上，使用 alloca() 函数之前必须包含 <malloc.h> 头文件。调用 alloca() 可能导致栈溢出；用户需要相应地调整栈大小。

示例：

__device__ void device_function(int num_items) {
    int4* ptr = (int4*) alloca(num_items * sizeof(int4));
    // 使用 ptr
    ...
}

5.3.7. Lambda 表达式¶

编译器通过将 lambda 表达式或闭包类型（C++11）与最内层封闭函数作用域的执行空间相关联，来确定其执行空间。如果没有封闭函数作用域，则执行空间被指定为 __host__。

执行空间也可以使用扩展 lambda 语法显式指定。

示例：

auto global_lambda = [](){ return 0; }; // __host__

void host_function() {
    auto lambda1 = [](){ return 1; };   // __host__
    [](){ return 3; };                  // __host__, 闭包类型（lambda 表达式体）
}

__device__ void device_function() {
    auto lambda2 = [](){ return 2; };   // __device__
}

__global__ void kernel_function(void) {
    auto lambda3 = [](){ return 3; };   // __device__
}

__host__ __device__ void host_device_function() {
    auto lambda4 = [](){ return 4; };   // __host__ __device__
}

using function_ptr_t = int (*)();

__device__ void device_function(float          value,
                                function_ptr_t ptr = [](){ return 4; } /* __host__ */) {}

请参阅 Compiler Explorer 上的示例。

5.3.7.1. Lambda 表达式与 `global` 函数参数¶

只有当 lambda 表达式或闭包类型的执行空间是 __device__ 或 __host__ __device__ 时，才能用作 __global__ 函数的参数。全局或命名空间作用域的 lambda 表达式不能用作 __global__ 函数的参数。

示例：

template <typename T>
 __global__ void kernel(T input) {}

 __device__ void device_function() {
     // 设备内核调用需要单独编译（-rdc=true 标志）
     kernel<<<1, 1>>>([](){});
     kernel<<<1, 1>>>([] __device__() {});          // 扩展 lambda
     kernel<<<1, 1>>>([] __host__ __device__() {}); // 扩展 lambda
 }

 auto global_lambda = [] __host__ __device__() {};

 void host_function() {
     kernel<<<1, 1>>>([] __device__() {});          // 正确，扩展 lambda
     kernel<<<1, 1>>>([] __host__ __device__() {}); // 正确，扩展 lambda
 //  kernel<<<1, 1>>>([](){});                      // 错误，执行空间为 __host__ 的闭包类型
 //  kernel<<<1, 1>>>(global_lambda);               // 错误，扩展 lambda，但在全局作用域
 }

请参阅 Compiler Explorer 上的示例。

5.3.7.2. 扩展 Lambda 表达式¶

nvcc 的 --extended-lambda 标志允许在 lambda 表达式中显式标注执行空间。这些标注应出现在 lambda 引导符之后，以及可选的 lambda 声明符之前。当指定 --extended-lambda 标志时，nvcc 会定义宏 __CUDACC_EXTENDED_LAMBDA__。

扩展 lambda 定义在 __host__ 或 __host__ __device__ 函数的直接或嵌套块作用域内。
扩展设备 lambda 是用 __device__ 关键字标注的 lambda 表达式。
扩展主机-设备 lambda 是用 __host__ __device__ 关键字标注的 lambda 表达式。

与标准 lambda 表达式不同，扩展 lambda 可以用作 __global__ 函数中的类型参数。

示例：

void host_function() {
    auto lambda1 = [] {};                      // 不是扩展 lambda：没有显式的执行空间标注
    auto lambda2 = [] __device__ {};           // 扩展 lambda
    auto lambda3 = [] __host__ __device__ {};  // 扩展 lambda
    auto lambda4 = [] __host__ {};             // 不是扩展 lambda
}

__host__ __device__ void host_device_function() {
    auto lambda1 = [] {};                      // 不是扩展 lambda：没有显式的执行空间标注
    auto lambda2 = [] __device__ {};           // 扩展 lambda
    auto lambda3 = [] __host__ __device__ {};  // 扩展 lambda
    auto lambda4 = [] __host__ {};             // 不是扩展 lambda
}

__device__ void device_function() {
    // 此函数内的所有 lambda 都不是扩展 lambda，
    // 因为其外层函数不是 __host__ 或 __host__ __device__ 函数。
    auto lambda1 = [] {};
    auto lambda2 = [] __device__ {};
    auto lambda3 = [] __host__ __device__ {};
    auto lambda4 = [] __host__ {};
}

auto global_lambda = [] __host__ __device__ { }; // 不是扩展 lambda，因为它不是定义在
                                                 // __host__ 或 __host__ __device__ 函数内

5.3.7.3. 扩展 Lambda 类型特征¶

编译器提供了类型特征，用于在编译时检测扩展 lambda 的闭包类型。

bool __nv_is_extended_device_lambda_closure_type(type);

如果 type 是为扩展 __device__ lambda 创建的闭包类，则此函数返回 true，否则返回 false。

bool __nv_is_extended_device_lambda_with_preserved_return_type(type);

如果 type 是为扩展 __device__ lambda 创建的闭包类，并且该 lambda 是使用尾置返回类型定义的，则此函数返回 true，否则返回 false。如果尾置返回类型定义引用了任何 lambda 参数名，则返回类型不被保留。

bool __nv_is_extended_host_device_lambda_closure_type(type);

如果 `type` 是为扩展 `host device` lambda 创建的闭包类，则此函数返回 `true`，否则返回 `false`。¶

无论是否启用了 lambda 或扩展 lambda，lambda 类型特征都可在所有编译模式下使用。如果扩展 lambda 模式未激活，这些特征将始终返回 false。

示例：

auto lambda0 = [] __host__ __device__ { };

void host_function() {
    auto lambda1 = [] { };
    auto lambda2 = [] __device__ { };
    auto lambda3 = [] __host__ __device__ { };
    auto lambda4 = [] __device__ () -> double { return 3.14; }
    auto lambda5 = [] __device__ (int x) -> decltype(&x) { return 0; }

    using lambda0_t = decltype(lambda0);
    using lambda1_t = decltype(lambda1);
    using lambda2_t = decltype(lambda2);
    using lambda3_t = decltype(lambda3);
    using lambda4_t = decltype(lambda4);
    using lambda5_t = decltype(lambda5);

    // 'lambda0' 不是扩展 lambda，因为它定义在函数作用域之外
    static_assert(!__nv_is_extended_device_lambda_closure_type(lambda0_t));
    static_assert(!__nv_is_extended_device_lambda_with_preserved_return_type(lambda0_t));
    static_assert(!__nv_is_extended_host_device_lambda_closure_type(lambda0_t));

    // 'lambda1' 不是扩展 lambda，因为它没有执行空间注解
    static_assert(!__nv_is_extended_device_lambda_closure_type(lambda1_t));
    static_assert(!__nv_is_extended_device_lambda_with_preserved_return_type(lambda1_t));
    static_assert(!__nv_is_extended_host_device_lambda_closure_type(lambda1_t));

    // 'lambda2' 是一个扩展的仅设备 lambda
    static_assert(__nv_is_extended_device_lambda_closure_type(lambda2_t));
    static_assert(!__nv_is_extended_device_lambda_with_preserved_return_type(lambda2_t));
    static_assert(!__nv_is_extended_host_device_lambda_closure_type(lambda2_t));

    // 'lambda3' 是一个扩展的主机-设备 lambda
    static_assert(!__nv_is_extended_device_lambda_closure_type(lambda3_t));
    static_assert(!__nv_is_extended_device_lambda_with_preserved_return_type(lambda3_t));
    static_assert(__nv_is_extended_host_device_lambda_closure_type(lambda3_t));

    // 'lambda4' 是一个具有保留返回类型的扩展仅设备 lambda
    static_assert(__nv_is_extended_device_lambda_closure_type(lambda4_t));
    static_assert(__nv_is_extended_device_lambda_with_preserved_return_type(lambda4_t));
    static_assert(!__nv_is_extended_host_device_lambda_closure_type(lambda4_t));

    // 'lambda5' 不是一个具有保留返回类型的扩展仅设备 lambda，
    // 因为它在尾随返回类型中引用了 operator() 的参数类型。
    static_assert(__nv_is_extended_device_lambda_closure_type(lambda5_t));
    static_assert(!__nv_is_extended_device_lambda_with_preserved_return_type(lambda5_t));
    static_assert(!__nv_is_extended_host_device_lambda_closure_type(lambda5_t));
}

5.3.7.4. 扩展 Lambda 限制¶

在调用主机编译器之前，CUDA 编译器会将扩展 lambda 表达式替换为在命名空间作用域中定义的占位符类型的实例。该占位符类型的模板参数需要获取包含原始扩展 lambda 表达式的函数的地址。这对于正确执行任何模板参数涉及扩展 lambda 闭包类型的 __global__ 函数模板是必需的。包含函数的计算方式如下。根据定义，扩展 lambda 表达式存在于 __host__ 或 __host__ __device__ 函数的直接或嵌套块作用域内。

如果该函数不是 lambda 表达式的 operator()，则它被视为该扩展 lambda 的封闭函数。
否则，该扩展 lambda 定义在一个或多个封闭 lambda 表达式的 operator() 的直接或嵌套块作用域内。如果最外层的 lambda 表达式定义在函数 F 的直接或嵌套块作用域内，则 F 是计算得出的封闭函数。否则，封闭函数不存在。

示例：

void host_function() {
    auto lambda1 = [] __device__ { }; // lambda1 的封闭函数是 "host_function()"
    auto lambda2 = [] {
        auto lambda3 = [] {
            auto lambda4 = [] __host__ __device__ { }; // lambda4 的封闭函数是 "host_function"
        };
    };
}

auto global_lambda = [] {
    auto lambda5 = [] __host__ __device__ { }; // lambda5 的封闭函数不存在
};

扩展 Lambda 限制

扩展 lambda 不能在另一个扩展 lambda 表达式内部定义。示例：

void host_function () {
    auto lambda1 = [] __host__ __device__ {
        // 错误，扩展 lambda 定义在另一个扩展 lambda 内部
        auto lambda2 = [] __host__ __device__ { };
    };
}

扩展 lambda 不能在泛型 lambda 表达式内部定义。示例：

void host_function () {
    auto lambda1 = [] ( auto ) {
        // 错误，扩展 lambda 定义在泛型 lambda 内部
        auto lambda2 = [] __host__ __device__ { };
    };
}

如果一个扩展 lambda 定义在一个或多个嵌套 lambda 表达式的直接或嵌套块作用域内，那么最外层的 lambda 表达式必须定义在一个函数的直接或嵌套块作用域内。示例：
```
auto lambda1 = [] {
    // 错误，外层封闭 lambda 没有定义在非 lambda-operator() 函数内部
    auto lambda2 = [] __host__ __device__ { };
};
```

扩展 lambda 的封闭函数必须具有名称，并且其地址必须可访问。如果封闭函数是类成员，则必须满足以下条件：

所有包含该成员函数的类都必须具有名称。
该成员函数在其父类中不能具有 private 或 protected 访问权限。

所有封闭类在其各自的父类中不能具有 private 或 protected 访问权限。示例：

void host_function () {
    auto lambda1 = [] __device__ { return 0 ; }; // 正确
    {
        auto lambda2 = [] __device__ { return 0 ; }; // 正确
        auto lambda3 = [] __device__ __host__ { return 0 ; }; // 正确
    }
}
struct MyStruct1 {
    MyStruct1 () {
        auto lambda4 = [] __device__ { return 0 ; }; // 错误，封闭函数的地址不可访问
    }
};
class MyStruct2 {
    void foo () {
        auto temp1 = [] __device__ { return 10 ; }; // 错误，封闭函数在其父类中具有 private 访问权限
    }
    struct MyStruct3 {
        void foo () {
            auto temp1 = [] __device__ { return 10 ; }; // 错误，封闭类 MyStruct3 在其父类中具有 private 访问权限
        }
    };
};

在定义扩展 lambda 的位置，必须能够明确地获取其外围函数的地址。然而，这并非总是可行的，例如，当别名声明遮蔽了同名的模板类型参数时。示例：

template < typename T > struct A {
  using Bar = void ;
  void test ();
};
template <> struct A < void > { };
template < typename Bar >
void A < Bar >:: test () {
  // 在发送给主机编译器的代码中，nvcc 将在此处注入一个地址表达式，形式如下：
  //   (void (A< Bar> ::*)(void))(&A::test))
  // 然而，类 typedef 'Bar'（指向 void）遮蔽了模板参数 'Bar'，
  // 导致 A<int>::test 中的地址表达式实际上引用的是：
  //    (void (A< void> ::*)(void))(&A::test))
  // 这未能正确获取外围函数 'A<int>::test' 的地址。
  auto lambda1 = [] __host__ __device__ { return 4 ; };
}
int main () {
  A < int > var ;
  var . test ();
}

扩展 lambda 不能在函数内部的局部类中定义。示例：

void host_function () {
  struct MyStruct {
    void bar () {
      // 错误，bar() 是函数内部局部类的成员
      auto lambda2 = [] __host__ __device__ { return 0 ; };
    }
  };
}

扩展 lambda 的外围函数不能具有推导的返回类型。示例：

auto host_function () {
  // 错误，host_function() 的返回类型是推导得出的
  auto lambda3 = [] __host__ __device__ { return 0 ; };
}

主机-设备扩展 lambda 不能是泛型 lambda，即不能是具有 auto 参数类型的 lambda。示例：

void host_function () {
  // 错误，__host__ __device__ 扩展 lambda 不能是泛型 lambda
  auto lambda1 = [] __host__ __device__ ( auto i ) { return i ; };
  // 错误，主机-设备扩展 lambda 不能是泛型 lambda
  auto lambda2 = [] __host__ __device__ ( auto ... i ) { return sizeof ...( i ); };
}

如果外围函数是函数模板或成员模板的实例化，或者该函数是类模板的成员，则模板必须满足以下约束：
模板最多只能有一个可变参数，并且必须将其列在模板参数列表的最后。
模板参数必须具有名称。
模板实例化的参数类型不能涉及函数内部的局部类型（扩展 lambda 的闭包类型除外），也不能是私有或受保护的类成员。

示例 1：

template < template < typename ... > class T , typename ... P1 , typename ... P2 >
void bar1 ( const T < P1 ... > , const T < P2 ... > ) {
  // 错误，外围函数具有多个参数包
  auto lambda = [] __device__ { return 10 ; };
}
template < template < typename ... > class T , typename ... P1 , typename T2 >
void bar2 ( const T < P1 ... > , T2 ) {
  // 错误，对于外围函数，参数包未位于模板参数列表的最后
  auto lambda = [] __device__ { return 10 ; };
}
template < typename T , T >
void bar3 () {
  // 错误，对于外围函数，第二个模板参数未命名
  auto lambda = [] __device__ { return 10 ; };
}

示例 2：

template < typename T >
void bar4 () {
  auto lambda1 = [] __device__ { return 10 ; };
}
class MyStruct {
  struct MyNestedStruct {};
  friend int main ();
};
int main () {
  struct MyLocalStruct {};
  // 错误，bar4() 中设备 lambda 的外围函数使用 main 函数的局部类型进行实例化
  bar4 < MyLocalStruct > ();
  // 错误，bar4 中设备 lambda 的外围函数使用类私有成员类型进行实例化
  bar4 < MyStruct :: MyNestedStruct > ();
}

10. 对于 Microsoft Visual Studio 主机编译器，包含函数必须具有外部链接。存在此限制是因为主机编译器不支持将非外部链接函数的地址用作模板参数。CUDA 编译器转换需要这些地址来支持扩展 lambda。 11. 对于 Microsoft Visual Studio 主机编译器，扩展 lambda 不得在 if constexpr 块体内定义。 12. 扩展 lambda 对捕获变量有以下限制：变量在被用于直接初始化表示扩展 lambda 的闭包类型的类类型字段之前，可能会按值传递给发送到主机编译器的代码中的一系列辅助函数。然而，C++ 标准规定捕获的变量应用于直接初始化闭包类型的字段。变量只能按值捕获。如果数组维数大于 7，则无法捕获数组类型的变量。对于数组类型变量，闭包类型的数组字段首先进行默认初始化，然后在发送到主机编译器的代码中，从捕获的数组变量的相应元素复制赋值每个数组元素。因此，数组元素类型在主机代码中必须是可默认构造且可复制赋值的。作为可变参数包元素的函数参数无法被捕获。捕获的变量类型不能是函数的局部类型（扩展 lambda 闭包类型除外），也不能是私有或受保护的类成员。主机-设备扩展 lambda 不支持初始化捕获。但是，设备扩展 lambda 支持初始化捕获，除非初始化器是数组或 std::initializer_list 类型。扩展 lambda 的函数调用运算符不是 constexpr。扩展 lambda 的闭包类型不是字面类型。声明扩展 lambda 时不能使用 constexpr 和 consteval 说明符。在词法上嵌套在扩展 lambda 内的 if-constexpr 块内部，不能隐式捕获变量，除非该变量已在 if-constexpr 块外部隐式捕获，或出现在扩展 lambda 的显式捕获列表中。

示例：

13. 在解析函数时，CUDA 编译器会为函数中的每个扩展 lambda 分配一个计数 __gl __ho #if #en

5.3 C++ 语言支持¶

5.3. C++ 语言支持¶

5.3.1. C++11 语言功能¶

5.3.2. C++14 语言特性¶

5.3.3. C++17 语言特性¶

5.3.4. C++20 语言特性¶

5.3.5. CUDA C++ 标准库¶

5.3.6. C 标准库函数¶

5.3.6.1. clock() 和 clock64()¶

5.3.6.2. printf()¶

5.3.6.3. memcpy() 和 memset()¶

5.3.6.4. malloc() 和 free()¶

5.3.6.5.alloca()¶

5.3.7. Lambda 表达式¶

5.3.7.1. Lambda 表达式与 __global__ 函数参数¶

5.3.7.2. 扩展 Lambda 表达式¶

5.3.7.3. 扩展 Lambda 类型特征¶

如果 type 是为扩展 __host__ __device__ lambda 创建的闭包类，则此函数返回 true，否则返回 false。¶

5.3.7.4. 扩展 Lambda 限制¶

5.3.7.5. 主机-设备 Lambda 优化说明¶

5.3.7.6. 按值捕获 *this¶

5.3.7.7. 参数依赖查找 (ADL)¶

5.3.8. 多态函数包装器¶

5.3.9. C/C++ 语言限制¶

5.3.9.1. 不支持的特性¶

5.3.9.2. 命名空间保留¶

5.3.9.3. 指针与内存地址¶

5.3.9.4. 变量¶

5.3.9.4.1. 局部变量¶

5.3.9.4.2. const 限定变量¶

5.3.9.4.3. volatile 限定变量¶

5.3.9.4.4. 静态变量¶

5.3.9.4.5. 外部变量¶

5.3.9.5. 函数¶

5.3.9.5.1. 递归¶

5.3.9.5.2. 外部链接¶

5.3.9.5.3. 形式参数¶

5.3.9.5.4. global 函数参数¶

5.3.9.5.5. global 函数参数传递¶

5.3.9.6. 类¶

5.3.9.6.1. 类类型变量¶

5.3.9.6.2. 数据成员¶

5.3.9.6.3. 函数成员¶

5.3.9.6.4. 隐式声明和非虚显式默认函数¶

5.3.9.6.5.Polymorphic Classes¶

5.3.9.6.6.Windows-Specific Class Layout¶

5.3.9.7. 模板¶

5.3.10. C++11 限制¶

5.3.10.1. 内联命名空间¶

5.3.10.2. 内联未命名命名空间¶

5.3.10.3. constexpr 函数¶

5.3.10.4.constexpr 变量¶

5.3.10.5. __global__ 可变参数模板¶

5.3.10.6. 默认函数 =default¶

5.3.10.7. [cuda::]std::initializer_list¶

5.3.10.8. [cuda::]std::move, [cuda::]std::forward¶

5.3.11. C++14 限制¶

5.3.11.1. 具有推导返回类型的函数¶

5.3.11.2. 变量模板¶

5.3.12. C++17 限制¶

5.3.12.1. inline 变量¶

5.3.12.2. 结构化绑定¶

5.3.13. C++20 限制¶

5.3.13.1. 三路比较运算符¶

5.3.13.2. consteval 函数¶

5.3.7.1. Lambda 表达式与 `global` 函数参数¶

如果 `type` 是为扩展 `host device` lambda 创建的闭包类，则此函数返回 `true`，否则返回 `false`。¶

5.3.10.5. `global` 可变参数模板¶

5.3.10.6. 默认函数 `=default`¶

5.3.10.7. `[cuda::]std::initializer_list`¶