c# 如何在C#中利用GPU进行并行计算 Cuda.NET_技术教程

Cuda.NET 在 .NET 6+ 上失败，因其依赖已移除组件、内存模型不兼容、调用过时 CUDA runtime 且缺乏 SafeHandle 和现代内存接口支持；应改用 ManagedCUDA。

为什么直接用 Cuda.NET 在 .NET 6+ 上会失败

Cuda.NET 是一个封装 NVIDIA CUDA C API 的旧版 .NET 库，最后更新停留在 .NET Framework 4.x 时代。它依赖 System.Drawing、Microsoft.VisualC 等已移除或变更的组件，在 .NET 5/6/7/8 中编译会报 TypeLoadException 或 DllNotFoundException；即使强行加载，运行时大概率触发 AccessViolationException —— 因为它的内存管理模型与现代 .NET 的 GC 和内存模型不兼容。

它调用的是 CUDA 9.0–10.2 时代的 cudart64_XX.dll，新版驱动（如 R535+）默认不附带这些旧版 runtime
所有 CudaContext、CudaDeviceVariable 类型内部使用非安全指针 + 手动 Marshal.AllocHGlobal，没有 SafeHandle 包装，GC 回收后易悬垂
不支持 Span、Memory 或 GraphicsBuffer 等现代数据传递方式

替代方案：用 ManagedCUDA 替代 Cuda.NET

ManagedCUDA 是目前最活跃、兼容性最好的 CUDA .NET 封装库，支持 .NET Standard 2.0+，已适配 CUDA 11.x / 12.x，并提供 CUdeviceptr 安全包装、同步/异步 kernel 启动、PinnedHostMemory 管理等功能。

安装：dotnet add package ManagedCuda（主包），若需 NPP/curand 支持再加 ManagedCuda.NPP 等
必须确保本地安装对应版本的 CUDA Toolkit（如用 ManagedCuda 12.2.0，则需 CUDA 12.2 运行时或完整 toolkit）

初始化前检查设备：

var ctx = new CudaConte
xt(0); // 0 是 device ID，可用 CudaContext.GetDeviceCount() 查

GPU 内存分配必须显式释放：ctx.LoadKernel("mykernel.ptx", "add"); 后记得 ctx.UnloadKernel()，devicePtr.Dispose()

最简可行示例：向量加法（C# + PTX）

不要试图在 C# 里写 .cu 文件再 nvcc 编译——太重。推荐用预编译 PTX（CUDA 6.5+ 支持 forward compatibility），或用 NVRTC 在运行时编译（ManagedCuda 已封装 CudaNVRTC）。

写一个最小 PTX（保存为 add.ptx）：

.version 7.8
.target sm_50
.address_size 64
.visible .entry add(
.param .u64 a,
.param .u64 b,
.param .u64 c,
.param .u32 n
)
{
.reg .u32 %r<10>;
.reg .u64 %rd<10>;
ld.param.u64 %rd1, [a];
ld.param.u64 %rd2, [b];
ld.param.u64 %rd3, [c];
ld.param.u32 %r1, [n];

mov.u32 %r2, %tid.x;
setp.lt.u32 %p1, %r2, %r1;
@%p1 bra L1;
exit;
L1:
mul.wide.u32 %rd4, %r2, 4;
add.u64 %rd5, %rd1, %rd4;
add.u64 %rd6, %rd2, %rd4;
add.u64 %rd7, %rd3, %rd4;
ld.global.s32 %r3, [%rd5];
ld.global.s32 %r4, [%rd6];
add.s32 %r5, %r3, %r4;
st.global.s32 [%rd7], %r5;

exit;
}

C# 调用：

using (var ctx = new CudaContext(0))
{
    var a = ctx.LoadModulePTX(File.ReadAllBytes("add.ptx"));
    var kernel = ctx.LoadKernel(a, "add");
int n = 1024;
var h_a = Enumerable.Range(0, n).Select(i => i).ToArray();
var h_b = Enumerable.Range(0, n).Select(i => i * 2).ToArray();
var h_c = new int[n];

var d_a = ctx.LoadDeviceArray(h_a);
var d_b = ctx.LoadDeviceArray(h_b);
var d_c = ctx.Allocate(n);

kernel.Launch(n, 1, 1, 0, 0, new object[] { d_a.DevicePointer, d_b.DevicePointer, d_c.DevicePointer, n });

ctx.CopyDeviceObjectToArray(d_c, h_c);
// h_c 现在是逐元素相加结果
}

真正要注意的三个硬限制

不是语法问题，而是硬件和驱动层的刚性约束，容易调试半天才发现是这个原因：

cudaMalloc 分配上限受 GPU 显存剩余量实时限制，ctx.Allocate(N) 失败时不会抛 OutOfMemoryException，而是返回 CUresult.CUDA_ERROR_MEMORY_ERROR —— 必须检查 ctx.LastError
Kernel 参数总大小不能超过 4KB（CUDA 12.2），且所有参数必须是值类型或固定布局（[StructLayout(LayoutKind.Sequential)]），引用类型（如 string、object）传进去必崩
Windows 上 WDDM 模式（默认）对单次 kernel 运行有 2 秒超时保护（TCC 模式无此限制），长耗时计算必须拆成小 batch，或在 Tesla/Quadro 卡上启用 TCC：nvidia-smi -dm 1