并行优化¶ 寄存器¶ maxRegistersPerThread = registersPerMultiprocessor / threadsResidentPerMultiprocessor 工具¶ cuda-memcheck¶ nvidia-smi¶ 编译选项¶ --ptxas=-v Nsight¶ Visual Profiler(可以在[开始]->[NVIDA Corperation]文件夹找到)¶ 占用率计算器:CUDA_Occupancy_Calculator.xls¶