CUDA学习--一维矩阵的加
//实现一个一维1*16的小矩阵的加法。 //矩阵大小:1*16 //分配一个block,共有16个线程并发。 #include #include #include #include #include #define VEC_SIZE 16 //kernel function __global__ void vecAdd(float* d_A,float* d_B,float* d_C)