Une introduction à CUDA

Une introduction � CUDA

V. Les mains dans le cambouis▲

Sélectionnez


Il n'y a pas de langage informatique dans lequel vous ne puissiez �crire de mauvais programme.

Sélectionnez


Si vous ne savez pas ce que votre programme est cens� faire, vous feriez bien de ne pas commencer � l'�crire.

(Extraits de Les lois de Murphy).

V-A. Les kernels▲

Tr�s simplement, un kernel est une fonction ex�cut�e sur le GPU.

Il en existe diff�rent types, qualifi�s de :

__global__ ;
__device__ ;
__host__.

Le premier correspond � un kernel ex�cut� sur le GPU mais appel� par le CPU ; le deuxi�me, � un kernel ex�cut� et appel� par le GPU ; le troisi�me, � une fonction ex�cut�e et appel�e par le CPU. Ce dernier n'est pas obligatoire : c'est le mode de fonctionnement par d�faut.

Un kernel ne s'appelle pas de la m�me mani�re qu'une fonction. Voici un appel de fonction.

Appel de fonction

Sélectionnez

fonction(parametre, parametre);

Mais avant de vous parler de l'appel d'un kernel, il faut que vous compreniez bien le mode de fonctionnement d'un GPU.

Une grille repr�sente la totalit� de la t�che � effectuer. Chaque grille peut �tre divis�e en un ou plusieurs blocs, chacun ex�cutant plusieurs threads.

Un thread sur un GPU n'a pas le m�me sens qu'un thread sur le CPU.
Sur un GPU, il s'agit de la plus petite subdivision de la t�che � effectuer.

Un appel de kernel se fait en sp�cifiant 2 param�tres entre triples chevrons pr�c�dant les param�tres pass�s au kernel.

Sélectionnez

kernel <<< nBlocs, threadsParBloc >>> (arguments);

nBlocs est le nombre de subdivisions appliqu�es � la grille � calculer et est de type dim3 (le cast � partir d'un entier N initialise le dim3 � {N, 1, 1}).
threadsParBloc indique le nombre de threads � ex�cuter simultan�ment pour chaque bloc. Ici encore, cette valeur est de type dim3.

Les valeurs � appliquer d�pendent simultan�ment du probl�me � r�soudre (choix des dimensions des blocs) et du mat�riel utilis� (nombre de threads par bloc). Choisir un nombre de threads sup�rieurs � la quantit� nativement support�e entra�nera une perte de performances. Cette notation permet ainsi d'adapter dynamiquement le programme aux mat�riels pass�s, pr�sents et futurs.

Chaque kernel dispose de variables implicites en lecture seule (toutes de type dim3).

blockIdx : index du bloc dans la grille,
threadIdx : index du thread dans le bloc,
blockDim : nombre de threads par bloc (valeur de threadsParBloc du param�trage du kernel).

La grille est ici consid�r�e comme un seul et unique bloc � une seule dimension.

Sélectionnez

__global__ void vecAdd(float * A, float * B, float * C)
{
    int i = threadIdx.x;
    C[i] = A[i] + B[i];
}

int main()
{
    // utilisation du kernel
    vecAdd<<<1, N>>>(A, B, C);
        //     |-> vecteurs additionn�s une seule fois
        //        |-> nombre de composante des vecteurs
}

Dans le cas o� la grille est sous-divis�e en N blocs (tous de 1 dimension), l'index pourrait �tre trouv� de la mani�re suivante.

Sélectionnez

__global__ void vecAdd(float * A, float * B, float * C)
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    C[i] = A[i] + B[i];
}

int main()
{
    // utilisation du kernel
    const int nThreadsPerBlocks  = 4;
    const int nBlocks            = (arraySize / nThreadsPerBlocks) + ( (arraySize % nThreadsPerBlocks) == 0 ? 0 : 1);
    vecAdd<<<nBlocks, nThreadsPerBlocks>>>(A, B, C);
}

Les variables doivent �tre qualifi�es, pour d�finir leur lieu de r�sidence : voyez la section qui y est r�serv�e.

Les param�tres entre chevrons sont requis, car le kernel est de type __global__. S'il �tait d'un autre type, ils n'auraient pas d� �tre pr�cis�s !

V-B. Qualifieurs de kernels▲

V-B-1. global▲

Ex�cut� sur le p�riph�rique,
Appelable de l'h�te.

Pas de r�cursion possible,
Pas de variables statiques,
Pas de liste de param�tres variable.

On ne peut demander leur adresse m�moire,
Incompatible avec __device__,
Ne peut rien retourner,
� l'ex�cution, on doit pr�ciser la configuration,
Appel asynchrone (le kernel retourne avant d'avoir effectu� les calculs),
Param�tres stock�s dans la m�moire partag�e, limit�s � 256 octets,
Dure aussi longtemps que le kernel.

V-B-2. device▲

Ex�cut� sur le p�riph�rique,
Appelable du p�riph�rique.

Pas de r�cursion possible,
Pas de variables statiques,
Pas de liste de param�tres variable.

On ne peut demander leur adresse m�moire,
Incompatible avec __global__,
Dure aussi longtemps que l'application.

V-B-3. host▲

Ex�cut� sur l'h�te,
Appelable de l'h�te.

Appliqu� par d�faut.

Compatible avec __device__ (dans ce cas, le kernel pourra �tre ex�cut� sur l'h�te et sur le p�riph�rique),
Incompatible avec __global__,
Dure aussi longtemps que le kernel.

V-C. Configuration de l'ex�cution▲

Ceci n'est requis que pour les kernels __global__ ! Requis signifie bien que l'on ne peut s'en passer, sans quoi rien ne fonctionne (avec, � la cl�, beaux plantages) !

Cette configuration doit �tre pass�e entre triples chevrons avant les param�tres.

Sélectionnez

//D�finition du kernel
__global__ void func(float * parameter);
//Utilisation du kernel
func <<< Dg, Db, Ns, S >>> (parameter);

V-C-1. Dg▲

Type : dim3 ;
Utilit� : sp�cifier la taille et la dimension de la grille (le produit des trois composantes est le nombre de blocs lanc�s) ;
Remarque : z n'est pas encore utilis� et doit valoir 1.

V-C-2. Db▲

Type : dim3 ;
Utilit� : sp�cifier la taille et la dimension de chaque bloc (le produit des trois composantes est le nombre de threads par bloc)

V-C-3. Ns▲

Type : size_t ;
Utilit� : sp�cifier le nombre d'octets en m�moire partag�e allou�s dynamiquement par bloc en plus de la m�moire allou�e statiquement ;
Remarque : param�tre optionnel, valeur par d�faut : 0.

V-C-4. S▲

Type : cudaStream_t ;
Utilit� : sp�cifier le flux associ� ;
Remarque : param�tre optionnel, valeur par d�faut : 0 ;
La notion de flux sera abord�e plus tard : sachez simplement qu'il s'agit d'une suite d'�l�ments de m�me type (comme une texture).

V-D. Qualificateurs de variables▲

V-D-1. device▲

Cette variable est et restera sur le p�riph�rique. Elle ne vivra pas plus longtemps que l'application et est accessible � tous les threads de la grille et � l'h�te gr�ce au runtime.

Ce type peut se marier avec un des deux suivants.

V-D-2. constant▲

Ce type peut �tre utilis� avec __device__.

La variable restera en m�moire constante. Elle ne vivra pas plus longtemps que l'application et est accessible � tous les threads de la grille et � l'h�te par le runtime.

Ces variables ne peuvent �tre d�clar�es que de l'h�te, pas du p�riph�rique !

V-D-3. shared▲

Ce type peut �tre utilis� avec __device__.

La variable r�sidera dans la m�moire partag�e et ne survivra pas au bloc. Elle ne sera accessible qu'aux threads du bloc.

Avant que les modifications soient �crites dans la variable et visibles pour tous les autres threads, il faut appeler __syncthreads();. � noter que cet appel ne sert qu'� le garantir, il est possible que les modifications soient visibles avant.

Tableau externe

Sélectionnez

extern __shared__ float shared[];

Quand la variable est d�clar�e en tant que tableau externe, comme pr�c�demment, sa taille sera fix�e � l'ex�cution. Toutes les variables d�clar�es de cette mani�re ne sont pas contigu�s : le premier bit de la premi�re correspond au premier bit des autres, contrairement aux autres langages comme le C ou le C++.

C'est pourquoi il faut pr�ciser l'offset de d�but. Pour avoir l'�quivalent de ce premier code, il faut �crire le contenu du second.

Code C++

Sélectionnez

short array0[128];
float array1[64];
int array2[256];

�quivalent CUDA

Sélectionnez

extern __shared__ char array[];
__device__ void func()        // kernel __device__ ou bien __global__
{
    short* array0 = (short*) array;
    float* array1 = (float*)&array0[128];
    int  * array2 = (int*)  &array1[64];
}

Ceci est le seul moyen d'utiliser le mot-cl� extern sur des variables : tous les autres emplois sont interdits.

Ces variables ne peuvent pas �tre initialis�es en m�me temps que leur d�claration !

Si nous avions utilis� le premier code dans CUDA, en �crivant une valeur dans le premier tableau, une partie de cette variable aurait �t� imput�e au deuxi�me et au troisi�me tableau. Ce qui pourrait donner des r�sultats tr�s aberrants.

V-D-4. G�n�ralit�s▲

Ces param�tres ne sont pas permis sur des unions ou des structures.

En d�finissant une variable __shared__ ou __constant__, elle sera d�finie statique.

V-E. Compilation▲

NVIDIA, dans son immense bont�, nous fournit un compilateur pr�vu pour CUDA. Celui-ci dispose d'une interface en ligne de commande simple et comparable � celles que nous connaissons, cl, de Visual Studio, ou gcc, l'interface de GCC. Ce compilateur, nvcc, s'occupe de toutes les �tapes de la compilation.

Pour pouvoir d�finir les portions de code sp�cifiques � ce compilateur, il d�finit la macro __CUDACC__.

Comme dit pr�c�demment, il s'occupe de toutes les phases de la compilation : l'assemblage, la compilation, et l'�dition des liens. Vous pouvez choisir ces parties gr�ce � la ligne de commande.

Ce compilateur fonctionne tr�s bien avec les Makefiles, c'est d'ailleurs cette technique qui va �tre ici d�velopp�e, compatible avec les cha�nes de compilation GNU (make) et Microsoft (nmake).

Sélectionnez

# Pr�cise le compilateur pr�cis � utiliser
ifdef ON_WINDOWS
    export compiler-bindir := "a:/program files/microsoft visual studio 9.0/vc/bin"
endif

export NVCC := a:/cuda/bin/nvcc.exe

cpp.obj : cpp.cpp
    $(NVCC) -c cpp.cpp $(CFLAGS) -o cpp.obj

c.o : c.c
    $(NVCC) -c c.c $(CFLAGS) -o c.obj

cu.o : cu.cu
    $(NVCC) -c cu.cu $(CFLAGS) -o cu.obj

OBJECTS = cpp.obj c.obj cu.obj

all : $(OBJECTS)
    $(NVCC) $(OBJECTS) $(LDFLAGS) -o app.exe

clean :
    $(RM) $(OBJECTS)

Ce Makefile doit �tre utilis� apr�s avoir appel� le script vsvars.bat s'il est utilis� avec Visual Studio !

Si vous utilisez un make d'origine GNU, vous pouvez utiliser ce Makefile

Sélectionnez

# Pr�cise le compilateur pr�cis � utiliser
ifdef ON_WINDOWS
    export compiler-bindir := "a:/program files/microsoft visual studio 9.0/vc/bin"
endif

export NVCC := a:/cuda/bin/nvcc.exe

%.o : %.cpp
    $(NVCC) -c %^ $(CFLAGS) -o $@
    $(NVCC) -M %^ $(CFLAGS) > $@.dep

%.o : %.c
    $(NVCC) -c %^ $(CFLAGS) -o $@
    $(NVCC) -M %^ $(CFLAGS) > $@.dep

%.o : %.cu
    $(NVCC) -c %^ $(CFLAGS) -o $@
    $(NVCC) -M %^ $(CFLAGS) > $@.dep

include $(wildcard *.dep) /dev/null

all : $(OBJECTS)
    $(NVCC) $(OBJECTS) $(LDFLAGS) -o app.exe

clean :
    $(RM) $(OBJECTS) *.dep

Vous pouvez aussi utiliser la ligne de commande directement :

Sélectionnez

nvcc -c cu.cu -o cu.obj
nvcc cu.obj -o app.exe

Vous pouvez aussi d�cider que le code CUDA sera ex�cut� sur le processeur, qui �mulera alors un GPU. Il suffit d'ajouter emu=1 � la ligne de commandes, comme ceci.

Sélectionnez

make emu=1

Copyright © 2009 Thibaut Cuvelier. Aucune reproduction, même partielle, ne peut être faite de ce site ni de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.

Une introduction à CUDA

V. Les mains dans le cambouis▲

V-A. Les kernels▲

V-B. Qualifieurs de kernels▲

V-B-1. __global__▲

V-B-2. __device__▲

V-B-3. __host__▲

V-C. Configuration de l'ex�cution▲

V-C-1. Dg▲

V-C-2. Db▲

V-C-3. Ns▲

V-C-4. S▲

V-D. Qualificateurs de variables▲

V-D-1. __device__▲

V-D-2. __constant__▲

V-D-3. __shared__▲

V-D-4. G�n�ralit�s▲

V-E. Compilation▲

V-B-1. global▲

V-B-2. device▲

V-B-3. host▲

V-D-1. device▲

V-D-2. constant▲

V-D-3. shared▲