Une introduction à CUDA

Une introduction � CUDA

I. GPGPU▲

Les constructeurs ont d�cid� de cr�er des langages qui permettent d'exploiter les possibilit�s de ces processeurs graphiques. Ils n'ont pas �t� les seuls.

Par exemple, l'universit� de Stanford a cr�� le BrookGPU, le tout premier langage, un d�riv� du C, qui permet d'utiliser les API DirectX et OpenGL, ainsi que GLSL ou CG. L'avantage de ces solutions est qu'elles sont utilisables sur tous les GPU qui supportent DirectX et/ou OpenGL, c'est-�-dire la plus grande majorit� d'entre eux, et la totalit� ces derni�res ann�es. Cependant, cette universalit� se traduit aussi par un manque de performances par rapport � d'autres librairies plus proches du mat�riel.

Ainsi, ATI a d�velopp� Close to Metal, une librairie tr�s bas niveau. Cette librairie sera suppl��e par Stream, mais cette derni�re est plus sp�cifiquement dirig�e vers les processeurs FireStream, pr�vus pour le calcul.

Ensuite vient NVIDIA, avec CUDA, une technologie disponible sur toutes les cartes graphiques grand public depuis la s�rie des GeForce 8000 et sur tous les supercalculateurs Tesla.

II. CUDA▲

Ou Compute Unified Device Architecture.

C'est la r�ponse de NVIDIA aux demandes sans cesse croissantes de puissance de calcul. Cette librairie, d�voil�e en 2007, permet d'employer la puissance de calcul des GPU. Elle n'est que la partie logicielle du tout : il faut encore une carte graphique compatible.

CUDA supporte plusieurs langages : le C, le C++ et le Fortran. Vous pouvez donc utiliser conjointement ces trois langages dans vos fonctions et vos kernels.

Il existe d�j� quelques wrapper pour CUDA : PyCUDA, destin� � Python, ainsi que JCublas, JCufft et JCudpp, sans oublier CUDA lui-m�me, avec jCUDA pour Java, sans oublier CuBLAS.Net, un wrapper de CuBLAS pour le CLR .Net.

CUDA est constitu� d'un pilote, d�j� int�gr� aux ForceWare les plus r�cents ; d'un runtime ; et de quelques librairies. CUDA est aussi un langage, d�riv� du C (mais n'apportant que peu de modifications : 9 nouveaux mots cl�s, 24 nouveaux types et 62 nouvelles fonctions). Ces extensions n�cessitent leur compilateur, lui aussi fourni.

CUDA est pr�vu pour s'ex�cuter sur un GPU, mais il est aussi disponible sur CPU, en �mulation. Les performances sont alors bien moindres, mais cela peut �tre utile pour tester ses applications sans GPU compatible.

L'API CUDA est de haut niveau : vous ne vous occupez donc pas du GPU directement. CUDA en est une couche d'abstraction.

Voici, graphiquement repr�sent�es, toutes les composantes de CUDA et de son utilisation.

II-A. Pilote▲

R�le : transmettre les calculs de l'application au GPU ;
Distribution avec les ForceWare 178.08 et plus r�cents ;
Inconv�nient : pas d'automatismes.

II-B. Runtime▲

R�le : interface entre le GPU et l'application, en fournissant quelques automatismes ;
Distribution : en m�me temps que le pilote ;
Inconv�nient : impossibilit� d'optimiser � partir d'un certain point.

II-C. Biblioth�ques▲

Pour le moment, CUDA est livr� avec CuBLAS et CuFFt, respectivement les impl�mentations de BLAS (une biblioth�que d'alg�bre) et de la transformation rapide de Fourier (utilis�e en analyse de Fourier et en traitement du signal). La derni�re n'est pas inspir�e d'une biblioth�que pr�existante.

Ces impl�mentations reprennent le fonctionnement des biblioth�ques originelles (CuBLAS), ou bien des algorithmes les plus performants (CuFFT) et les optimisent au maximum pour CUDA.

III. Un peu de vocabulaire▲

Nous allons continuer cette introduction avec un peu de vocabulaire inh�rent � la programmation avec CUDA.

L'h�te est le CPU, c'est lui qui demande au p�riph�rique (le GPU) d'effectuer les calculs.

Un kernel est une portion parall�le de code � ex�cuter sur le p�riph�rique. Chacune de ses instances s'appelle un thread.

Une grille est constitu�e de blocs. Chaque bloc est constitu� de threads.

Un bloc est un �l�ment des calculs, dissociable d'autres blocs : les blocs ne doivent donc pas �tre ex�cut�s dans un certain ordre : parall�lement, cons�cutivement ou toute autre combinaison est possible. C'est pourquoi les threads ne peuvent communiquer qu'avec des threads du m�me bloc.

Un warp est un ensemble de 32 threads, envoy�s ensemble � l'ex�cution et ex�cut�s simultan�ment. Quel que soit le GPU utilis�, quel que soit la quantit� de donn�es � traiter, dans n'importe quel cas, un warp sera ex�cut� sur deux cycles. On peut �tre s�r et certain qu'il le seront. Ceci pourra vous aider lors de la conception de vos algorithmes. Par exemple, Mark Harris, chercheur pour NVIDIA dans le rendu graphique en temps r�el, fondateur du site GPGPU, utilise cette donn�e pour d�rouler ses boucles.

Un petit parall�le avec le mat�riel. Un thread est ex�cut� par un processeur : posons donc l'�galit� entre le thread et le processeur. Ainsi, le bloc est le multiprocesseur, tandis que la grille repr�sente l'enti�ret� de la carte.

Le calcul h�t�rog�ne est l'utilisation des deux types de processeur disponibles sur nos ordinateurs : les CPU et les GPU. Il s'agit donc d'utiliser le bon type de processeur pour la bonne t�che.

Vous voici pr�t pour partir � l'attaque !

IV. CPU et GPU▲

IV-A. Survol de quelques diff�rences▲

La puissance de nos GPU n'a de cesse d'augmenter depuis quelques ann�es. � un point qu'il est d�sormais possible de les utiliser pour r�aliser des calculs autres que pour des jeux. En effet, parmi les CPU, un Intel Pentium 4 cadenc� � 3 GHz fournit 4,8 GFlops, un Intel Core 2 Duo E6750 (2,66 GHz), 14,2 GFlops ; chez les GPU, on change de cat�gorie : la GeForce 9800 GTX, 420 GFlops, pour 675 MHz seulement.

Cependant, ces diff�rences �normes s'expliquent tr�s facilement, explications dans ce tableau.

�	CPU (hors SIMD)	GPU
Nombre de t�ches	Une seule et unique	Le plus grand nombre
Vari�t� des t�ches	Toutes possibles	Restreinte
Subdivision de la t�che	Aucune : tout en un coup	Maximale, pour mieux la r�partir sur les diff�rentes unit�s de calcul

Il ne faut pas oublier de pr�ciser que les GPU pr�f�rent travailler avec des vecteurs. Dans le cas contraire, les gains sont r�ellement minimes.

Les deux types de processeur travaillent de fa�on radicalement diff�rente. L'emploi de GPU � la place de CPU ne se fait donc pas en un tour de main : il faut repenser le calcul pour l'adapter au type de processeurs d�sir�. Si l'on ne change pas sa mani�re de penser, autant continuer de produire son �lectricit� � la pomme de terre, qui permet quand m�me de produire assez pour �clairer quelques centim�tres ; tandis que la centrale �lectrique permet d'�clairer des villes enti�res.

Pour le grand public, les prix se tiennent : un E6750 co�te, actuellement, 140 € ; une 9800 GTX, 150 €. Leurs �ditions professionnelles sont l�g�rement diff�rentes : 1 500 $ pour un NVIDIA Tesla S870 plafonnant � 2 Tflops, contre 200 000 $ pour un IBM BlueGene de m�me puissance. Ici, on remarque bien l'un des grands avantages du GPGPU.

On peut consid�rer des racks de cartes Tesla comme des supercalculateurs. En effet, ce sont eux qui calculent. Cependant, un ou plusieurs CPU les orchestrent, en plus de leur donner la masse de travail.

Aussi, les GPU ont �t�, � la base, destin�s � et sp�cialis�s pour des calculs intensifs. Ceci leur permet de r�server plus de transistors au traitement des donn�es, au lieu de les utiliser pour le cache ou bien pour la gestion des flux d'entr�e ou de sortie.

Ainsi, un GPU doit �tre constitu� de beaucoup de processeurs pour ces calculs : un GPU comporte au strict minimum 32 processeurs (240 pour le T10, 128 en moyenne) et ce, depuis plus qu'un temps certain. Ces processeurs sont les �quivalents des coeurs de nos CPU, qui en comportent, en moyenne, 2 depuis quelques ann�es et, dans les ann�es � venir, 80. Nous sommes donc bien loin des GPU !

IV-B. Pr�cision des calculs▲

Les GPU actuels, avec CUDA, n'ont qu'une pr�cision FP32, sur 32 bits. Il faut se tourner vers les solutions d'ATI/AMD pour une pr�cision double sur 64 bits, ou bien vers des GPU plus chers, comme les Tesla ou les Quadro, ou bien r�cents, comme tous les GPU bas�s sur le GT200 (GeForce GTX260 � GTX295).

Tous les processeurs ne fonctionnent pas � la m�me pr�cision : sur les premi�res GeForce compatibles CUDA, tous sont FP32. Sur un T10, 8 unit�s sont FP32 et une seule FP64. Chez AMD, pour 8 unit�s FP64, il y a 4 unit�s FP32.

Le peu d'unit�s d�di�es au calcul � double pr�cision sur les Tesla et autres explique leur faible puissance � ce niveau de pr�cision, en comparaison de la simple pr�cision ou bien des solutions d'AMD. Ainsi, pour du calcul en haute pr�cision, les solutions NVIDIA tous publics ne sont pas encore au point (AMD ne propose plus de GPGPU pour la m�me gamme).

Actuellement, tous les processeurs supportent la double pr�cision sur 64 bits.

Plus pr�cis�ment, NVIDIA met � disposition la liste des �carts avec les standards, ainsi que ses limitations.

Les additions et soustractions sont souvent associ�es en une seule instruction ;
La division et la racine carr�e sont impl�ment�es par la r�ciproque, non conform�ment aux standards ;
Pour la multiplication et l'addition, il n'est possible que d'arrondir vers le nombre pair le plus proche ;
Il n'y a pas de possibilit� d'arrondi configurable dynamiquement ;
Il n'y a pas de signalisation de NaN (Not a Number) ;
Il n'y a pas de m�canisme de d�tection d'exception, qui sera masqu�e selon les standards ;
Les op�randes de source d�normalis�e tendent vers 0 ;
Le r�sultat d'une op�ration avec NaN est un NaN canonique de la forme 0x7fffffff ;
En accord avec les standards, si un NaN est pass� � min() ou � max(), l'autre sera retourn�.

IV-C. GPU▲

IV-C-1. M�moires▲

IV-C-1-a. M�moire globale▲

CUDA est capable de lire et d'�crire sur la m�moire embarqu�e dans la carte graphique. Ces op�rations portent, respectivement, les doux noms de gathering et de scattering.

La m�moire globale est la m�moire utilisable de n'importe quel endroit de CUDA, avec les m�mes performances � la cl� : cette m�moire n'est pas cach�e et il faut attendre 400 � 600 cycles avant d'y acc�der. Ce qui laisse un multiprocesseur inactif pendant ce temps.

Pourquoi une telle latence ?
La m�moire globale est, en g�n�ral (dans tous les cas, jusqu'� pr�sent), de la DRAM.
Cette m�moire est tr�s bon march� : 1,50$ en septembre 2008, pour les int�grateurs ! Ceci lui permet d'�tre utilis�e comme m�moire principale de nos ordinateurs.
De plus, elle se r�v�le compacte : on en fait tenir des Go sans probl�me sur des cartes !
Pourtant, cette m�moire a un probl�me et il s'agit de la latence. Elle monte sans probl�me jusqu'� 30 ns, ce qui repr�sente quand m�me d�j� 30 cycles ! Et sans compter les bus entre le multiprocesseur et la m�moire.
Finalement, cette m�moire n'est pas cach�e.

IV-C-1-b. M�moire locale▲

Cette m�moire est, � l'instar de la m�moire globale, non cach�e et avec une latence tr�s �lev�e.

Cette m�moire n'est utilis�e que pour certaines variables, qui y sont plac�es automatiquement. En effet, certains tableaux, normalement plac�s dans les registres, sont trop grands : il leur faut donc un espace plus grand, qu'offre la m�moire locale.

IV-C-1-c. M�moire constante▲

La m�moire constante est cach�e : la lecture depuis cette m�moire ne co�te qu'un cycle. Pour tous les threads d'un demi-warp, la lecture depuis la m�moire constante est aussi rapide que depuis un registre, aussi longtemps que tous les threads lisent le m�me emplacement m�moire. Le co�t de lecture augmente lin�airement avec le nombre d'adresses diff�rentes demand�es par les threads. Il est recommand� que tous les threads d'un warp utilisent la m�me adresse et non seulement ceux de demi-warps, vu que les p�riph�riques futurs le requerront pour un fonctionnement optimal.

Chaque multiprocesseur dispose d'une m�moire r�serv�e aux constantes, d'une taille de 8 ko, dans le cas des GeForce 8800.

IV-C-1-d. M�moire des textures▲

Cet espace m�moire est cach�, le co�t de la lecture est donc tr�s faible.

Cette m�moire est optimis�e pour un espace � deux dimensions, ainsi, les threads d'un m�me warp qui lisent � des adresses proches auront des performances optimales.

Aussi, elle est pr�vue pour des demandes de flux avec une latence constante.

La lecture des m�moires du p�riph�rique par le m�canisme des textures peut �tre une alternative avantageuse � la lecture depuis les m�moires globale ou constante.

Les textures seront approfondies plus tard, mais voici un avant-go�t.

Les textures permettent vraiment de simplifier le traitement d'images : elles permettent la mise en oeuvre de filtrages bilin�aires et trilin�aires tr�s facilement et l'acc�s al�atoire ais� aux pixels.

IV-C-1-e. M�moire partag�e▲

Cette m�moire est pr�sente sur le chipset, ce qui lui permet d'�tre assez rapide, plus que la m�moire locale.
En fait, pour tous les threads d'un warp, acc�der � cette m�moire est aussi rapide que d'acc�der � un registre, tant qu'il n'y a pas de conflit entre les threads.

Pour permettre une bande-passante assez �lev�e, la m�moire partag�e est divis�e en modules de m�moire, les banques, qui peuvent �tre acc�d�e simultan�ment. Ainsi, n lectures ou �critures qui tombent dans des banques diff�rentes peuvent �tre ex�cut�es simultan�ment dans un warp, ce qui permet d'augmenter sensiblement la bande passante, qui devient n fois plus �lev�e que celle d'un module.

Cependant, si deux demandes tombent dans la m�me banque, il y a un conflit de banques et l'acc�s doit �tre s�rialis�. Le mat�riel divise ces requ�tes probl�matiques en autant de requ�tes que n�cessaire pour qu'aucun probl�me n'ait lieu, ce qui diminue la bande passante d'un facteur �quivalent au nombre de requ�tes total � effectuer.

Pour des performances maximales, il est donc tr�s important de comprendre comment les adresses m�moires sont reli�es aux banques, pour pouvoir pr�voir les requ�tes et, ainsi, minimiser les conflits.

Dans le cas d'un espace en m�moire partag�e, les banques sont organis�es pour que des mots successifs de 32 bits soient assign�s � des banques successives. Chaque banque a une bande passante de 32 bits tous les deux cycles d'horloge.

Pour le moment, un warp a une taille de 32 threads et il y a 16 banques.

Une requ�te en m�moire partag�e pour un warp est divis�e en deux : une partie pour le premier demi-warp, une autre, pour l'autre moiti�. Ce qui a pour cons�quence qu'il ne peut y avoir de conflit entre chaque demi-warp. Les conflits seront d�taill�s plus tard.

Actuellement, la m�moire partag�e atteint un total de 16 ko, 1 ko pour chaque banque.

Pour r�sumer ceci, voici un sch�ma qui reprend l'essentiel des caract�ristiques pr�sent�es ici.

IV-C-1-f. Registres▲

G�n�ralement, l'acc�s � un registre ne prend pas un seul cycle suppl�mentaire par instruction, mais des retards peuvent appara�tre, suite aux d�pendances de lecture apr�s �criture et des conflits qui peuvent se produire.

Les retards introduits pas les d�pendances peuvent �tre ignor�s, d�s qu'il y a au moins 192 threads actifs par multiprocesseur, qui permettent de les cacher.

Le compilateur et l'organisateur des threads organisent les instructions pour des performances optimales, qui n�cessitent d'�viter les conflits avec les banques. Le meilleur moyen d'obtenir de bonnes performances est d'utiliser un multiple de 64 comme nombre de threads par bloc. Une application n'a strictement aucun moyen de contr�ler ces conflits.

Chaque multiprocesseur dispose de 8192 registres.

IV-C-1-g. M�moire syst�me▲

Depuis les GT200 (GeForce GTX 260 � 295), il est d�sormais possible d'utiliser la m�moire principale du syst�me, alias RAM, gr�ce � CUDA 2.2.

Les appels � cette m�moire ne peuvent �tre fr�quents : ils sont encore plus lents que les appels � la m�moire locale (700 � 800 cycles de latence !). Mais la RAM est disponible, de nos jours, en quantit�s plus grandes que celle disponible sur nos GPU.

IV-C-2. Shaders▲

Les calculs demand�s � CUDA sont, pour le moment, effectu�s sur les unit�s de shaders, les processeurs les plus rapides sur les GPU. Par exemple, les GeForce 8800 GTX ont des unit�s cadenc�es � 1,2 GHz.

Chaque unit� de traitement des shaders est, comme montr� ci-dessus, constitu�e de Texture Processor Clusters (TPC).

Chacun de ces clusters est fait d'une unit� de traitement des textures (TEX) et de deux unit�s de traitement des flux (SM, Streaming Multiprocessor).

Vous n'avez pas vraiment besoin d'en savoir beaucoup plus pour pouvoir aborder CUDA. Cependant, si vous en voulez encore, faites-vous plaisir avec la section suivante !

IV-C-2-a. Plus de pr�cisions▲

Chacun de ces deux processeurs contient une interface qui code et d�code les instructions et qui les lance. Derri�re l'interface, plusieurs unit�s ex�cutent les instructions. Les calculateurs fonctionnent deux fois plus vite que l'interface !

Ces calculateurs sont 8 unit�s de calcul (SP) et 2 unit�s superfonctionnelles (SFU).

� chaque cycle, l'interface choisit un warp pr�t � �tre ex�cut�.

Pour ex�cuter toutes les instructions des 32 threads, il faudra 4 cycles. Cependant, vu de l'interface, cela prendra 2 cycles.

Pour �viter que l'interface reste inactive pendant un cycle, l'id�al est d'alterner les types de warps : un premier pour les SP, un second pour les SFU.

IV-C-2-b. Limites▲

Un SM �tant compos� de 8 SP, on sera donc limit� � l'ex�cution de 8 blocs en simultan�. De plus, l'ex�cution est limit�e � 65536 blocs et 512 threads par bloc au total.

Vous n'avez pas encore eu un aper�u du temps consacr� au calcul en fonction des diff�rents param�tres.

En faisant varier le nombre de blocs de calcul sur un m�me probl�me, voici les r�sultats que l'on peut obtenir, avec de simples op�rations d'entr�e/sortie dans une table. Un bloc correspond � un thread sur un CPU, que l'on peut affecter � un coeur.

Variation du temps de calcul en fonction du nombre de blocs

Le processeur utilis� ici est un simple coeur, ses performances en fonction du nombre de threads restent donc stables. S'il s'agissait d'un quad-core, le minimum serait situ� � 4 threads.

La carte graphique, une GeForce 8800 GTX, poss�de 16 processeurs, qui ne donnent leur pleine puissance qu'� deux blocs chacun. NVIDIA recommande toutefois d'utiliser au moins une centaine de blocs, afin de pouvoir utiliser la puissance de chipsets plus r�cents � venir.

IV-D. CPU▲

Il ex�cute uniquement les instructions dans l'ordre assign�, sans parall�lisation (sauf architectures multi-cores et multi-CPU, qui n�cessitent quand m�me une action � la conception).

Les instructions sont aussi �crites en m�moire, pour ex�cution. Cependant, les donn�es avec lesquelles il faudra travailler sont souvent dans la m�me m�moire !

D'habitude, il ne travaille pas directement en m�moire : les donn�es sont copi�es dans des registres puis manipul�es et enfin stock�es en m�moire.

� l'origine, CPU et m�moire partageaient les m�mes fr�quences. Mais le premier a acc�l�r� et la seconde ne l'a pas rattrap� : au point que, si les processeurs actuels lisaient directement dans la m�moire, ils ne seraient utilis�s que 10% du temps.

IV-D-1. M�moire cache▲

C'est pour cela que des caches ont �t� install�s : il s'agit de petites quantit�s de m�moire, mais tr�s rapide, qui se place entre le CPU et la m�moire centrale. Ils ne sont utilis�s que pour les instructions fr�quemment utilis�es et les donn�es. Il en existe deux niveaux : L1 et L2, exceptionnellement un troisi�me, L3, sur les processeurs les plus chers (r�serv�s g�n�ralement aux serveurs).

Cependant, ces m�moires tr�s rapides ne sont pas pr�sentes en grande quantit�s sur nos CPU, vu leur prix : en moyenne, le m�gaoctet de cache co�te 100 fois plus cher que le m�gaoctet de RAM ! Le cache fonctionne aussi 10 fois plus vite que la RAM, avec un temps d'acc�s de 5 � 10 fois inf�rieur.

Les caches sont utilis�s de mani�re transparente par le mat�riel. Ils se font les mirroirs des donn�es en m�moire. Ils transportent les donn�es o� elles sont n�cessaires quand cela est demand�. Ces donn�es ne sont remplac�es que quand des donn�es plus urgentes arrivent.

Si les donn�es demand�es par le CPU sont disponibles sur le cache, celui-ci les lui envoie, le CPU ne doit pas attendre. Par contre, si elles ne le sont pas, la demande est effectu�e en aval, sur des m�moires plus lentes et le CPU doit attendre.

IV-D-2. Pipelines d'instructions▲

Supposons qu'un CPU prenne 3 cycles pour une multiplication de paire. Combien de temps prendra-t-il pour multiplier n paires ? Nous pourrions dire 3 n cycles. Il est possible de r�duire ce nombre.

La multiplication aura lieu dans une ligne de production. Nous pouvons avoir plus d'une paire de nombres en calcul en m�me temps. Dans ce cas, les multiplications prendront n + 2 cycles.

Notre but, pour atteindre cette vitesse, est de garder le pipeline rempli.

Dans une architecture avec pipelines, il est pr�f�rable d'avoir le moins possible de branches.

Moins de branches

Sélectionnez

do i=start,end
    a(i) = b * c(i)
end do

Moins de multiplications

Sélectionnez

do i=start,end
    if( c(i) == 0 )
        a(i) = 0
    else if( c(i) == 1 )
        a(i) = b
    else
        a(i) = b * c(i)
    end if
end do

IV-D-3. Ex�cution superscalaire▲

Les CPU modernes ont plusieurs unit�s de calcul, qui peuvent effectuer un nombre limit� d'instructions en parall�le.

Le mat�riel examine les instructions pour rep�rer des opportunit�s d'optimisation.

Le pipeline

Sélectionnez

i = i + 1;
j = j + 1;
a = b * c;

Les branches limitent ces opportunit�s et les unit�s d'ex�cution sont laiss�es en attente pendant l'�valuation des conditions.

Les CPU essayent toutes sortes d'autres astuces, comme la pr�diction de branches, l'ex�cution sp�culative ou autres, dont le compilateur et le CPU s'occupent.

Copyright © 2009 Thibaut Cuvelier. Aucune reproduction, même partielle, ne peut être faite de ce site ni de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.