Réductions OpenMP

Approximation de PI à l’aide de la clause de réduction #pragma omp

h = 1.0 / n;
#pragma omp parallel for private(x) shared(n, h) reduction(+:area) 
for (i = 1; i <= n; i++)
{
  x = h * (i - 0.5);
  area += (4.0 / (1.0 + x*x));
}
pi = h * area;

Dans cet exemple, chaque thread exécute un sous-ensemble du nombre d’itérations. Chaque thread a sa copie privée locale de area et à la fin de la région parallèle, ils appliquent tous l’opération d’addition (+) afin de générer la valeur finale pour area.

Approximation du PI à l’aide de réductions basées sur #pragma omp critique

h = 1.0 / n;
#pragma omp parallel for private(x) shared(n, h, area) 
for (i = 1; i <= n; i++)
{
  x = h * (i - 0.5);
  #pragma omp critical
  {
    area += (4.0 / (1.0 + x*x));
  }
}
pi = h * area;

Dans cet exemple, chaque thread exécute un sous-ensemble du nombre d’itérations et s’accumule de manière atomique dans la variable partagée “area”, ce qui garantit qu’aucune mise à jour n’est perdue.

Approximation de PI à l’aide de réductions basées sur #pragma atomic

h = 1.0 / n;
#pragma omp parallel for private(x) shared(n, h, area) 
for (i = 1; i <= n; i++)
{
  x = h * (i - 0.5);
  #pragma atomic
  area += (4.0 / (1.0 + x*x));
}
pi = h * area;

Dans cet exemple, chaque thread exécute un sous-ensemble du nombre d’itérations et s’accumule de manière atomique dans la variable partagée “area”, ce qui garantit qu’aucune mise à jour n’est perdue. Nous pouvons utiliser le #pragma atomic ici car l’opération donnée (+=) peut être effectuée de manière atomique, ce qui simplifie la lisibilité par rapport à l’utilisation du #pragma omp critical.

Rapprochement de PI fabriquant à la main la réduction #pragma omp

h = 1.0 / n;

#pragma omp parallel private(x) shared(n, h)
{
  double thread_area = 0;                      // Private / local variable

  #pragma omp for
  for (i = 1; i <= n; i++)
  {
    x = h * (i - 0.5);
    thread_area += (4.0 / (1.0 + x*x));
  }

  #pragma omp atomic                       // Applies the reduction manually
  area += thread_area;                     // All threads aggregate into area
}

pi = h * area;

Les threads sont générés dans le #pragma omp parallel. Chaque thread aura un thread_area indépendant/privé qui stocke son ajout partiel. La boucle suivante est répartie entre les threads à l’aide de #pragma omp for. Dans cette boucle, chaque thread calcule sa propre thread_area et après cette boucle, le code agrège séquentiellement la zone de manière atomique via #pragma omp atomic.