Mentions légales du service

Skip to content

Context mpi

Nathalie Furmento requested to merge context_mpi into master

Bug reported by Alfredo.

*******

Bonjour,
je rencontre un problème lors que j'insère des tâches dans des contextes avec starpu-mpi. J'ai réussi à reproduire le problème dans le petit programme en pj (désole c'est du fortran...).

Ce programme:
\

  1. crée un contexte \
  2. alloue autant de petit blocs (taille 2x2) qu'il y a de rank MPI \
  3. enregistre les blocs dans starpu en supposant que le i-ème bloc se trouve sur le i-ème rank \
  4. insère une tâche par bloc dans le contexte. Cette tache vas simplement écrire une valeur dans le bloc (en l'occurrence c'est le rank du processus qui l'exécute) \
  5. fait un wait
    Le problème que je rencontre c'est que si à l'étape 5 je fais un
    call fstarpu_task_wait_for_all_in_ctx(ctx)
    j'obtiens un segfault (c'est systématique avec mpirun -np 8 ou plus). Si, par contre, je fais
    call fstarpu_task_wait_for_all_in()
    tout marche bien. Je fais une bêtise quelque part ou bien c'est censé marcher?

*************

for me, it fails whatever call is made with the following error messages:

Starpu inited (0).  Has 20 CPU workers
At line 79 of file ../../../mpi/examples/context/main.f90
Fortran runtime error: Attempting to allocate already allocated variable 'a'

Error termination. Backtrace:
At line 79 of file ../../../mpi/examples/context/main.f90
Fortran runtime error: Attempting to allocate already allocated variable 'a'

Error termination. Backtrace:
At line 79 of file ../../../mpi/examples/context/main.f90
Fortran runtime error: Attempting to allocate already allocated variable 'a'

Error termination. Backtrace:
At line 79 of file ../../../mpi/examples/context/main.f90
Fortran runtime error: Attempting to allocate already allocated variable 'a'

Error termination. Backtrace:
#0  0x7faad0e218c2 in ???
#1  0x7faad0e223b9 in ???
#2  0x7faad0e22949 in ???
#3  0x5608b034188b in MAIN__
        at ../../../mpi/examples/context/main.f90:79
#4  0x5608b0342584 in main
        at ../../../mpi/examples/context/main.f90:17
--------------------------------------------------------------------------
Primary job  terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
#0  0x7fa3e80218c2 in ???
#1  0x7fa3e80223b9 in ???
#2  0x7fa3e8022949 in ???
#3  0x55bce4aaa88b in MAIN__
        at ../../../mpi/examples/context/main.f90:79
#4  0x55bce4aab584 in main
        at ../../../mpi/examples/context/main.f90:17
--------------------------------------------------------------------------
mpirun detected that one or more processes exited with non-zero status, thus causing
the job to be terminated. The first process to do so was:

  Process name: [[32594,1],3]
  Exit code:    2
--------------------------------------------------------------------------
Edited by Nathalie Furmento

Merge request reports

Loading