Context mpi
Bug reported by Alfredo.
*******
Bonjour,
je rencontre un problème lors que j'insère des tâches dans des contextes avec starpu-mpi. J'ai réussi à reproduire le problème dans le petit programme en pj (désole c'est du fortran...).
Ce programme:
\
- crée un contexte \
- alloue autant de petit blocs (taille 2x2) qu'il y a de rank MPI \
- enregistre les blocs dans starpu en supposant que le i-ème bloc se trouve sur le i-ème rank \
- insère une tâche par bloc dans le contexte. Cette tache vas simplement écrire une valeur dans le bloc (en l'occurrence c'est le rank du processus qui l'exécute) \
- fait un wait
Le problème que je rencontre c'est que si à l'étape 5 je fais un
call fstarpu_task_wait_for_all_in_ctx(ctx)
j'obtiens un segfault (c'est systématique avec mpirun -np 8 ou plus). Si, par contre, je fais
call fstarpu_task_wait_for_all_in()
tout marche bien. Je fais une bêtise quelque part ou bien c'est censé marcher?
*************
for me, it fails whatever call is made with the following error messages:
Starpu inited (0). Has 20 CPU workers
At line 79 of file ../../../mpi/examples/context/main.f90
Fortran runtime error: Attempting to allocate already allocated variable 'a'
Error termination. Backtrace:
At line 79 of file ../../../mpi/examples/context/main.f90
Fortran runtime error: Attempting to allocate already allocated variable 'a'
Error termination. Backtrace:
At line 79 of file ../../../mpi/examples/context/main.f90
Fortran runtime error: Attempting to allocate already allocated variable 'a'
Error termination. Backtrace:
At line 79 of file ../../../mpi/examples/context/main.f90
Fortran runtime error: Attempting to allocate already allocated variable 'a'
Error termination. Backtrace:
#0 0x7faad0e218c2 in ???
#1 0x7faad0e223b9 in ???
#2 0x7faad0e22949 in ???
#3 0x5608b034188b in MAIN__
at ../../../mpi/examples/context/main.f90:79
#4 0x5608b0342584 in main
at ../../../mpi/examples/context/main.f90:17
--------------------------------------------------------------------------
Primary job terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
#0 0x7fa3e80218c2 in ???
#1 0x7fa3e80223b9 in ???
#2 0x7fa3e8022949 in ???
#3 0x55bce4aaa88b in MAIN__
at ../../../mpi/examples/context/main.f90:79
#4 0x55bce4aab584 in main
at ../../../mpi/examples/context/main.f90:17
--------------------------------------------------------------------------
mpirun detected that one or more processes exited with non-zero status, thus causing
the job to be terminated. The first process to do so was:
Process name: [[32594,1],3]
Exit code: 2
--------------------------------------------------------------------------
Edited by Nathalie Furmento