Supervision / monitor externe flexible pour déploiement autres serveurs
On pourrait avoir un petit programme / package autonome à mettre sur une autre machine du même réseau (par exemple au CHR ou à Necker) qui fasse une supervision (par exemple consultable sur page web) et qui fasse des actions (par exemple envoyer des mails, ou ping sur notre serveur central) si problème.
Pour mémoire, uptimerobot vérifie actuellement les adresses suivantes :
https://rbx.vidjil.org/admin http://rbx.vidjil.org/browser/ https://rbx.vidjil.org/vidjil/admin/monitor/ (vérifie que "QUEUED=0") On pourrait étendre ce controller monitor et vérifier d'autres choses. La place libre sur /mnt/upload, par exemple :-)
et aussi (non pertinent ici) : http://www.vidjil.org https://dev.vidjil.org/admin http://dev.vidjil.org/browser/ https://dev.vidjil.org/vidjil/admin/monitor/ (vérifie que "QUEUED=0")
On pourrait ajouter :
- align.cgi
- IMGT / IgBlast
(Rien d'urgent maintenant...)
monitor.vidjil.org pointe vers rby
Colonnes "résumées" qui pourraient apparaître dès la page d'accueil.
=== ping (ok ou pas)
=== git server: 03888f browser: 03888f
=== health uptime: 1 day load average: 0.42, 0.71, 0.71 df /upload: 50 GB
=== scheduler
workers: 2
jobs: 0/0/2 (Queued / Assigned / Running)
last_results: CCQCFFFFFC
=== stats sample sets: 4261 samples: 3105 jobs: 3500 active users: (5, 12) (day, week)
=== errors last ticket: 2016-04-03 IOError, bla.py:523 (serveur erreur) (idéalement avec lien) last error: 2016-04-03 I bla.js:12 (erreurs dans vidjil-debug, comme celles de .js) (idem)
-
Avoir un mécanisme pour faire les colonnes résumées en post-processant (sur monitorserv) les données retour
-
Avoir un mécanisme de warning / critique par exemple: si scheduler.workers < 2, passe en rouge (et notif/mail) df /upload : warning puis mail en dessous d'uen certaine place
sur les stats on pourrait voir l'évolution selon un pas de temps déterminé (avec (+X) à côté des différents nombres, pour montrer l'évolution sur le pas de temps en question).
sur les stats on pourrait voir l'évolution selon un pas de temps déterminé (avec (+X) à côté des différents nombres, pour montrer l'évolution sur le pas de temps en question).
df /upload: 50 (-5) sample sets: 4261 (+10)
Oui, génial ! Mais peut-être ce sera fait dans un second temps, directement par monitorserv en comparant plusieurs rapports