Server Manager/ Help
Open Server Manager →

Comprendre la vue Santé

« De quoi dois-je m’inquiéter maintenant ? » — le contrôle en un coup d’œil de Server Manager pour le serveur. Trois niveaux d’urgence (Agir maintenant / Cette semaine / Tout va bien), et chaque constat propose une action en un clic qui insère une demande de correction dans le chat.

La vue Santé répond à une seule question : « De quoi dois-je m’inquiéter maintenant ? » C’est une vue sœur de la Vue d’ensemble de l’écran d’accueil, accessible via le menu Affichage en haut de la colonne de droite. Les constats sont regroupés en trois niveaux d’urgence, et chacun propose une action en un clic qui insère une demande de correction dans le chat.

Où la trouver

Regarde la colonne de droite (celle avec tes cartes de charge de travail). Tout en haut de cette colonne, il y a un bouton Affichage : Vue d’ensemble. Clique dessus ; le menu contient deux éléments : Vue d’ensemble (par défaut, avec tes cartes de charge de travail) et Santé.

Menu Affichage ouvert avec l’élément Santé mis en évidence ; les deux éléments ont une description sur une ligne
Menu Affichage ouvert avec l’élément Santé mis en évidence ; les deux éléments ont une description sur une ligne

Un petit point coloré sur le bouton Affichage indique qu’il y a quelque chose à vérifier :

  • Point rouge — au moins un constat Agir maintenant. Passe à Santé pour voir de quoi il s’agit.
  • Point orange — uniquement des constats Cette semaine. Rien d’urgent, mais ça vaut le coup d’y jeter un œil bientôt.
  • Aucun point — tout est au vert (ou il n’y a encore rien à signaler).

Le point est masqué quand tu es déjà sur la vue Santé (l’information y est évidente).

Les trois niveaux

Une fois dans la vue Santé, le haut de la page affiche trois pastilles de comptage :

Trois pastilles en haut : Agir maintenant (rouge, 1) / Cette semaine (orange, 3) / Tout va bien (vert, 2)
Trois pastilles en haut : Agir maintenant (rouge, 1) / Cette semaine (orange, 3) / Tout va bien (vert, 2)
PastilleCouleurSignification
Agir maintenantRougeQuelque chose est cassé ou se dégrade activement. À traiter aujourd’hui.
Cette semaineOrangeCe n’est pas le feu, mais l’ignorer pendant un mois ou deux risque de poser problème.
Tout va bienVertConfirmations positives — éléments configurés correctement. Pratique pour vérifier que tout est cohérent après des changements.

Sous les pastilles, les mêmes constats apparaissent sous forme de flux, regroupés par niveau et triés par urgence.

Ce qui remonte

Les constats viennent des sondes régulières de Server Manager sur ton serveur (l’inventaire + les métriques qui alimentent le reste de l’interface). Chaque contrôle a un seuil fixe ; tu verras un constat par condition réelle. L’ensemble actuel :

Rouge — Agir maintenant
  • Le disque est plein à N % (≥ 90 %) — quand le disque se remplit, les services commencent à tomber en panne. L’action (« Examiner le disque ») demande à Faro de trouver les plus gros répertoires et les éventuels déchets Docker, puis de proposer un plan de nettoyage sûr.
Orange — Cette semaine
  • Le disque est plein à N % (≥ 80 %, < 90 %) — pas encore critique, mais la tendance est à la hausse. Même action d’examen que pour la variante rouge.
  • La RAM est utilisée à N % (≥ 90 %) — note que Linux utilise la RAM libre comme cache, donc une utilisation élevée n’est pas toujours un problème. L’action fait ressortir les processus qui consomment le plus de mémoire et les éventuels arrêts OOM récents pour que tu puisses trancher.
  • N conteneur(s) redémarre(nt) — cela signifie généralement qu’ils plantent au démarrage. L’action récupère les journaux récents des conteneurs concernés + demande à Faro de les expliquer.
  • N conteneur(s) arrêté(s) — arrêts silencieux (par opposition à en cours d’exécution). L’action vérifie les codes de sortie + les derniers journaux.
  • N site(s) servi(s) en HTTP sans TLS — un bloc Caddy/nginx a un domaine mais pas de HTTPS. C’est presque toujours une erreur de configuration, puisque Let’s Encrypt est gratuit + automatique. L’action (« Ajouter HTTPS ») demande à Faro de mettre à jour la configuration du proxy et de vérifier les problèmes de certificat.
  • Des mises à jour sont disponibles pour N image(s) de conteneur — regroupées pour toutes les images (pour éviter d’avoir N constats). Les mises à jour d’images incluent souvent des correctifs de sécurité ; l’action (« Examiner les mises à jour » / « Mettre à jour l’image ») demande à Faro de vérifier les changelogs et de récupérer la nouvelle image avec ton accord.
Vert — Tout va bien
  • N site(s) web configuré(s) derrière Caddy/Nginx — confirmation positive que ton proxy + tes sites sont bien reliés.
  • N service(s) système fonctionne(nt) normalement — confirmation positive que les processus sous-jacents gérés par systemd sont actifs.

Une ligne de constat, en détail

Chaque ligne d’une section ressemble à ceci :

Ligne de constat avec point de sévérité, message, lien « m’en dire plus » et bouton Action à droite
Ligne de constat avec point de sévérité, message, lien « m’en dire plus » et bouton Action à droite

Éléments :

  • Point de sévérité à gauche — correspond à la couleur du niveau.
  • Message — une phrase courte qui nomme le problème avec les chiffres précis (par exemple, « Le disque est plein à 91 % — seulement 4 Go libres sur 47 Go »).
  • « M’en dire plus » — développe une explication de ce que le constat signifie réellement et pourquoi c’est important. Clique à nouveau pour replier.
  • Bouton d’action à droite — insère une demande préécrite dans le chat, prête à être envoyée. Faro prend ensuite le relais (avec les validations habituelles pour tout ce qui est destructif).
  • « ✓ ok » au lieu d’un bouton — pour les constats verts, il n’y a rien à faire. La pastille suffit.
Exemple : cliquer sur l’action

Le bouton d’action n’exécute rien immédiatement — il rédige une demande et la place dans la zone de saisie du chat, pour que tu puisses lire ce qui va être demandé, le modifier si tu veux, puis cliquer sur Envoyer. Faro s’en occupe ensuite.

Clic sur le bouton d’action de Santé → zone de saisie du chat préremplie avec la demande de correction
Clic sur le bouton d’action de Santé → zone de saisie du chat préremplie avec la demande de correction

Pour les corrections destructives (nettoyage, recréation de conteneur, etc.), Faro s’arrête toujours pour demander ton approbation explicite à chaque commande. Le bouton d’action de la vue Santé est un raccourci pour lancer la conversation, pas une exécution en un clic.

Quand la vue Santé indique « rien à signaler pour l’instant »

Tu verras cela si tu viens de te connecter et que les premières requêtes de métriques + d’inventaire ne sont pas encore revenues (la première requête d’inventaire s’exécute immédiatement au démarrage de la session ; les suivantes ont lieu toutes les 15 s). Tant que les données ne sont pas arrivées, la vue reste vide.

Si tu es connecté depuis un moment et que tu vois toujours « rien à signaler pour l’instant », une requête a probablement échoué silencieusement. Actualise la page ; si le problème persiste, déconnecte-toi puis reconnecte-toi pour réinitialiser la boucle de sondage.

Ce que la vue Santé NE couvre PAS

Il est important de savoir ce qui est hors périmètre :

  • La santé applicative à l’intérieur d’un conteneur. « Mon WordPress répond-il aux tentatives de connexion ? » « Ma requête de base de données est-elle lente ? » Ces signaux sont dans l’application — la vue Santé voit que le conteneur fonctionne, mais ne sait pas si l’application à l’intérieur se porte bien. Pour les signaux applicatifs, utilise l’onglet Journaux du panneau de service de la charge de travail ou demande directement à Faro.
  • La connectivité sortante / les dépendances externes. « L’API de Stripe est-elle disponible ? » « Mon SMTP tiers fonctionne-t-il ? » Server Manager ne sonde pas les endpoints externes depuis ton serveur.
  • L’accessibilité DNS de tes domaines. La vue vérifie si les sites ont TLS, pas s’ils pointent réellement vers ce serveur. Si tu configures un nouveau domaine et que le DNS ne s’est pas encore propagé, la vue Santé ne le verra pas — elle ne fait que lire la configuration locale du proxy.
  • La posture de sécurité. Pas d’analyse CVE, pas de détection d’anomalies dans les journaux, pas de statut fail2ban. Des éléments comme les mises à jour d’images (un signal de sécurité) remontent, mais une vue de sécurité complète est un projet à part. (Voir Server Manager va-t-il casser mon serveur ? pour ce qui est couvert côté réglages de sécurité par défaut.)

Questions fréquentes

Dois-je toujours avoir zéro constat rouge + zéro constat orange ? Pas forcément. Certains constats orange (comme 1 ou 2 conteneurs arrêtés) peuvent être intentionnels (un environnement de dev en pause, un docker-compose down lancé volontairement). La vue te montre l’état — à toi de décider si une action est nécessaire. Les couleurs des pastilles sont des heuristiques, pas des ordres.

Puis-je ignorer / mettre en pause un constat ? Pas pour l’instant — la vue reflète uniquement l’état actuel. Si un constat est faux ou si tu as décidé de faire avec, ignore-le ; il continuera à s’afficher jusqu’à ce que la condition sous-jacente change.

Pourquoi mon disque est-il plein à 92 %, mais la pastille « Agir maintenant » indique 0 ? La sonde ne s’est probablement pas exécutée depuis que le disque s’est rempli. La vue Santé recalcule les constats à chaque actualisation des métriques ou de l’inventaire — les métriques sont relevées toutes les 3 secondes, l’inventaire toutes les 15 secondes. Si le chiffre affiché est obsolète, le constat correspondant le sera aussi — attends quelques secondes.

Le bouton d’action ne fait rien quand je clique dessus. Il devrait toujours au minimum remplir la zone de saisie du chat avec la demande de correction. Si ce n’est visiblement pas le cas (la zone reste vide), actualise la page et réessaie.

Les mises à jour d’images sont listées comme un seul constat alors que j’ai 8 conteneurs. C’est intentionnel — les lister une par une prendrait toute la place dans la vue. La demande d’action liste toutes les références d’images concernées par nom afin que Faro puisse les examiner ensemble.

Que se passe-t-il si mon serveur est injoignable ? Aucune sonde ne s’exécute, aucun constat ne se met à jour. La vue Santé affiche le dernier état observé, et la pastille du serveur dans la barre supérieure passe en déconnecté (rouge). Voir Récupérer l’accès quand SSH ne fonctionne plus pour revenir à la normale.

Référence

Valeurs de seuil (valeurs par défaut actuelles — elles peuvent évoluer à mesure que les heuristiques sont ajustées) :

ContrôleSeuil
Disque plein (rouge)metrics.diskPercent ≥ 90
Avertissement disque (orange)metrics.diskPercent ≥ 80 && < 90
RAM élevée (orange)(ramUsedMB / ramTotalMB) ≥ 90% (cache inclus dans ramUsedMB)
Conteneur qui redémarreLa chaîne de statut Docker correspond à /restart/i (par ex. « Restarting (1) 5 seconds ago »)
Conteneur arrêtéLe statut n’est pas vide ET ne commence pas par Up ET n’est pas en redémarrage
Site sans TLSUn site a domain défini mais tls vaut false dans l’inventaire

Cadence d’actualisation — les métriques sont relevées toutes les 3 secondes, l’inventaire toutes les 15 secondes. Les constats sont recalculés à chaque actualisation de l’un ou de l’autre.

Origine des données — les mêmes métriques en direct et la même sonde d’inventaire qui alimentent le reste de l’application (CPU/RAM/disque, services en cours d’exécution, conteneurs Docker), avec la détection des mises à jour par image ajoutée par-dessus. Les constats sont recalculés à partir de cet instantané à chaque actualisation ; rien n’est stocké entre deux actualisations.