Folding@home
Un client peut avoir un souci à se connecter à un serveur et présenter un FAHlog sensiblement comme celui-ci :
[18:44:32] + Attempting to send results [June 25 18:44:32 UTC]
[18:44:32] - Reading file work/wuresults_04.dat from core
[18:44:32] (Read 100430 bytes from disk)
[18:44:32] Connecting to http://171.67.108.11:8080/
[18:44:34] - Couldn't send HTTP request to server
Dans cet exemple, le client ne peut pas se connecter et donc renvoyer les résultats du calcul au serveur qui est à l'origine de l'attribution de la WU. Mais il est
possible de vérifier immédiatement si le serveur est au moins en état de fonctionner. Pour cela, il suffit de copier dans votre navigateur Web l'url présent dans le FAHlog
(http://171.67.108.11:8080/). La réponse "OK" signale que le serveur est en état de fonctionner. On peut alors déduire que ce serveur est encombré et qu'il suffit de patienter.
Si la réponse est différente ou la connexion carrément impossible, ou bien si on veut tout simplement en savoir plus, un coup d'oeil sur l'état des serveurs nous rapporte ce qu'il en est.
Comment lire et comprendre ce grand tableau ? Il faut d'abord savoir que beaucoup de ses colonnes sont carrément obsolètes, d'autres ne remplissent pas leur fonction, aux dires même du personnel
de Stanford. Je vais donc retenir ce qui, à mon humble avis, peut être estimé comme sûr.
1 - "SERVER IP" indique l'url du serveur auquel le client se connecte pour se faire attribuer une WU et/ou pour renvoyer les résultats.
2 - "client" précise quel client est concerné par le serveur en question :
- "classiques" (pour mono-cores)
- "SMP" (pour multi-cores)
- "GPU" (pour les cartes graphiques Ati ou nVidia)
- "PS3" (PlayStation 3 de Sony).
3 - "NAME" est la liste des serveurs désignés par un nom spécifique.
4 - "WHO" indique qui s'occupe d'un serveur particulier (exemples : Pande ou Kasson) ou bien le lieu d'implantation du serveur.
5 - "STATUS" informe de l'état du serveur et c'est surtout ce qui nous intéresse :
- "full" signifie que le serveur est 100 % opérationnel
- "accept" informe que le serveur accepte seulement les WU, il ne les attribue pas
- "FAIL" signifie que le serveur ne peut être atteint
- "DOWN" signifie que le serveur est en panne ou en maintenance
- "STANDBY" signifie que le serveur ne sert pas de WU FAH, pour l'instant
6 - "CONNECT" est une colonne également importante car elle informe de l'état de la connexion avec les serveurs :
- "Accepting" signifie que le serveur est à même de communiquer avec les clients
- "Reject" informe que le serveur est bien en fonctionnement mais n'accepte pas momentanément les connexions avec les clients
- "Not accept" signale que le serveur est bien arrêté
- "OFFLINE" signifie que le serveur n'est plus connecté pour raison de maintenance
7 - "CPULOAD" indique la charge du serveur. Au-dessus de 2-3, le serveur commence à être probablement lourdement chargé.
8 - "NETLOAD" informe de la charge du serveur en terme de quantité de connexions que le serveur est en train de traiter. "Trop" de connexions signifient que le serveur est
lourdement chargé. Mais tout dépend du serveur. Il faut cependant remarquer que la plupart des serveurs sont maintenant à même de traiter 200 connexions simultanées sans aucun problème (chiffre à
vérifier car ça me semble peu ? ? ?).
9 - "FINWAIT"
10 - "DL"
11 - "GB TOT"
12 - "GB AV"
13 - "DIFF TIME"
14 - "WU L"
15 - "WUs AVAIL" donne le nombre de WU disponibles pour chaque serveur. Lorsque le serveur est à court de WU, le serveur d'assignation (AS) en est informé et il ne dirige plus
les nouveaux clients vers ce serveur.
16 - "WUs to go"
17 - "WUs WAIT" indique le nombre de WU attribuées par le serveur et dont il attend le retour des résultats. Mais comme un certain nombre de WU, au-delà de la deadline, sont
encore inclus dans ce chiffre, il peut paraître exagéré.
18 - "% Ass" indique le pourcentage des 500 dernières WU assignées à ce serveur par le serveur d'assignation principal (VSPX26). Les chiffres sont arrondis, sinon les cellules
sont colorées.
- bleu : le serveur d'assignation (AS) a décidé de ne pas assigner de clients à ce serveur, du fait par exemple de travaux de maintenance sur ce serveur ou d'un défaut de
WU.
- vert : le serveur d'assignation (AS) pense que tout va bien sur ce serveur et qu'il peut lui assigner des clients.
19 - "% Ass 80" indique le pourcentage des 500 dernières WU assignées à ce serveur par le port 80 du serveur d'assignation principal (VSPX28). Les chiffres sont arrondis et les
couleurs ont la même signification que ci-dessus.
20 - "% Ass G" indique le pourcentage des 500 dernières WU assignées à ce serveur par le serveur d'assignation (AS) GPU.
21 - "% Ass P" indique le pourcentage des 500 dernières WU assignées à ce serveur par le serveur d'assignation (AS) PS3.
22 - "WUs RCVD" montre combien de WU ont été reçues depuis la dernière actualisation des stats concernant ces serveurs. C'est encore un indicateur de l'activité du serveur.
23 - "WU E" est le nombre de WU dont la deadline est dépassée et qui ont été réattribuées
24 - "T"
25 - "st"
26 - "CS"
27 - "CSlisted"
28 - "NMJ"
29 - "80"
30 - "Operating System" indique le sytème d'exploitation concerné par le serveur :
W = Windows L = Linux X = Mac OS X
31 - "WEIGHT" reflète la fréquence d'assignation des clients par le serveur d'assignation (AS) à un serveur particulier. Zéro signifie pas d'assignation et plus le chiffre est
élevé plus la fréquence d'assignation est importante et donc plus le serveur est sollicité.
32 - "min ver" est la version minimum du client qui permet de se voir attribuer des WU sur ce serveur
33 - "Min_packet" est la taille minimum des WU (selon la configuration small/medium/big WU)
34 - "Max_packet" est la taille maximum des WU (selon la configuration small/medium/big WU)
35 - "memory" est le minimum de mémoire requis pour pouvoir se voir attribuer une WU par ce serveur
36 - "smp cores" est le nombre de cores requis pour se voir attribuer des WU SMP par ce serveur
37 - "gp type"
38 - "PROGRAM" donne la liste des projets en cours spécifiques aux serveurs
- "A" ce sont les projets dont le paramètre "-advmethods" est requis
- "B" ce sont les projets "beta" proposés aux fins de tests
- "F" ce sont les projets FAH génériques distribués à tous
- "I" ce sont les projets à usage de tests internes
- "G" ce sont les anciens projets GAH (Genome At Home)
39 - "AssignedPort"
40 - "ver"
41 - "C"
42 - "T"
43 - "G"
44 - "RMEM"
45 - "WHO" indique qui s'occupe d'un serveur particulier (exemples : Pande ou Kasson) ou bien le lieu d'implantation du serveur.
46 - "PBL"
En cours... et sera complété pour corriger une éventuelle erreur de ma part ou une nouvelle précision la part de Stanford...