EC2 – Panne matérielle

J'utilise le stockage EBS sur une instance Debian. J'ai configuré l'instance pour ne pas finir lors de l'arrêt.

Je me request ce qui se passe en cas d'échec matériel (RAM, CPU, HD, etc.).

  1. Quel type d'alarme dois-je configurer pour être averti? Puis-je countr sur "StatusCheckFailed"?

  2. Devrais-je espérer un redémarrage / redémarrage sur un Matériel différent effectué automatiquement par l'équipe AWS? Sinon, quelles sont les étapes à suivre pour redémarrer mon instance sur un autre matériel? Combien de time cela prend-il?

  3. Puis-je supposer que je ne perdrai pas mes données (/ var / www etc.)? Actuellement, si je m'arrête et commence, tout va bien, mais je ne sais pas si je peux countr sur ça

  4. En cas d'échec du disque dur, est-il transparent car AWS utilise RAID ou quoi que ce soit? ou est-ce que je dois également être informé et peut-être redémarrer manuellement à partir d'un instantané précédent?

En ce qui concerne le «nuage», en particulier AWS, je m'attendais à ce qu'il inclue la gestion du basculement, avec un produit tel que VMware, il suffit de redémarrer automatiquement la VM sur un autre HW. Je comprends donc que je dois m'attendre à échouer, mais je cherche des solutions pour exécuter automatiquement l'instance sur une autre zone ou région lorsqu'une panne HW est détectée ou, si possible, au less manuellement en passant par quelques pas?

Merci, Rod

Il est peu probable que AWS redémarre votre instance. Ils vous donnent tous les outils pour surveiller et redémarrer les instances afin qu'ils vous laissent. Ils peuvent vous envoyer un courrier électronique si vous devez faire quelque chose.

Vous ne devez pas perdre datatables de votre disque EBS si le matériel EC2 échoue, mais EBS n'est pas aussi robuste que S3. Il est possible que vous perdez votre disque EBS, donc vous avez besoin de sauvegardes ou d'instantanés (je fais les deux, les sauvegardes utilisant Attic et Dropbox). Vous devriez prendre des instantanés réguliers, qui sont stockés sur S3 et sont beaucoup plus durables. Le premier instantané est grand, les différentiels sont ensuite différents, donc utilisez relativement peu d'espace.

Vous pouvez créer une alarme dans CloudWatch qui redémarre votre instance si StatusCheckFailed est levé. La documentation avec les instructions étape par étape est ici .

Dans certains cas, Amazon remarquera que son matériel est dégradé et vous dit de vous arrêter (arrêtez et démarrez votre instance) d'ici une certaine date ou si vous arrêtez automatiquement.

Dans certains cas, il n'y aura pas d'avertissement et il ne fera que s'arrêter. Ou ne pas entrer dans l'état STOP, et simplement devenir inaccessible. Il peut ou non redémarrer après avoir pris soin de lui. Parfois, il y aura un courrier d'apologie après le fait.

Je n'ai pas encore échoué un EBS (j'ai eu beaucoup d'exemples, mais pas de volumes), mais je prévois toujours cela. Je ne sais pas à quoi cela ressemble.

L'établissement d'une alarme pour l'échec de vérification de l'état de réalisation est votre meilleur pari.