Incidentes em infraestrutura digital podem causar indisponibilidade, perda de receita e danos à reputação. Um manual de resposta bem definido permite reagir rapidamente, reduzir impacto e aprender com cada ocorrência. Neste artigo, montamos um runbook completo, do alerta inicial ao pós-incidente, alinhado às melhores práticas e com recursos oferecidos pela OTH Host.
1. Estruture o ciclo de resposta
Utilize o ciclo clássico:
- Preparação
- Identificação
- Contenção
- Erradicação
- Recuperação
- Lições aprendidas
Documente cada fase com responsáveis, ferramentas e KPIs (MTTD, MTTR).
2. Defina equipe e papéis
- Incident Commander (IC): coordena ações e toma decisões.
- Comunicador: cuida de stakeholders internos/externos.
- Engenheiros técnicos: atuam na investigação e correção.
- SRE/NOC: coleta métricas, monitora e aciona recursos.
Crie uma matriz de contatos com escalas 24/7. A OTH Host disponibiliza SRE dedicado para clientes gerenciados.
3. Playbooks por tipo de incidente
Elabore roteiros específicos:
- Indisponibilidade de aplicação (HTTP 5xx)
- Latência elevada
- Exaustão de recursos (CPU/RAM/storage)
- Intrusão/segurança (ransomware, acesso não autorizado)
- Falha de infraestrutura (network ou hardware)
Cada playbook deve incluir checklist de diagnóstico, comandos, ferramentas e timelines.
4. Monitoramento e detecção
- Configure alertas claros em Prometheus/Grafana, Zabbix ou ferramentas escolhidas.
- Deixe alertas sem ruído: prefira sinais acionáveis.
- Use canais centralizados (Slack, PagerDuty, Opsgenie) para notificação e escalonamento.
5. Contenção e mitigação
Documente como isolar sistemas afetados, habilitar instâncias adicionais, acionar failover ou ativar planos de DR. Mantenha scripts prontos, backups atualizados e ambientes secundários em estado “warm”.
6. Comunicação
Integre com o manual de comunicação de incidentes: defina mensagens para equipe interna, clientes e imprensa. Utilize central de status, e-mails e redes sociais conforme severidade. Garanta aprovação rápida às mensagens.
7. Recuperação e validação
- Verifique integridade de dados e funcionamento do ambiente.
- Retire controles temporários com cuidado (ex.: firewall permissivo).
- Monitore o ambiente intensamente após a normalização.
8. Pós-incidente
Realize post-mortem dentro de 72 horas. Inclua:
- Linha do tempo detalhada
- Causa raiz (com método 5 porquês ou diagramas)
- Ações preventivas (bugs, monitoramento, treinamento)
- Atualização de playbooks e runbooks
9. Governança e melhoria contínua
Execute exercícios regulares (GameDays, simulações) para testar prontidão. Revise manual semestralmente ou após mudanças significativas. Resuma métricas para diretoria e alinhe com metas de SLA/SLO.
Conclusão
Com um manual estruturado, incidentes deixam de ser caos e se tornam oportunidades de aperfeiçoamento. A OTH Host apoia em toda a jornada: monitoramento, resposta rápida, comunicação e revisão pós-ocorrência, garantindo infraestrutura resiliente e clientes informados.