Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Post-Mortems

Este documento serve como um registro sem culpa de incidentes, comportamentos inesperados do nó e retrocessos técnicos significativos. O objetivo é aprender com as falhas e evitar sua recorrência.

Propósito e Filosofia

  • Sem Culpa: Focamos no “o quê” e no “como”, não no “quem”.
  • Transparência: Documentamos as falhas para que a comunidade entenda a evolução da resiliência do protocolo.
  • Orientado à Ação: Cada post-mortem deve resultar em pelo menos uma tarefa de acompanhamento para melhorar o sistema.

Limite para Escrever um Post-Mortem

  • Qualquer incidente que cause uma partição ou paralisação em toda a rede.
  • Um teste instável (flaky) não trivial que sobreviveu na branch principal por mais de 48 horas.
  • Uma vulnerabilidade de segurança ou uma violação da Pilha de Defesa.
  • Uma retração significativa ou reescrita pesada de uma RFC “Implementada”.

Template

### PM-NNNN | Título do Incidente

- **Data**: AAAA-MM-DD
- **Gravidade**: Baixa | Média | Alta | Crítica
- **RFC Afetada**: RFC-NNNN
- **Resumo**: Descrição breve do que aconteceu.
- **Linha do Tempo**:
  - [HH:MM] - Incidente detectado.
  - [HH:MM] - Causa raiz identificada.
  - [HH:MM] - Mitigação temporária aplicada.
  - [HH:MM] - Correção permanente fundida.
- **Causa Raiz**: O motivo técnico pelo qual isso aconteceu.
- **Fatores Contribuintes**: Problemas secundários que pioraram a situação.
- **Resolução**: Como foi corrigido.
- **Acompanhamento**: Link para PR/Issue para correção de longo prazo.
- **Lições Aprendidas**: O que faremos de diferente da próxima vez.

Registro

(Nenhum incidente registrado ainda. O registro começa aqui em ordem cronológica inversa.)