Post-Mortems
Este documento serve como um registro sem culpa de incidentes, comportamentos inesperados do nó e retrocessos técnicos significativos. O objetivo é aprender com as falhas e evitar sua recorrência.
Propósito e Filosofia
- Sem Culpa: Focamos no “o quê” e no “como”, não no “quem”.
- Transparência: Documentamos as falhas para que a comunidade entenda a evolução da resiliência do protocolo.
- Orientado à Ação: Cada post-mortem deve resultar em pelo menos uma tarefa de acompanhamento para melhorar o sistema.
Limite para Escrever um Post-Mortem
- Qualquer incidente que cause uma partição ou paralisação em toda a rede.
- Um teste instável (flaky) não trivial que sobreviveu na branch principal por mais de 48 horas.
- Uma vulnerabilidade de segurança ou uma violação da Pilha de Defesa.
- Uma retração significativa ou reescrita pesada de uma RFC “Implementada”.
Template
### PM-NNNN | Título do Incidente
- **Data**: AAAA-MM-DD
- **Gravidade**: Baixa | Média | Alta | Crítica
- **RFC Afetada**: RFC-NNNN
- **Resumo**: Descrição breve do que aconteceu.
- **Linha do Tempo**:
- [HH:MM] - Incidente detectado.
- [HH:MM] - Causa raiz identificada.
- [HH:MM] - Mitigação temporária aplicada.
- [HH:MM] - Correção permanente fundida.
- **Causa Raiz**: O motivo técnico pelo qual isso aconteceu.
- **Fatores Contribuintes**: Problemas secundários que pioraram a situação.
- **Resolução**: Como foi corrigido.
- **Acompanhamento**: Link para PR/Issue para correção de longo prazo.
- **Lições Aprendidas**: O que faremos de diferente da próxima vez.
Registro
(Nenhum incidente registrado ainda. O registro começa aqui em ordem cronológica inversa.)