Instabilidade no serviço de Webhook
Incident Report for Huggy
Postmortem

Sumário

Este relatório reúne informações do incidente que impactou a plataforma Huggy nos dias 3, 4 e 7 de junho de 2024.

Identificamos que uma atualização em nosso serviço de Webhooks provocou uma alteração na estrutura de dados usada pelo código-fonte que processa os eventos, afetando algumas integrações existentes na plataforma.

Normalizamos o funcionamento da plataforma às 16h22 do dia 4 de junho de 2024. Houve uma reincidência da instabilidade no dia 7 de junho, prontamente corrigida pela nossa equipe neste mesmo dia, às 13h30.

Linha do tempo

  • 📆 03/06/2024 18:28 (GMT-3): Identificação da instabilidade
  • 📆 04/06/2024 02:00 (GMT-3): Liberação de melhoria no serviço de Webhooks
  • 📆 04/06/2024 08:00 (GMT-3): Descoberta da causa raiz do incidente
  • 📆 04/06/2024 11:45 (GMT-3): Correção da estrutura de dados com falha
  • 📆 04/06/2024 16:22 (GMT-3): Normalização da plataforma
  • 📆 07/06/2024 12:00 (GMT-3): Reincidência da instabilidade
  • 📆 07/06/2024 13:30 (GMT-3): Correção crítica do sistema

Causa raiz do incidente

Uma atualização em nosso serviço de Webhooks provocou uma alteração na estrutura de dados usada pelo código-fonte que processa os eventos, afetando algumas integrações existentes na plataforma.

Impacto

O incidente provocou atraso no tempo de resposta das requisições e falhas nas integrações que dependem do processamento dos eventos de webhook.

Alguns clientes podem ter experimentado atrasos extras enquanto o sistema normalizava após a correção da estrutura de dados com falha.

Esses atrasos ocorreram no dia 4 de junho durante os seguintes períodos:

  • 🕝 15h30 às 15h38
  • 🕝 15h48 às 15h54
  • 🕝 16h15 às 16h22

Plano de ação

Durante a madrugada do dia 4 de junho de 2024, nossa equipe implementou uma melhoria para processar de maneira mais ágil os eventos em atraso do dia anterior. Todos eles foram disparados com sucesso até às 10h.

Ainda no dia 4, às 11h45, aplicamos uma segunda correção para ajustar a estrutura de dados com falha no código do serviço de Webhooks. Restauramos o funcionamento da plataforma por completo às 16h22.

Houve uma reincidência da instabilidade no dia 7 de junho, prontamente corrigida pela nossa equipe neste mesmo dia, às 13h30.

Pedimos mais uma vez desculpas pelo ocorrido. Estamos trabalhando em melhorias no processamento de requisições de Webhooks para garantir mais confiabilidade e segurança em suas integrações na Huggy.

Posted Jun 11, 2024 - 09:33 GMT-03:00

Resolved
O webhook está funcionando normalmente, desde as 16:22h não houveram atrasos no processamento. Pedimos desculpas pela dificuldade causada por este incidente e agradecemos sua compreensão e paciência.
Posted Jun 04, 2024 - 19:30 GMT-03:00
Update
Ocorreram atrasos temporários em nossa fila de processamento de webhooks devido a ajustes em andamento.
Essas lentidões ocorreram nos seguintes períodos: das 15:30h às 15:38h, das 15:48h às 15:54h e das 16:15h às 16:22h.
Nossa equipe está monitorando e analisando as causas para aplicar melhorias e tratar a causa raiz desses incidentes.
Posted Jun 04, 2024 - 17:18 GMT-03:00
Monitoring
Nosso time de engenharia acabou de aplicar mais uma atualização de melhoria, o disparo do webhook voltou a funcionar normalmente.

Continuaremos monitorando o funcionamento do nosso webhook para garantir que o serviço continue funcionando como esperado.
Posted Jun 04, 2024 - 11:45 GMT-03:00
Update
Em relação à instabilidade em nosso webhook, a fila de eventos do dia 03/06 ainda está em processamento. No entanto, implementamos uma solução para que todos os eventos de hoje (04/06) sejam processados normalmente.

Continuamos monitorando a situação e em breve traremos mais atualizações.
Posted Jun 04, 2024 - 08:00 GMT-03:00
Identified
O problema foi identificado e uma correção está sendo implementada.
Posted Jun 03, 2024 - 19:29 GMT-03:00
Update
O nosso serviço de webhook está sofrendo uma instabilidade que ocasiona atraso no disparo dos eventos. A causa do incidente já foi identificada e estamos solucionando. Traremos novas informações em breve.
Posted Jun 03, 2024 - 19:17 GMT-03:00
Investigating
Estamos enfrentando instabilidades em nosso serviço de Webhook, estamos investigando este incidente com prioridade.
Posted Jun 03, 2024 - 18:28 GMT-03:00
This incident affected: Webhook.