[Plataforma] Instabilidade
Incident Report for Huggy
Postmortem

Sumário

Este documento reúne informações referentes ao incidente do dia 11 de setembro de 2023.

Neste dia, houve lentidão e indisponibilidade em diversos recursos da plataforma, como a listagem de chats e o recebimento de mensagens.

A causa raiz do incidente estava na ausência de um serviço utilizado pela nossa infraestrutura de servidores. Ele sofreu uma instabilidade em seu repositório de distribuição que afetou diversos sistemas ao redor do mundo.

Os recursos da plataforma que apresentaram lentidão e indisponibilidade dependiam desse serviço para o seu correto funcionamento.

Linha do tempo

  • 📆 11/09/2023 09:00 (GMT-3): Lentidão no sistema detectada
  • 📆 11/09/2023 11:04 (GMT-3): Identificação da causa raiz do incidente
  • 📆 11/09/2023 12:15 (GMT-3): Liberação da correção para o incidente
  • 📆 11/09/2023 12:35 (GMT-3): Normalização dos recursos afetados pelo incidente

Causa raiz do incidente

Começamos a receber relatos de lentidão em recursos como a listagem de chats durante a manhã do dia 11 de setembro de 2023.

Ao investigarmos o ocorrido, identificamos uma inconsistência na infraestrutura dos nossos servidores.

Não levou muito tempo para encontrarmos a causa raiz do incidente: um serviço utilizado pela nossa infraestrutura sofreu uma instabilidade em seu repositório de distribuição, afetando diversos sistemas ao redor do mundo. Os recursos da plataforma que apresentaram lentidão e indisponibilidade dependiam desse serviço para o seu correto funcionamento.

Devido ao impacto global, os desenvolvedores do serviço chegaram a emitir uma notificação pública do incidente.

Impacto

Identificamos que o incidente impactou recursos como:

  • Execução de flows que envolviam a criação de chats
  • Recebimento de mensagens
  • Listagem de chats
  • Listagem de mensagens

Plano de ação

Aplicamos uma atualização em nossa infraestrutura para provisionar os ambientes usando uma solução alternativa que não dependesse do serviço em instabilidade.

Liberamos uma primeira versão estável às 12:15 do dia 11 de setembro de 2023, cerca de 3h após o início do incidente. Nesse mesmo dia, validamos com sucesso a correção, às 12:35.

Mensagem da equipe

Pedimos desculpas pelo transtorno que causamos a você e reiteramos que estamos trabalhando para melhorar cada vez mais a segurança e a estabilidade da nossa plataforma.

Posted Sep 15, 2023 - 15:13 GMT-03:00

Resolved
Conseguimos validar a correção, a listagem dos chats e de mensagens foi normalizado.
Iremos trazer um Post Mortem (resumo detalhado sobre o incidente) explicando sobre o que ocorre e sobre a solução aplicada.
Posted Sep 11, 2023 - 12:35 GMT-03:00
Monitoring
Acabamos de lançar uma correção, estamos validando se já normalizou, em breve traremos mais detalhes sobre o ocorrido.
Posted Sep 11, 2023 - 12:15 GMT-03:00
Identified
Já estamos liberando uma solução para o incidente.
Posted Sep 11, 2023 - 11:14 GMT-03:00
Update
Devido a um problema na extensão do PHP que usamos, você pode ter problemas para carregar chats e mensagens na nossa plataforma de atendimento. Para acompanhar a situação desse incidente, acesse o link:

https://news-web.php.net/php.internals/121040

Lamentamos o inconveniente e agradecemos a sua compreensão. Estamos trabalhando para solucionar o problema o quanto antes.
Posted Sep 11, 2023 - 11:04 GMT-03:00
Investigating
Estamos com uma instabilidade na listagem dos chats e de mensagens, já estamos investigando com prioridade.
Posted Sep 11, 2023 - 09:00 GMT-03:00
This incident affected: Core.