Lentidão no processamento de execução de Flow via API
Incident Report for Huggy
Postmortem

Sumário

Este relatório reúne informações do incidente que impactou a plataforma Huggy nos dias 15 e 16 de abril de 2024.

Identificamos que a rota da nossa API que permite executar o Flow em um contato ou chat sofreu um atraso no tempo de resposta devido ao alto volume de requisições simultâneas enviadas em um curto intervalo de tempo.

Normalizamos o funcionamento da plataforma Huggy às 12:57 do dia 16 de abril de 2024. Algumas contas afetadas pelo incidente podem ter notado um atraso em tarefas agendadas após a solução do ocorrido.

Linha do tempo

  • 📆 10/04/2024 14:00 (GMT-3): Descoberta da causa raiz do incidente
  • 📆 11/04/2024 17:30 (GMT-3): Liberação de correção
  • 📆 11/04/2024 19:30 (GMT-3): Normalização da plataforma
  • 📆 15/04/2024 12:30 (GMT-3): Primeira recorrência da instabilidade
  • 📆 15/04/2024 16:00 (GMT-3): Normalização da plataforma
  • 📆 16/04/2024 12:26 (GMT-3): Segunda recorrência da instabilidade
  • 📆 16/04/2024 12:57 (GMT-3): Correção crítica do sistema

Causa raiz do incidente

A rota da nossa API que permite executar o Flow em um contato ou chat passou por uma instabilidade devido ao alto volume de requisições simultâneas enviadas em um curto intervalo de tempo.

Impacto

O ocorrido afetou o tempo de resposta dessa rota da API e de algumas integrações da Huggy, como a Voalle e o Automator.

Alguns usuários tentaram refazer as chamadas à API quando observaram uma aparente falha no processamento, gerando o envio de mensagens duplicadas no momento em que estabilizamos o funcionamento da plataforma.

Ressaltamos que, mesmo diante de instabilidades como essa, nosso sistema garante que todas as solicitações de API sejam processadas sem perdas — por isso, a entrega vai acontecer, mesmo que haja um atraso envolvido.

Após o incidente, algumas contas podem ter notado uma lentidão em automações do Flow que envolvem o agendamento de tarefas (quando usam a ação Pausar e Aguardar interação, por exemplo).

Plano de ação

Aplicamos uma otimização na fila de processamento das chamadas associadas a essa rota da API, permitindo que os servidores processassem mais itens em paralelo. Isso ajudou a reduzir a sobrecarga do sistema e a contornar o impacto do incidente.

Se você trabalha com operações em massa de envio de mensagens, é esperado que o tempo de processamento seja um pouco maior do que o normal. Entretanto, estamos nos empenhando para minimizar essa diferença e permitir que a sua experiência conosco seja a melhor possível.

Posted Apr 22, 2024 - 11:14 GMT-03:00

Resolved
No início da tarde de hoje enfrentamos um pico de mensagens em nossa fila de processamento de execução de fluxos via API. Após implementarmos melhorias em nossos servidores, houve a normalização da fila e no processamento de todas as mensagens.

É importante destacar que nenhuma mensagem foi perdida durante esse período.

Estamos monitorando de perto a situação e trabalhando para normalizar o fluxo de execução. Pedimos desculpas por qualquer inconveniente causado e agradecemos sua compreensão.
Posted Apr 16, 2024 - 12:57 GMT-03:00
Investigating
Estamos analisando uma instabilidade em nossa fila de processamento de execução de flow via API, o caso está sendo tratado com prioridade máxima pela equipe.

A lentidão está afetando exclusivamente o recurso de execução de Flow via API e algumas integrações, como Automator e Voalle por exemplo.

Isso significa que algumas mensagens enviadas pela execução de flow via API podem levar um pouco mais de tempo para serem entregue nesse momento.
Posted Apr 16, 2024 - 12:26 GMT-03:00
This incident affected: API.