À medida que o mundo se transforma digitalmente, a confiabilidade de sites, aplicativos em nuvem e infraestrutura cloud tornou-se um ponto crítico para o sucesso dos negócios. Além disso, a maneira como gerenciamos sistemas e suas cargas de trabalho também mudou. Servidores básicos são reunidos por meio da virtualização, com arquitetura de software distribuída, impedindo que interrupções causem tempo de inatividade e prejuízos. O foco agora é a infraestrutura digital e eficiência.
Em busca de melhorias estratégias em suas operações, um de nossos clientes, considerado a maior instituição financeira da América Latina e uma das maiores do mundo, procurou o time de especialistas da Inmetrics. O banco possuía um ecossistema digital com várias tecnologias integradas e, por isso, apresentamos a metodologia SRE como a solução ideal para que a squad da Instituição responsável pelo projeto do PIX pudesse focar em áreas estratégicas, alcançando o time to market estipulado, sem comprometer a qualidade da entrega. Assim, o time de especialistas da Inmetrics foi alocado em nosso cliente para estruturar e implementar o modelo ideal de monitoramento SRE nas operações da squad em questão.
Site Reliability Engineering (SRE) é uma abordagem para operações que garante que aplicações contínuas sejam executadas de forma eficiente e confiável, através de soluções de automação e engenharia de software. O conceito-chave é a engenharia, que inclui uma abordagem orientada a dados para operações, uma cultura de automação para aumentar a eficiência e reduzir riscos e uma metodologia orientada por hipóteses em tarefas de incidente, desempenho e capacidade.
A metodologia SRE é adaptável e pode ser incluída em qualquer squad de uma empresa, de acordo com a demanda, a maturidade ou a necessidade dessas equipes. Por isso, a fase inicial do nosso projeto de monitoramento nesta Instituição financeira se desenvolveu da seguinte forma:
• Identificamos as oportunidades de melhorias e entendemos qual era o cenário específico daquele ambiente de tecnologia ao lado da squad responsável pelo projeto do PIX.
• A partir disso, fizemos o levantamento de suas principais necessidades.
• Estruturamos um plano de ação a partir de reuniões de brainstorm, em que constatamos as possibilidades de evolução, e definimos as estratégias para aquele ambiente de produção.
• Iniciamos a fase de implementação das disciplinas de engenharia de confiabilidade de sites (SRE) de acordo com a maturidade e o foco da squad em questão.
A partir daí, definimos nossa metodologia de implementação e os principais objetivos que trilharíamos junto com o time do nosso cliente. Da base ao topo da pirâmide, temos os direcionamentos dos especialistas da Inmetrics:
Comprovação final da experiência do usuário em relação aos produtos e serviços do nosso cliente via monitoração inteligente
Correlação de dados, geração e validação dos modelos matemáticos, projeção de consumo, análise de limitantes e relatório de melhorias com SLA garantida
Inserção de falhas coordenadas, monitoria de resultado e criação de gates de resiliência sistêmica na solução da aplicação
Concentrar e estruturar logs de eventos e relatórios. Definir, melhorar e integrar dashboards de infra, negócios e APM
Concentrar e estruturar logs de eventos e relatórios. Definir, melhorar e integrar dashboards de infra, negócios e APM
Definição de SLIs & SLOs, instrumentação de serviços críticos, criação de alertas e automação no processo de resposta a falhas
Brainstorm inicial com equipes envolvidas, refinamentos de processos e mapeamento total do sistema
Nossos especialistas trouxeram às operações da squad responsável pelo projeto PIX os princípios de SRE para lidar com problemas de infraestrutura e automatização de processos. Fomos responsáveis por desenvolver planos de desempenho, estratégia e otimização para essas operações.
Logo nas etapas iniciais de implementação da metodologia SRE, os seguintes ganhos puderam ser observados:
Além disso, com a implementação do monitoramento SRE nas operações da squad, conferimos maior observabilidade aos sistemas e diminuímos consideravelmente o tempo gasto com a execução de tarefas diárias, como troubleshootings pontuais e war rooms, pois trouxemos insights e informações precisas, que efetivamente agregaram valor aos processos do nosso cliente.
RESOLUÇÃO DE TICKETS COMPLETOS
Tempo de esforço reduzido durante o processo de troubleshooting na tratativa de tickets
WAR ROOMS
Tempo médio gasto em war rooms reduzido de forma exponencial
Somos especialistas em qualidade de software, reconhecidos como uma empresa líder em Continuous Testing no ISG Provider Lens ™️ Next-Gen ADM Services Brazil 2022 e destaque em mais dois quadrantes do estudo, como Product Challenger em Application Quality Assurance e Contender em Agile Application Development Projects.
Cookie | Duração | Descrição |
---|---|---|
cookielawinfo-checkbox-analytics | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics". |
cookielawinfo-checkbox-functional | 11 months | The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional". |
cookielawinfo-checkbox-necessary | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary". |
cookielawinfo-checkbox-others | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other. |
cookielawinfo-checkbox-performance | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance". |
viewed_cookie_policy | 11 months | The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data. |