Escrito por: Kevin Willms, gerente sênior de engenharia de confiabilidade de operações em nuvem e Matthew Campbell, vice-presidente de plataforma de nuvem
Na D2L, estamos comprometidos em garantir que seus usuários tenham a melhor experiência possível, e isso começa com a disponibilidade. Por disponibilidade, estamos nos referindo à medida de quão disponíveis nossos produtos e serviços estão para nossos clientes usarem quando quiserem. Um ditado comum na D2L é: "O recurso mais importante é a disponibilidade". Embora trabalhemos duro para fornecer novas funcionalidades e recursos interessantes, o fato é que, se o sistema estiver inativo, nenhum desses recursos importa.
É por esse motivo que existe a equipe de Engenharia de Confiabilidade de Operações em Nuvem (CORE), que opera em Kitchener, Canadá e Melbourne, Austrália. Estamos constantemente procurando oportunidades para melhorar a estabilidade da plataforma Brightspace, bem como aumentar nossa visibilidade da integridade de todos os aspectos do sistema. Esse compromisso com o desempenho resultou em superarmos consistentemente nosso compromisso mensal de disponibilidade de 99,9% e, muitas vezes, superando até cinco 9s também.
Chato e sem intercorrências
Normalmente não é como queremos que você pense sobre a plataforma Brightspace, mas quando se trata de disponibilidade, especialmente durante as temporadas mais movimentadas, é assim que queremos que você descreva sua experiência conosco! Nosso objetivo é demonstrar consistentemente que podemos apoiar você e seus alunos para que a disponibilidade e o desempenho do seu LMS não sejam algo que ocupe seu tempo ou o mantenha acordado à noite.
Puxando a cortina... Um pouco
Embora não possamos divulgar todos os nossos segredos, podemos compartilhar que usamos as tecnologias de escalabilidade automática da AWS, o que nos permite provisionar rapidamente recursos adicionais quando notamos um aumento no uso. Também projetamos nossos sistemas para serem redundantes e resilientes para que, quando ocorrerem falhas inesperadas e imprevisíveis no computador, possamos continuar a fornecer uma experiência perfeita aos usuários com failovers imediatos para recursos íntegros.
A equipe do CORE também está constantemente monitorando e revisando alertas para validar se nossos sistemas estão sendo dimensionados adequadamente. Se necessário, podemos realizar ajustes para garantir que o Brightspace continue operando de maneira ideal.
Embora o dimensionamento automático e um bom design arquitetônico sejam uma boa base, quando surgem problemas inesperados, nossa equipe CORE está pronta para responder 24 horas por dia, 7 dias por semana e trabalhará com as equipes necessárias até que o problema seja resolvido, mantendo você e seus usuários informados por meio do Página de status da D2L.
Também estamos em uma jornada para padronizar a observabilidade e o monitoramento em toda a infraestrutura e serviços que a D2L fornece para fornecer um nível consistente de excelência em tudo o que a D2L cria.
Há mais melhorias a caminho nos próximos meses para garantir que possamos responder ainda mais rapidamente às mudanças em seus padrões de uso, proporcionando ao seu sistema operações tranquilas. Essas melhorias aumentarão nossa disponibilidade de excelente para incrível e tornarão a disponibilidade do sistema ainda mais chata e monótona. Isso significa que os educadores, alunos e administradores que usam a plataforma Brightspace podem se concentrar no que realmente importa: ensinar e aprender.