Escrito por: Kevin Willms, gerente sénior de ingeniería de confiabilidad de operaciones en la nube y Matthew Campbell, vicepresidente de plataforma en la nube
En D2L, nos comprometemos a garantizar que los usuarios tengan la mejor experiencia posible, y eso comienza con la disponibilidad. Por disponibilidad, nos referimos a la medida de la disponibilidad de nuestros productos y servicios para que nuestros clientes los utilicen cuando quieran utilizarlos. Un dicho común en D2L es: "La característica más importante es la disponibilidad". Si bien trabajamos arduamente para proporcionar nuevas funcionalidades y características emocionantes, el hecho es que si el sistema no funciona, ninguna de estas capacidades importa.
Es por esa razón que existe el equipo de Ingeniería de Confiabilidad de Operaciones en la Nube (CORE), que opera desde Kitchener, Canadá y Melbourne, Australia. Buscamos constantemente oportunidades para mejorar la estabilidad de la plataforma Brightspace, así como para aumentar nuestra visibilidad sobre el estado de todos los aspectos del sistema. Este compromiso con el rendimiento ha dado como resultado que superemos constantemente nuestro compromiso de disponibilidad mensual del 99,9 % y, a menudo, también superemos los cinco 9.
Aburrido y sin incidentes
Por lo general, no es como queremos que piense sobre la plataforma Brightspace, pero cuando se trata de disponibilidad, especialmente durante las temporadas más ocupadas, ¡así es como queremos que describa su experiencia con nosotros! Nuestro objetivo es demostrar constantemente que podemos apoyarte a ti y a tus alumnos para que la disponibilidad y el rendimiento de tu LMS no sea algo que ocupe tu tiempo o te mantenga despierto por la noche.
Abriendo el telón... Un poco
Si bien no podemos revelar todos nuestros secretos, podemos compartir que hacemos uso de las tecnologías de escalado automático de AWS, lo que nos permite aprovisionar rápidamente recursos adicionales cuando notamos un mayor uso. También hemos diseñado nuestros sistemas para que sean redundantes y resistentes, de modo que cuando se produzcan errores informáticos inesperados e impredecibles, podamos seguir proporcionando una experiencia fluida a sus usuarios con conmutaciones por error inmediatas a los recursos en buen estado.
El equipo de CORE también monitorea y revisa constantemente las alertas para validar que nuestros sistemas se están escalando correctamente. Si es necesario, podemos realizar ajustes para garantizar que Brightspace continúe funcionando de manera óptima.
Si bien el escalado automático y un buen diseño arquitectónico son una buena base, cuando surgen problemas inesperados, nuestro equipo CORE está listo para responder las 24 horas del día, los 7 días de la semana y trabajará con los equipos necesarios hasta que se resuelva el problema, manteniéndolo a usted y a sus usuarios informados en todo momento a través del Página de estado de D2L.
También hemos emprendido un viaje para estandarizar la observabilidad y el monitoreo en toda la infraestructura y los servicios que proporciona D2L para proporcionar un nivel constante de excelencia en todo lo que D2L construye.
Hay más mejoras en camino en los próximos meses para garantizar que podamos responder aún más rápido a los cambios en sus patrones de uso, proporcionando a su sistema operaciones sin problemas. Estas mejoras harán que nuestra disponibilidad pase de excelente a increíble y harán que la disponibilidad de nuestro sistema sea aún más aburrida y sin incidentes. Esto significa que los educadores, estudiantes y administradores que utilizan la plataforma Brightspace pueden concentrarse en lo que realmente importa: enseñar y aprender.