Écrit par : Kevin Willms, senior Cloud Operations Reliability Engineering Manager et Matthew Campbell, VP Cloud Platform
Chez D2L, nous nous engageons à faire en sorte que vos utilisateurs aient la meilleure expérience possible, et cela commence par la disponibilité. Par disponibilité, nous faisons référence à la mesure de la disponibilité de nos produits et services pour nos clients lorsqu’ils souhaitent les utiliser. Un dicton commun à D2L est, « La caractéristique la plus importante est la disponibilité. » Bien que nous travaillions dur pour fournir de nouvelles fonctionnalités et fonctionnalités intéressantes, le fait demeure que si le système est en panne, aucune de ces capacités n’a d’importance.
C’est pour cette raison que l’équipe d’ingénierie de la fiabilité des opérations cloud (CORE) existe, qui opère à partir de Kitchener, au Canada et de Melbourne, en Australie. Nous sommes constamment à la recherche d’opportunités pour améliorer la stabilité de la plate-forme Brightspace ainsi que d’augmenter notre visibilité sur la santé de tous les aspects du système. Cet engagement envers la performance nous a permis de dépasser constamment notre engagement mensuel de disponibilité de 99,9% et souvent de dépasser et même cinq 9.
Ennuyeux et sans incident
Pas habituellement comment nous voulons que vous pensiez à la plate-forme Brightspace, mais quand il s’agit de disponibilité, en particulier pendant vos saisons les plus occupées, c’est ainsi que nous voulons que vous décriviez votre expérience avec nous ! Nous visons à démontrer constamment que nous pouvons vous soutenir, vous et vos apprenants, afin que la disponibilité et les performances de votre LMS ne soient pas quelque chose qui occupe votre temps ou vous empêche de rester la nuit.
Tirer le rideau... Un peu
Bien que nous ne puissions pas divulguer tous nos secrets, nous pouvons partager que nous utilisons les technologies de mise à l’échelle automatique AWS, ce qui nous permet de fournir rapidement des ressources supplémentaires lorsque nous remarquons une utilisation accrue. Nous avons également conçu nos systèmes pour qu’ils soient redondants et résilients afin qu’en cas de défaillances informatiques inattendues et imprévisibles, nous puissions continuer à fournir une expérience transparente à vos utilisateurs avec des basculements immédiats vers des ressources saines.
L’équipe CORE surveille et examine également constamment les alertes pour valider que nos systèmes sont mis à l’échelle de manière appropriée. Si nécessaire, nous pouvons effectuer des ajustements pour nous assurer que Brightspace continue de fonctionner de manière optimale.
Bien que la mise à l’échelle automatique et une bonne conception architecturale soient de bonnes bases, lorsque des problèmes inattendus surviennent, notre équipe CORE est prête à répondre 24/7 et travaillera avec les équipes requises jusqu’à ce que le problème soit résolu, vous tenant informés, vous et vos utilisateurs, tout au long via le page d'état D2L.
Nous avons également été sur un chemin pour normaliser l’observabilité et la surveillance à travers l’ensemble de l’infrastructure et des services que D2L fournit pour fournir un niveau constant d’excellence dans tout ce que D2L construit.
Il y a d’autres améliorations sur leur chemin dans les prochains mois pour s’assurer que nous pouvons répondre encore plus rapidement aux changements dans vos modèles d’utilisation, offrant à votre système un fonctionnement fluide. Ces améliorations feront passer notre disponibilité d’excellente à incroyable et rendront la disponibilité de notre système encore plus ennuyeuse et sans incident. Cela signifie que les éducateurs, les apprenants et les administrateurs utilisant la plate-forme Brightspace peuvent se concentrer sur ce qui compte vraiment : l’enseignement et l’apprentissage.