Notre plus gros cluster Kubernetes est on-premise, il fait fonctionner plus de 145 pods réparti sur 6 nœuds. Il s’agit d’un cluster très hétérogène avec des machines x64 et arm64 comprenant des cartes graphiques Cuda pour l’apprentissage et l’inférence de réseau de neurones. Le stockage est assuré par un cluster Ceph (rook-ceph) permettant une redondance des données, un meilleur usage de l’espace disque et de meilleure performance que le RAID. L’ensemble de notre cluster Ceph a un backup différentiel régulier sur une machine distante permettant de récupérer les données en cas de crash global du cluster.
Depuis l’incendie dans le datacenter OVH de Strasbourg de mars 2021, Weaverize ne se base plus sur OVH comme cloud provider primaire. Une stratégie cloud hybride a été mise en place avec des serveurs on-premise et au besoin des instances Public Cloud d’OVH viennent renforcée ponctuellement le cluster en cas de pic de charge. Nous sommes en train d’étendre ce mécanisme a d’autres cloud provider (Azure, AWS…) pour nous prémunir de la défaillance d’un seul cloud provider.