Mettre en place des procédures de surveillance et de maintenance pour garantir que votre cluster reste sain et fonctionne de manière optimale au fil du temps.
Configurer la journalisation du cluster pour le dépannage :
# Activer la journalisation du cluster
Get-ClusterLog -Destination "C:\ClusterLogs" -TimeSpan 60
# Configurer la collecte automatique des journaux
Set-ClusterParameter -Name ClusterLogLevel -Value 3
Set-ClusterParameter -Name ClusterLogSize -Value 1024
Mettre en place la surveillance des performances :
# Créer un collecteur de données de compteur de performance
$DataCollectorSet = "Hyper-V Cluster Performance"
logman create counter $DataCollectorSet -f bincirc -max 500 -c "\Hyper-V Hypervisor\*" "\Cluster CSV File System\*" "\Process(vmms)\*" -si 00:01:00
Configurer la mise à jour consciente du cluster pour le patching automatisé :
# Installer la fonctionnalité de mise à jour consciente du cluster
Install-WindowsFeature -Name RSAT-Clustering-CmdInterface, RSAT-Clustering-PowerShell
# Configurer le mode de mise à jour automatique CAU
Add-CauClusterRole -ClusterName "HV-CLUSTER01" -MaxFailedNodes 0 -RequireAllNodesOnline
# Définir le calendrier de mise à jour (premier mardi de chaque mois à 3h du matin)
Set-CauClusterRole -ClusterName "HV-CLUSTER01" -StartDate "2026-04-01 03:00:00" -DaysOfWeek Tuesday -WeeksOfMonth First
Créer des scripts de maintenance pour des vérifications régulières de l'état :
# Script de vérification de l'état du cluster
function Test-ClusterHealth {
$Results = @{}
$Results.ClusterStatus = (Get-Cluster).State
$Results.NodeStatus = Get-ClusterNode | Select-Object Name, State
$Results.ResourceStatus = Get-ClusterResource | Where-Object State -ne "Online" | Select-Object Name, State, OwnerNode
$Results.CSVStatus = Get-ClusterSharedVolume | Select-Object Name, State
$Results.QuorumStatus = Get-ClusterQuorum
return $Results
}
# Exécuter la vérification de l'état
$Health = Test-ClusterHealth
$Health | ConvertTo-Json -Depth 3
Avertissement : Testez toujours les mises à jour du cluster dans un environnement non productif d'abord. CAU peut causer des temps d'arrêt prolongés s'il n'est pas correctement configuré.
Vérification : Exécutez Get-ClusterResource | Where-Object State -ne "Online" pour identifier les ressources de cluster échouées nécessitant une attention.