Proxmox nach Cluster „crash“ wiederherstellen
Nachdem ich die IP eines Nodes in meinem Proxmox Clusters in ein anderes Subnetz ändern musste, kam es zu einem kompletten Crash. (Steht auch in der Anleitung, dass man es nicht tun soll. Doku? Liest man immer erst nachher.)
Danach kamen bei jedem Startversuch Meldungen wie:
„Connection error 401: permission denied – invalid PVE ticket„,
„cluster not ready – no quorum? (500)“ usw. usw.
kurz: bei jedem Klick ne andere Meldung 🙁 Auf jeden Fall scheint der corosync komplett kaputt zu sein.
Was ich dazu gefunden habe ist dieser KB-Eintrag.
https://pve.proxmox.com/pve-docs/pve-admin-guide.html#_remove_a_cluster_node
Meine Lösung orientiert sich daran.
Kein Backup – Kein Mitleid
An einem Neuaufbau des Clusters wird wohl nichts vorbeiführen. Wohl dem, der ein aktuelles Backup hat. Lasst uns schnell noch eins machen 😉
Erst mal den Cluster stoppen.
systemctl stop pve-cluster
systemctl stop corosync # ist eh im Eimer
# Cluster / Node im Local Mode starten
pmxcfs -l

Wenn hier kein Fehler kommt – Glück gehabt! – Die lokale Node läuft und man kann sich über das Webinterface einloggen.


a
Jackpot – Backup hat funktioniert – Das machen wir jetzt für alle Container/LCX/VMs.
J
Point of no Return
Jetzt wird die Cluster Konfiguration von allen Nodes gelöscht.
rm /etc/pve/corosync.conf
rm -r /etc/corosync/*
killall pmxcfs
systemctl start pve-cluster

Da sich die Konfigurationsdateien der anderen Nodes noch im Cluster-Dateisystem befinden, müssen diese auch bereinigt werden. Also wieder auf allen Nodes einloggen. Nachdem wir uns dann 10x vergewissert haben, dass wir den richtigen Node-Namen haben, können wir die anderen Verzeichnisse rekursiv löschen.
rm -r /etc/pve/nodes/NODENAME
Jetzt rebooten wir mal alle Maschinen um zu sehen ob sie wieder wie gewohnt hochfahren und starten

Wenn es so aussieht haben wir gewonnen und unser Proxmox läuft wieder.
Jetzt können wir den Cluster neu aufsetzen.
https://www.hagenfragen.de/linux-tipps/proxmox/neuen-server-zu-proxmox-cluster-hinzufugen.html
Zum Schluss noch ein mieser Hack
Wenn ihr die Meldung „* this host already contains virtual guests“ erhaltet, könnt Ihr euren alten Cluster nicht mehr zusammenbauen.
Es ist laut Doku nicht möglich Server mit existierenden/laufenden LXCs/VMs in einen Cluster einzubinden. Konsistenz-Gründe und so… ist auch gut so! …. wenn man es trotzdem tun möchte… stoppe alle Nodes … geh nach /etc/pve/nodes/pve/
cd /etc/pve/nodes/NODENAME/
# bei mir
cd /etc/pve/nodes/pve/

und verschiebe alles unter lxc, openvz qemu-server in ein temp dir
Verbinde den Server mit dem Cluster
und kopiere danach alles wieder zurück.

Fazit: Nach der Aktion muss ich wieder mal sagen, was Proxmox für ein geiles und unkaputtbares System ist! Danke an die Macher!
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!