PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Heim-Server stürzt willkürlich nach mehreren Tagen Laufzeit ab...



AndreasMeier
13.09.15, 13:04
Hallo zusammen,

ich quäle mich seit geraumer Zeit mit für mich nicht nachvollziehbaren Abstürzen auf meinem Heimserver herum.

Auf dem Server lief normalerweise Apache2, MySQL, Owncloud 8.1 sowie Postfix/Cyrus - unter Debian Wheezy.

Nach dem Update auf Debian Jessy wollte ich auf Postfix/Dovecot umstellen, was aber noch nicht lauffähig ist.
Die Abstürze kommen trotz dass die Dienste für Postfix und Dovecot angehalten wurden.
Es spielt auch keine Rolle, ob der Server nur im Konsolenmodus läuft oder ob ne X-Oberfläche gestartet wurde.
Die Abstürze treten nach mehreren Tagen Laufzeit auf.

Im Syslog finde ich nur massenweise systemd-Aktivitäten, aber keine sichtbaren "Fehler":


Aug 30 01:30:06 server systemd[20660]: Stopping Default.
Aug 30 01:30:06 server systemd[20660]: Stopped target Default.
Aug 30 01:30:06 server systemd[20660]: Stopping Basic System.
Aug 30 01:30:06 server systemd[20660]: Stopped target Basic System.
Aug 30 01:30:06 server systemd[20660]: Stopping Paths.
Aug 30 01:30:06 server systemd[20660]: Stopped target Paths.
Aug 30 01:30:06 server systemd[20660]: Stopping Timers.
Aug 30 01:30:06 server systemd[20660]: Stopped target Timers.
Aug 30 01:30:06 server systemd[20660]: Stopping Sockets.
Aug 30 01:30:06 server systemd[20660]: Stopped target Sockets.
Aug 30 01:30:06 server systemd[20660]: Starting Shutdown.
Aug 30 01:30:06 server systemd[20660]: Reached target Shutdown.
Aug 30 01:30:06 server systemd[20660]: Starting Exit the Session...
Aug 30 01:30:06 server systemd[20660]: Received SIGRTMIN+24 from PID 20666 (kill).
Aug 30 01:30:25 server smartd[757]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 99 to 98
Aug 30 01:35:02 server systemd[20907]: Starting Paths.
Aug 30 01:35:02 server systemd[20907]: Reached target Paths.
Aug 30 01:35:02 server systemd[20907]: Starting Timers.
Aug 30 01:35:02 server systemd[20907]: Reached target Timers.
Aug 30 01:35:03 server systemd[20907]: Starting Sockets.
Aug 30 01:35:03 server systemd[20907]: Reached target Sockets.
Aug 30 01:35:03 server systemd[20907]: Starting Basic System.
Aug 30 01:35:03 server systemd[20907]: Reached target Basic System.
Aug 30 01:35:03 server systemd[20907]: Starting Default.
Aug 30 01:35:03 server systemd[20907]: Reached target Default.
Aug 30 01:35:03 server systemd[20907]: Startup finished in 37ms.
Aug 30 01:35:03 server systemd[20907]: Stopping Default.
Aug 30 01:35:03 server systemd[20907]: Stopped target Default.
Aug 30 01:35:03 server systemd[20907]: Stopping Basic System.
Aug 30 01:35:03 server systemd[20907]: Stopped target Basic System.
Aug 30 01:35:03 server systemd[20907]: Stopping Paths.
Aug 30 01:35:03 server systemd[20907]: Stopped target Paths.
Aug 30 01:35:03 server systemd[20907]: Stopping Timers.
Aug 30 01:35:03 server systemd[20907]: Stopped target Timers.
Aug 30 01:35:03 server systemd[20907]: Stopping Sockets.
Aug 30 01:35:03 server systemd[20907]: Stopped target Sockets.
Aug 30 01:35:03 server systemd[20907]: Starting Shutdown.
Aug 30 01:35:03 server systemd[20907]: Reached target Shutdown.
Aug 30 01:35:03 server systemd[20907]: Starting Exit the Session...
Aug 30 01:35:03 server systemd[20907]: Received SIGRTMIN+24 from PID 20914 (kill).
Aug 30 01:35:03 server systemd[20918]: Starting Paths.
Aug 30 01:35:03 server systemd[20918]: Reached target Paths.
Aug 30 01:35:03 server systemd[20918]: Starting Timers.
Aug 30 01:35:03 server systemd[20918]: Reached target Timers.
Aug 30 01:35:03 server systemd[20918]: Starting Sockets.
Aug 30 01:35:03 server systemd[20918]: Reached target Sockets.
Aug 30 01:35:03 server systemd[20918]: Starting Basic System.
Aug 30 01:35:03 server systemd[20918]: Reached target Basic System.
Aug 30 01:35:03 server systemd[20918]: Starting Default.
Aug 30 01:35:03 server systemd[20918]: Reached target Default.
Aug 30 01:35:03 server systemd[20918]: Startup finished in 35ms.
Aug 30 01:35:03 server systemd[20918]: Stopping Default.
Aug 30 01:35:03 server systemd[20918]: Stopped target Default.
Aug 30 01:35:03 server systemd[20918]: Stopping Basic System.
Aug 30 01:35:03 server systemd[20918]: Stopped target Basic System.
Aug 30 01:35:03 server systemd[20918]: Stopping Paths.
Aug 30 01:35:03 server systemd[20918]: Stopped target Paths.
Aug 30 01:35:03 server systemd[20918]: Stopping Timers.
Aug 30 01:35:03 server systemd[20918]: Stopped target Timers.
Aug 30 01:35:03 server systemd[20918]: Stopping Sockets.
Aug 30 01:35:03 server systemd[20918]: Stopped target Sockets.
Aug 30 01:35:03 server systemd[20918]: Starting Shutdown.
Aug 30 01:35:03 server systemd[20918]: Reached target Shutdown.
Aug 30 01:35:03 server systemd[20918]: Starting Exit the Session...
Aug 30 01:35:03 server systemd[20918]: Received SIGRTMIN+24 from PID 20925 (kill).
Aug 30 01:35:04 server systemd[20929]: Starting Paths.
Aug 30 01:35:04 server systemd[20929]: Reached target Paths.
Aug 30 01:35:04 server systemd[20929]: Starting Timers.
Aug 30 01:35:04 server systemd[20929]: Reached target Timers.
Aug 30 01:35:04 server systemd[20929]: Starting Sockets.
Aug 30 01:35:04 server systemd[20929]: Reached target Sockets.
Aug 30 01:35:04 server systemd[20929]: Starting Basic System.
Aug 30 01:35:04 server systemd[20929]: Reached target Basic System.
Aug 30 01:35:04 server systemd[20929]: Starting Default.
Aug 30 01:35:04 server systemd[20929]: Reached target Default.
Aug 30 01:35:04 server systemd[20929]: Startup finished in 46ms.
Aug 30 01:35:04 server systemd[20929]: Stopping Default.
Aug 30 01:35:04 server systemd[20929]: Stopped target Default.
Aug 30 01:35:04 server systemd[20929]: Stopping Basic System.
Aug 30 01:35:04 server systemd[20929]: Stopped target Basic System.
Aug 30 01:35:04 server systemd[20929]: Stopping Paths.
Aug 30 01:35:04 server systemd[20929]: Stopped target Paths.
Aug 30 01:35:04 server systemd[20929]: Stopping Timers.
Aug 30 01:35:04 server systemd[20929]: Stopped target Timers.
Aug 30 01:35:04 server systemd[20929]: Stopping Sockets.
Aug 30 01:35:04 server systemd[20929]: Stopped target Sockets.
Aug 30 01:35:04 server systemd[20929]: Starting Shutdown.
Aug 30 01:35:04 server systemd[20929]: Reached target Shutdown.
Aug 30 01:35:04 server systemd[20929]: Starting Exit the Session...
Aug 30 01:35:04 server systemd[20929]: Received SIGRTMIN+24 from PID 20935 (kill).
Aug 30 01:39:01 server CRON[21094]: (root) CMD ( [ -x /usr/lib/php5/sessionclean ] && /usr/lib/php5/sessionclean)


Memtest hab ich bereits durchlaufen lassen - ohne das Probleme festgestellt werden konnten.
Ich hatte auch die Vermutung, dass die noch nicht vollständig lauffähige Umstellung auf Dovecot die Probleme verursacht - darum hab ich die Dienste auch angehalten.
Aber wie gesagt, die Abstürze treten trotzdem auf.

Habt ihr bitte Tipps für mich, wie ich dem Problem auf den Grund gehen kann?

Vielen Dank im voraus,
Gruß
Andreas

corresponder
13.09.15, 13:52
Aug 30 01:30:25 server smartd[757]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 99 to 98

wird der zu heiss?
haste lm-sensors drauf und gkrellm?

gruss

c.

AndreasMeier
03.10.15, 18:19
Hm, ja ich werte die Temperatur aus...
Am Tag des Absturzes (29.August) lag die Temperatur
- der CPU bei 52 Grad
- der HDD zwischen 44 und 46 Grad

Das Board ist ein VIA Epia PicoITX, 1GHz.
Die Festplatte eine 3,5" Western Digital, SATA, ca. 6 Jahre alt, nix besonderes.

Klar war es in der Zeit um den Absturz insgesamt ziemlich heiß.

Die Temperaturen jetzt heute aktuell liegen bei
- der CPU bei 48 Grad
- der HDD zwischen 40 Grad

Ob das jetzt so die Unterschiede sind, um den Rechner zum Absturz zu bringen, kann ich nicht einschätzen...

marce
03.10.15, 18:27
Klingt grundsätzlich eher nach einem Hardwareproblem.

Reagiert nach dem Absturz auf dem Systme noch irgendwas (Tastatur-LEDs, Strg-Alt-Entf, ...)?

Ein Test ob's evtl. doch Software ist - lass die Kiste mal mit einem anderen OS laufen (bel. LiveCD) oder auch einfach mal nur im BIOS stehen lassen - wenn's dann auch auftritt hast Du def ein Hardwareproblem. Dann kann man die üblichen Eskalationsschritte durchspielen (alles raus, Stück für Stück wieder rein, ...) oder einfach mal pauschal, so möglich und verfügbar, Komponenten tauschen. Anfangen würde ich beim Netzteil.

AndreasMeier
07.10.15, 13:03
Speicher mit Memtest mehrfach durchgetestet - ergab schonmal keine Fehler...

BetterWorld
07.10.15, 14:41
Debian Jessie verwendet systemd
Da ist es ein wenig komplizierter die Syslogs zu lesen, bietet aber viel mehr. (auch forensisch sicheres Logging mittels ForwardSealing)

Der Befehl dazu ist journalctl
Je nach Konfiguration in den möglichen Dateien
/etc/systemd/journald.conf
/etc/systemd/journald.conf.d/*.conf
/run/systemd/journald.conf.d/*.conf
/usr/lib/systemd/journald.conf.d/*.conf
wirst du fündig, oder nicht.

Einiges zum Nachlesen bieten diese Links:
http://www.freedesktop.org/software/systemd/man/journalctl.html
http://www.freedesktop.org/software/systemd/man/systemd-journald.service.html

Konkret -falls halt so konfiguriert- könntest du folgendes versuchen:
Suche aus dem Journal einen Zeitpunkt, kurz VOR dem Reboot. Notiere die Zeit -je nach Konfig- sowas wie: "Okt 07 12:22:57"
und versuche dann den Befehl
journaltctl -a | sed -rn '/Okt 07 10/,/Runtime journal is using/pDas sollte ALLE Meldungen vor dem Shutdown kurz nach Neustart herausfiltern.

NOTE: Der Zeitstempel war Okt 07 12:22..... Der Befehl zeigt schon zwei Stunden früher an Okt 07 10