Автор Тема: Не понятное "Зависание" системы  (Прочитано 4203 раз)

Оффлайн ZMyk

  • Участник
  • *
  • Сообщений: 124
Добрый день.
[rznykt@rznykt-xeon ~]$ uname -a
Linux rznykt-xeon.rznykt 2.6.32-el-smp-alt27 #1 SMP Tue Sep 20 19:38:45 UTC 2011 x86_64 GNU/Linux
Не понятное и не систематическое зависание системы. Помогает только принудительная перезагрузка (ресет), иногда сам перегрузится. В логах просто разрыв во времени.
Пример части лога:
May 11 10:50:01 rznykt-xeon crond[10163]: (root) CMD (/usr/lib64/sa/sa1 -S DISK 1 1)
May 11 10:52:15 rznykt-xeon named[4508]: connection refused resolving 'jebena.ananikolic.su/A/IN': 91.211.117.14#53
May 11 10:52:15 rznykt-xeon named[4508]: connection refused resolving 'jebena.ananikolic.su/A/IN': 91.211.117.146#53
May 11 10:53:42 rznykt-xeon dhcpd: DHCPDISCOVER from 00:15:17:fb:6a:54 via eth0
May 11 10:53:43 rznykt-xeon dhcpd: DHCPOFFER on 192.168.100.200 to 00:15:17:fb:6a:54 via eth0
May 11 10:53:43 rznykt-xeon dhcpd: BOOTREQUEST from 00:15:17:fb:6a:54 via eth0: BOOTP from dynamic client and no dynamic leases
May 11 10:53:48 rznykt-xeon dhcpd: DHCPREQUEST for 172.31.254.254 (10.254.254.254) from 00:15:17:fb:6a:54 via eth0: wrong network.
May 11 10:53:48 rznykt-xeon dhcpd: DHCPNAK on 172.31.254.254 to 00:15:17:fb:6a:54 via eth0
May 11 10:53:48 rznykt-xeon dhcpd: DHCPREQUEST for 172.31.254.254 from 00:15:17:fb:6a:54 via eth0: wrong network.
May 11 10:53:48 rznykt-xeon dhcpd: DHCPNAK on 172.31.254.254 to 00:15:17:fb:6a:54 via eth0
May 11 10:53:48 rznykt-xeon dhcpd: DHCPREQUEST for 172.31.254.254 from 00:15:17:fb:6a:54 via eth0: unknown lease 172.31.254.254.
May 11 10:54:45 rznykt-xeon named[4508]: connection refused resolving 'jebena.ananikolic.su/A/IN': 91.211.117.14#53
May 11 10:54:46 rznykt-xeon named[4508]: connection refused resolving 'jebena.ananikolic.su/A/IN': 91.211.117.146#53
May 11 10:57:16 rznykt-xeon named[4508]: connection refused resolving 'jebena.ananikolic.su/A/IN': 91.211.117.146#53
May 11 10:57:16 rznykt-xeon named[4508]: connection refused resolving 'jebena.ananikolic.su/A/IN': 91.211.117.14#53
тут обрыв
May 11 11:10:29 rznykt-xeon syslogd 1.4.1: restart.
May 11 11:10:29 rznykt-xeon syslogd: syslogd startup succeeded
May 11 11:10:29 rznykt-xeon kernel: klogd 1.4.1, log source = /proc/kmsg started.
May 11 11:10:30 rznykt-xeon kernel: Initializing cgroup subsys cpuset
May 11 11:10:30 rznykt-xeon kernel: Initializing cgroup subsys cpu
May 11 11:10:30 rznykt-xeon kernel: Linux version 2.6.32-el-smp-alt27 (builder@apiary.egro.altlinux.org) (gcc version 4.4.5 20101112 (ALT Linux 4.4.5-alt3) (GCC) ) #1 SMP Tue Sep 20 19:38:45 UTC 2011
May 11 11:10:30 rznykt-xeon kernel: Command line: BOOT_IMAGE=/boot/vmlinuz root=UUID=7e116dcd-3aa6-4041-b5c1-a7bfab021c82 ro vga=0x314 quiet=1 resume=/dev/disk/by-uuid/6e44f404-619d-4bd1-af89-7b8cdb7f6ddc panic=30 splash
May 11 11:10:30 rznykt-xeon kernel: KERNEL supported cpus:
May 11 11:10:30 rznykt-xeon kernel:   Intel GenuineIntel
May 11 11:10:30 rznykt-xeon kernel:   AMD AuthenticAMD
May 11 11:10:30 rznykt-xeon kernel:   Centaur CentaurHauls
May 11 11:10:30 rznykt-xeon kernel: BIOS-provided physical RAM map:
May 11 11:10:30 rznykt-xeon kernel:  BIOS-e820: 0000000000000000 - 000000000009f800 (usable)
May 11 11:10:30 rznykt-xeon kernel:  BIOS-e820: 000000000009f800 - 00000000000a0000 (reserved)
May 11 11:10:30 rznykt-xeon kernel:  BIOS-e820: 00000000000e4000 - 0000000000100000 (reserved)
May 11 11:10:30 rznykt-xeon klogd: klogd startup succeeded
May 11 11:10:30 rznykt-xeon kernel:  BIOS-e820: 0000000000100000 - 000000003ffce0e5 (usable)
May 11 11:10:30 rznykt-xeon kernel:  BIOS-e820: 000000003ffce0e5 - 000000003fff0000 (reserved)
May 11 11:10:30 rznykt-xeon kernel:  BIOS-e820: 000000003fff0000 - 000000003ffff000 (ACPI data)
May 11 11:10:30 rznykt-xeon kernel:  BIOS-e820: 000000003ffff000 - 0000000040000000 (ACPI NVS)
May 11 11:10:30 rznykt-xeon kernel:  BIOS-e820: 00000000fec00000 - 00000000fec86000 (reserved)
May 11 11:10:30 rznykt-xeon kernel:  BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved)
Причем последняя строка перед обрывом разная всякий раз. Предполагаю что это что-то с железом, но как понять что? Жесткие диски менял, температуру мониторил.... проблему это не устранило. Каким образом можно выявить причину?

Оффлайн ksa

  • Модератор глобальный
  • *****
  • Сообщений: 9 049
Re: Не понятное "Зависание" системы
« Ответ #1 : 11.05.2012 06:53:52 »
Приложите полностью лог (лучше текстовым файлом .txt) от начала загрузки (тут он есть частично) загрузки до момента ребута, а еще лучше два таких куска. ЧТо такое есть jebena.ananikolic.su и 192.168.100.200. Сдается мне, намудрено что-то с dhcp либо не на том интерфейсе слушает либ оне тот диапазон айпи. Но логи приложите.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 370
Re: Не понятное "Зависание" системы
« Ответ #2 : 11.05.2012 11:53:49 »
Не понятное и не систематическое зависание системы. Помогает только принудительная перезагрузка (ресет), иногда сам перегрузится.
А на экране что ? Не kernel panic ?

Оффлайн ZMyk

  • Участник
  • *
  • Сообщений: 124
Re: Не понятное "Зависание" системы
« Ответ #3 : 11.05.2012 13:59:09 »
Приложите полностью лог (лучше текстовым файлом .txt) от начала загрузки (тут он есть частично) загрузки до момента ребута, а еще лучше два таких куска. ЧТо такое есть jebena.ananikolic.su и 192.168.100.200. Сдается мне, намудрено что-то с dhcp либо не на том интерфейсе слушает либ оне тот диапазон айпи. Но логи приложите.
Вот /var/log/message.
192.168.100.254 это внутренний сетевой интерфейс, на нем DHCP с диапазоном 192.168.100.100-200
Приведу dhcp.cong
#auto generated by alterator-dhcp-reset

ddns-update-style interim;
ddns-updates on;
ddns-domainname "rznykt";
include "/var/lib/bind/etc/ddns-key.conf";

zone rznykt. {
primary 127.0.0.1;
key ddns-key;
}

zone 1.168.192.in-addr.arpa. {
primary 127.0.0.1;
key ddns-key;
}

zone 100.168.192.in-addr.arpa. {
primary 127.0.0.1;
key ddns-key;
}

authoritative;

option space altlinux;
option altlinux.keydata code 2 = string;
vendor-option-space altlinux;


subnet 192.168.100.0 netmask 255.255.255.0 {
option routers 192.168.100.254;
option domain-name-servers 192.168.100.254;
option domain-name "rznykt";
default-lease-time 86400;
max-lease-time 86400;
range 192.168.100.100 192.168.100.200;
}
А на экране что ? Не kernel panic ?
Монитора на нем нет, да и находится он далеко от меня, его "специально обученный человек" перезагружает. Постараюсь проверить это

Оффлайн ksa

  • Модератор глобальный
  • *****
  • Сообщений: 9 049
Re: Не понятное "Зависание" системы
« Ответ #4 : 11.05.2012 14:34:12 »
Цитировать
May  8 17:25:53 rznykt-xeon kernel: e1000: eth0 NIC Link is Up 100 Mbps Full Duplex, Flow Control: RX/TX
Если я не ошибаюсь, это говорит о восстановлении линка, то есть, линк был потерян какое-то время, потом поднялся. Из-за этого (видимо) происходят постоянные перезапуски различных сетевых сервисов.
Цитировать
Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 108 to 107
вот еще кое-то нарисовалось. Какие-то проблемы с жеским диском, которому соответсвует обозначение sdb. Дальше в логе идут слишком высокие показатели температуры для жеского диска (65 градусов, если не ошибаюсь). А еще дальше аналогичные данные для sda винта. Они действительно так сильно греются ?
PS Что предшествовало этим проблемам ? Или просто так с бухты-барахты началось ?
PS2 С батарейкой все в порядке ?

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 370
Re: Не понятное "Зависание" системы
« Ответ #5 : 11.05.2012 16:53:20 »
Монитора на нем нет, да и находится он далеко от меня, его "специально обученный человек" перезагружает.
Может помочь netconsole и syslog-сервер на соседнем компьютере.

Оффлайн ZMyk

  • Участник
  • *
  • Сообщений: 124
Re: Не понятное "Зависание" системы
« Ответ #6 : 11.05.2012 19:13:52 »
Цитировать
Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 108 to 107
вот еще кое-то нарисовалось. Какие-то проблемы с жеским диском, которому соответсвует обозначение sdb. Дальше в логе идут слишком высокие показатели температуры для жеского диска (65 градусов, если не ошибаюсь). А еще дальше аналогичные данные для sda винта. Они действительно так сильно греются ?
PS Что предшествовало этим проблемам ? Или просто так с бухты-барахты началось ?
PS2 С батарейкой все в порядке ?
Жесткие диски - это первое на что я подумал, поменял, но не помогло. И вот еще что, при установке на RAID1, собрав в md (раз 30 устанавливал за майские праздники, меняя ЖД, которых было 6 штук, 3 абсолютно новые) при установке загрузчика всегда выходило сообщение об ошибке.... что-то типа read/write /dev/sda error.... могу ошибаться в точности, но смысл такой. Всегда sda и только при сборке в программный RAID. Аппаратный RAID почему-то просто игнорировался Linux. В итоге поменял контролер и честно говоря надоело устал, и по запарке поставил без RAID на sdb, sda в NTFS - файлопомойка.
Температура:
/dev/sda/
190 Airflow_Temperature_Cel 0x0022   066   053   045    Old_age   Always       -       34 (Min/Max 34/36)
194 Temperature_Celsius     0x0022   034   047   000    Old_age   Always       -       34 (0 27 0 0 0)

/dev/sdb/
190 Airflow_Temperature_Cel 0x0022   065   057   045    Old_age   Always       -       35 (Min/Max 35/37)
194 Temperature_Celsius     0x0022   035   043   000    Old_age   Always       -       35 (0 26 0 0 0)
Проблемам предшествовало.... установка ALTLinux, до этого стоял вин 2003 сервер с Гарантом, года 2 стоял, потом стоял Debian со специфической автоматической информационной системой, но ей потребовалось больше ресурсов и машина освободилась, как раз понадобился прокси и почтовик, решил поставить ALT. Сама машина довольно не свежая, Kraftway GEG100, 2006 года рождения, батарейку сменил перед установкой (это как сказывается?), старая была мертвая.
Склоняюсь к железной проблеме, но как диагностировать и какая железка не знаю. Только методом "тыка"? Может какие нить тесты погонять?

Оффлайн ksa

  • Модератор глобальный
  • *****
  • Сообщений: 9 049
Re: Не понятное "Зависание" системы
« Ответ #7 : 12.05.2012 06:57:03 »
Из-за дохлой батарейки возможны различного рода глюки (причем заранее невозможно предсказать, какие именно). Попробуйте поставить систему с нуля на нормальной батарейке и пока на одном диске без использования рэйд. Посмотрите, поднастройте, доставьте, что надо. Поюзайте и последите за работой сервака и служб. Ну, а дальше будет видно, имеются ли у сервака аппаратные проблемы. Судя по тому, что на серваке работали винда и дебиан, аппаратных проблем (кроме батарейки разве что) быть не должно.
Однако, если будут проблемы, то это может быть неизученный ранее баг. Останется только его выловить, если конечно система не будет сменяна на другую.

Оффлайн ZMyk

  • Участник
  • *
  • Сообщений: 124
Re: Не понятное "Зависание" системы
« Ответ #8 : 12.05.2012 11:33:48 »
Из-за дохлой батарейки возможны различного рода глюки (причем заранее невозможно предсказать, какие именно). Попробуйте поставить систему с нуля на нормальной батарейке и пока на одном диске без использования рэйд. Посмотрите, поднастройте, доставьте, что надо. Поюзайте и последите за работой сервака и служб. Ну, а дальше будет видно, имеются ли у сервака аппаратные проблемы. Судя по тому, что на серваке работали винда и дебиан, аппаратных проблем (кроме батарейки разве что) быть не должно.
Однако, если будут проблемы, то это может быть неизученный ранее баг. Останется только его выловить, если конечно система не будет сменяна на другую.
Спасибо. На следующей неделе попробую, возьму с собой несколько сата шлейфов, чтоб лишнее сразу исключить.
Вот еще какой ньюанс вспомнил, может важно..... контролер SATAII, а диски, сейчас которые стоят SATAIII, поэтому может аппаратный рэйд игнориться? Хотя при складывании ошибок не выходило :-\

Оффлайн ksa

  • Модератор глобальный
  • *****
  • Сообщений: 9 049
Re: Не понятное "Зависание" системы
« Ответ #9 : 12.05.2012 13:36:19 »
Спасибо. На следующей неделе попробую, возьму с собой несколько сата шлейфов, чтоб лишнее сразу исключить.
Вот еще какой ньюанс вспомнил, может важно..... контролер SATAII, а диски, сейчас которые стоят SATAIII, поэтому может аппаратный рэйд игнориться? Хотя при складывании ошибок не выходило :-\
Если меня склероз не поводит, то аппаратный рейд он на то и аппаратный, что он сам предоставляет данные системе уже в разжеванном виде, т.е., сколько есть томов и каких.  то бишь для системы они видны как обычне жеские диски. Поэтому игнориться он не должен по идее. Единственное, может не хватает драйвера на этот контроллер, что-то в этом духе.

Оффлайн fce

  • Участник
  • *
  • Сообщений: 249
  • ALT Linux, XBMC live, Ubuntu, Kubuntu, Android
    • Dansguardian+
Re: Не понятное "Зависание" системы
« Ответ #10 : 12.05.2012 16:29:35 »
Любая железячная проблема начинает решаться с осмотра.
1. как сказали уже посмотрите батарейку, верный симптом сброс времени и  настроек биоса.
2. если собрались использовать аппаратный RAID, то лучше использовать внешний контроллер и желательно иметь их два одинаковых (один про запас)
3. Неплохо бы проверить сам блок питания и его разъемы,так как всякие Codegen, Colorsite явно не для сервера.
Осмотрите разъемы питания ATX на материнской плате. Греются? Сам только вчера перепаивал 4-штырьковый разъем на материнской плате своего компа, просто их делают хлюпкими, а стоит процессор с TDP 125Вт.
Разъёмы типа Moleх редко страдают фигней, а вот на современных разъемах питания Sata очень быстро старится пластик, из-за чего он либо крошится, либо выгибается дугой и  надежного питания жд не будет.
4. Sata-кабели лучше использовать с металлическими защелками, обычные либо морочат голову плохим контактом, либо приводят к неисправности ЖД, пластик на разъемах дешевых кабелей тоже быстро старится, поэтому лучше менять кабели старше трех лет.
5. Внимательно осмотрите материнскую плату на предмет вздувшихся или потекших конденсаторов, подгоревших элементов.
И температуру мерять лучше мультиметром с термопарой, если комп старый, то термопасту можно заменить смело (я ислользую АлСил-3), иногда снимаешь радиатор процессора, а термопаста кусками отваливается.

« Последнее редактирование: 12.05.2012 16:33:14 от fce »
Безвыходных ситуаций не бывает, есть ситуации в которые нет входа. На каждого компьютерного гения найдётся свой хакер с винтом.