Автор Тема: Machine check exception (Решено. Проблема в железе)  (Прочитано 34546 раз)

Оффлайн igorigor76

  • Участник
  • *
  • Сообщений: 655
На компьютере установлен SL 7.0.5. До этого был SL 6. Компьютер стабильно работал несколько лет. Месяца 3 назад начало появляться machine check exception. Прочистка, продувка, внешний осмотр, сброс BIOS ничего не дали. Memtest прошел 2 круга, ни одной ошибки. Перекинул память с рабочего компьютера, изменений нет. Компьютер иногда даже не до конца загружается. Загрузившись, может несколько минут проработать, но начинаешь что-то делать снова MCE. В общем сразу не поставил и не настроил mcelog, теперь не получается.
На компьютере еще установлена Windows XP, но она не использовалась. Попробовал в ней поработать. Удалил Kaspersky с истекшим сроком лицензии. Установил DrWEB  с действующей лицензией. Все это время компьютер проработал. Какие-то чудеса. Может пока не проявилось, потом будет синий экран.

Вопрос 1 (теоретический). Может такое быть что на одной системе компьютер постоянно выпадает в MCE, а на другой стабильно работает?

Вопрос 2 (практический). Что делать? Пересаживать человека на Windows крайне не хочется ни мне ни человеку, проработавшему с SL несколько лет.  В каком нибудь Live дистрибутиве ALTLinux есть установленный mcelog? И вообще стоил ли возиться с выявлением ошибок? Если что-то удастся обнаружить, без замены железа можно будет обойтись?

P.S. 2015.12.03 Тему закрываю. Со старым ядром и под Windows так же компьютер перезагружается. Проблема однозначно в железе.
« Последнее редактирование: 03.12.2015 10:08:45 от igorigor76 »

Оффлайн ksa

  • Модератор глобальный
  • *****
  • Сообщений: 9 049
Re: Machine check exception
« Ответ #1 : 04.08.2015 07:58:00 »
Пробуйте ядро другой ветки, если такая возможность есть, шерстите логи.

Оффлайн ksa

  • Модератор глобальный
  • *****
  • Сообщений: 9 049
Re: Machine check exception
« Ответ #2 : 04.08.2015 08:02:28 »
Можно попробовать на каком-нибудь livecd загрузиться в режиме сохранения сеанса и установить mcelog. Можно даже какой-нибудь regular по-свежее использовать для этой цели (rescue, как вариант).

Оффлайн igorigor76

  • Участник
  • *
  • Сообщений: 655
Re: Machine check exception
« Ответ #3 : 04.08.2015 08:22:25 »
Пробуйте ядро другой ветки, если такая возможность есть, шерстите логи.
Сейчас ядро std-def. Какое ядро в моем случае выбрать? Какая будет команда для установки ядра с нужными модулями?

Оффлайн ruslandh

  • Поспешай не торопясь !
  • Модератор глобальный
  • *****
  • Сообщений: 32 361
  • Учиться .... Телепатами не рождаются, ими ....
Re: Machine check exception
« Ответ #4 : 04.08.2015 08:39:31 »
Сейчас ядро std-def. Какое ядро в моем случае выбрать? Какая будет команда для установки ядра с нужными модулями?
un-def
http://www.altlinux.org/Обновление_ядра

Насчёт 6-го бренча - не помню есть-ли там скрипт update-kernel, и установлен-ли он по-умолчанию. Скорей всего его надо вначале установить.

Оффлайн igorigor76

  • Участник
  • *
  • Сообщений: 655
Re: Machine check exception
« Ответ #5 : 04.08.2015 09:20:38 »
Насчёт 6-го бренча ...
Сейчас на компьютере SL 7.0.5 (P7)

Оффлайн ruslandh

  • Поспешай не торопясь !
  • Модератор глобальный
  • *****
  • Сообщений: 32 361
  • Учиться .... Телепатами не рождаются, ими ....
Re: Machine check exception
« Ответ #6 : 04.08.2015 09:25:00 »
Сейчас на компьютере SL 7.0.5 (P7)

Ну, тогда  замечание не имеет силы, разве-что модет надо установить пакет update-kernel

Оффлайн igorigor76

  • Участник
  • *
  • Сообщений: 655
Re: Machine check exception
« Ответ #7 : 04.08.2015 10:26:28 »
Установил ядро un-def.
Теперь экран MCE не появляется а компьютер просто зависает при этом экран полностью черный.
в mcelog следующее:
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 0
TIME 1436003976 Sat Jul  4 12:59:36 2015
MCG status:
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 22
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 0
TIME 1436004615 Sat Jul  4 13:10:15 2015
MCG status:
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 22
На дату не обращайте внимание, я когда BIOS сбрасывал месяц не правильно выставил. Оказывается уже август  :-D

Тут https://www.linux.org.ru/forum/linux-hardware/7948545 ситуация похожа на мою.
« Последнее редактирование: 04.08.2015 10:35:03 от igorigor76 »

Оффлайн ksa

  • Модератор глобальный
  • *****
  • Сообщений: 9 049
Re: Machine check exception
« Ответ #8 : 04.08.2015 10:34:54 »
Возможно это какая-то регрессия в ядре (или обработка события происходит другим способом, не таким, при котором раньше это как-то обрабатывалось или пропускалось), но более точно можно будет ответить после запуска на подопытном какого-нибудь livecd с дистрибутивом на p6 и посмотреть, будет ли вылетать исключение.

Оффлайн ruslandh

  • Поспешай не торопясь !
  • Модератор глобальный
  • *****
  • Сообщений: 32 361
  • Учиться .... Телепатами не рождаются, ими ....
Re: Machine check exception
« Ответ #9 : 04.08.2015 10:43:14 »
А что в логах systemd и ядра?

Оффлайн ksa

  • Модератор глобальный
  • *****
  • Сообщений: 9 049
Re: Machine check exception
« Ответ #10 : 04.08.2015 10:56:59 »
http://ubuntuforums.org/archive/index.php/t-1839997.html
https://bugzilla.redhat.com/show_bug.cgi?id=642861
https://bugzilla.redhat.com/show_bug.cgi?id=1085785
http://www.linuxquestions.org/questions/linux-hardware-18/mcelog-hardware-error-this-is-*not*-a-software-problem-855235/
https://lkml.org/lkml/2014/3/21/421
Вот, наковырял в гугле по похожим проблемам. Может найдёте там что-то полезное в плане объяснений причин того, что же происходит.

Оффлайн ksa

  • Модератор глобальный
  • *****
  • Сообщений: 9 049
Re: Machine check exception
« Ответ #11 : 04.08.2015 10:59:44 »
На всякий случай ещё железо это кратко опишите (процессор+материнская плата).

Оффлайн igorigor76

  • Участник
  • *
  • Сообщений: 655
Re: Machine check exception
« Ответ #12 : 04.08.2015 11:36:02 »
В /var/log/kernel пустые файлы.
Я обновил BIOS c 1.00 на 1.20
По впечатлениям на ядре un-def работает стабильнее. Но все равно зависает.

Процессор Intel(R) Celeron(R) CPU 430 @ 1.80GHz
МП ASRock G31M-VS2
Память samsung m378t5663eh3-cf7
« Последнее редактирование: 04.08.2015 12:18:04 от igorigor76 »

Оффлайн ruslandh

  • Поспешай не торопясь !
  • Модератор глобальный
  • *****
  • Сообщений: 32 361
  • Учиться .... Телепатами не рождаются, ими ....
Re: Machine check exception
« Ответ #13 : 04.08.2015 13:49:55 »
В /var/log/kernel пустые файлы.
Смотрите /var/log/dmesg  (запоминается в момент загрузки) и вывод команды dmesg (текущие сообщения) + журнал systemd с опцией -k
journalctl -khttp://www.altlinux.org/Journald

Оффлайн ASte

  • Мастер
  • ***
  • Сообщений: 1 566
Re: Machine check exception
« Ответ #14 : 04.08.2015 13:55:58 »
а старые ядра с допроблемного периода сохранились? если да, то что будет если загрузиться в такое ядро?