Автор Тема: [Решено] Asus G51j после обновления до 4.9.110 начал перегреваться  (Прочитано 22128 раз)

Оффлайн ApB

  • Давно тут
  • **
  • Сообщений: 412
После добавления к ядру параметра pci=nommconf
Сейчас DE виснет с ошибкой в логе:
 gdm[737]: GLib: g_hash_table_find: assertion 'version == hash_table->version' failed
Вывод лога производится через: journalctl -b -1

авг 15 16:00:33 comp-core-i7-26c38c zeitgeist-daemo[1859]: Error releasing name org.gnome.zeitgeist.Engine: Соединение закрыто
авг 15 16:00:33 comp-core-i7-26c38c zeitgeist-daemon[1859]: [13:00:33.307704 WARNING] zeitgeist-daemon.vala:454: Соединение закрыто
авг 15 16:00:33 comp-core-i7-26c38c unknown[1886]: Error releasing name org.gnome.zeitgeist.SimpleIndexer: The connection is closed
авг 15 16:00:33 comp-core-i7-26c38c unknown[1886]: zeitgeist-fts.vala:252: The connection is closed
авг 15 16:00:33 comp-core-i7-26c38c systemd[1410]: Stopped Zeitgeist activity log service.
авг 15 16:00:33 comp-core-i7-26c38c systemd[1410]: Stopped Zeitgeist full-text search indexer.
авг 15 16:00:33 comp-core-i7-26c38c systemd[1410]: Stopped D-Bus User Message Bus.
авг 15 16:00:33 comp-core-i7-26c38c dbus[501]: [system] Activation via systemd failed for unit 'polkit.service': Refusing activation, D-Bus is shuttin
авг 15 16:00:33 comp-core-i7-26c38c NetworkManager[570]: <warn>  [1534338033.3251] error requesting auth for org.freedesktop.NetworkManager.wifi.share
авг 15 16:00:33 comp-core-i7-26c38c NetworkManager[570]: <warn>  [1534338033.3252] error requesting auth for org.freedesktop.NetworkManager.wifi.share
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopping CUPS Scheduler...
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopping Avahi mDNS/DNS-SD Stack...
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopped target Network is Online.
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopped Network Manager Wait Online.
авг 15 16:00:33 comp-core-i7-26c38c avahi-daemon[533]: Got SIGTERM, quitting.
авг 15 16:00:33 comp-core-i7-26c38c avahi-daemon[533]: Leaving mDNS multicast group on interface wlan0.IPv4 with address 192.185.0.8.
авг 15 16:00:33 comp-core-i7-26c38c avahi-daemon[533]: avahi-daemon 0.6.31 exiting.
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopped Avahi mDNS/DNS-SD Stack.
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopped VirtualBox kernel modules.
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopped CUPS Scheduler.
авг 15 16:00:33 comp-core-i7-26c38c gdm[737]: GLib: g_hash_table_find: assertion 'version == hash_table->version' failed
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopped Display Manager.
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Starting Show Plymouth Power Off Screen...
авг 15 16:00:33 comp-core-i7-26c38c acpid[536]: exiting
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopped ACPI Event Daemon.
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Received SIGRTMIN+20 from PID 8200 (plymouthd).
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Started Show Plymouth Power Off Screen.
авг 15 16:00:33 comp-core-i7-26c38c srv1cv83[8164]: Stopping 1C:Enterprise 8.3 server: OK
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopped SYSV: Starts and stops the 1C:Enterprise daemons.
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopping SYSV: This package loads console powersaver configuration....
авг 15 16:00:33 comp-core-i7-26c38c systemd[1]: Stopped SYSV: This package loads console powersaver configuration..
авг 15 16:00:36 comp-core-i7-26c38c /usr/libexec/gdm-x-session[944]: (WW) NVIDIA(0): WAIT (0, 6, 0x8000, 0x0000357c, 0x0000357c)
авг 15 16:00:37 comp-core-i7-26c38c systemd-logind[498]: Power key pressed.
авг 15 16:00:37 comp-core-i7-26c38c systemd-logind[498]: Powering Off...
авг 15 16:00:37 comp-core-i7-26c38c systemd-logind[498]: System is powering down.
авг 15 16:00:37 comp-core-i7-26c38c systemd[1]: Unmounting /mnt/110d5988-b66f-4660-975e-38cdccd75844...

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 9 733
usr/libexec/gdm-x-session[1378]: (II) NVIDIA(0): Virtual screen size determined to be 1366 x 768
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0: AER: Corrected error received: id=0018
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Transmitter ID)
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0:   device [8086:d138] error status/mask=00001000/00002000
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0:    [12] Replay Timer Timeout 

Похоже что у вас это уже было:
https://forum.altlinux.org/index.php?topic=36660.0

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 9 733
...
авг 15 13:27:36 comp-core-i7-26c38c kernel: NVRM: GPU at PCI:0000:01:00: GPU-d5aa637c-74a9-4f61-c970-646e64d7575d
...
авг 15 13:27:48 comp-core-i7-26c38c kernel: NVRM: os_schedule: Attempted to yield the CPU while in atomic or interrupt context
авг 15 13:27:57 comp-core-i7-26c38c /usr/libexec/gdm-x-session[1376]: (WW) NVIDIA(0): WAIT (0, 4, 0x8000, 0x0000efc0, 0x0000efc0)
авг 15 13:27:57 comp-core-i7-26c38c kernel: NVRM: Xid (PCI:0000:01:00): 8, Channel 00000007
...

У вас проблемы с nvidia на уровне ядра.

Оффлайн ApB

  • Давно тут
  • **
  • Сообщений: 412
У вас проблемы с nvidia на уровне ядра.
Это я понял ... и произошли они после последних обновлений.
Сегодня с утра накатил ещё обновы ... в том числе pciids и ... на текущий момент вылеты системы мгновенные

Предположил, что проблема видеокарты аппаратная ... запустил LiveCD ... в логе ошибка есть, но вот к зависаниям не приводит
« Последнее редактирование: 16.08.2018 14:54:53 от ApB »

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 9 733
usr/libexec/gdm-x-session[1378]: (II) NVIDIA(0): Virtual screen size determined to be 1366 x 768
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0: AER: Corrected error received: id=0018
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Transmitter ID)
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0:   device [8086:d138] error status/mask=00001000/00002000
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0:    [12] Replay Timer Timeout 

ИМХО:
Где-то ошибка с этим связана. И пока она не исправится, толку от Линукса не будет:
d138   Core Processor PCI Express Root Port 1
http://pci-ids.ucw.cz/read/PC/8086/d138

Нужно глубоко погружаться в гугление:
AER: Corrected error received
PCIe Bus Error

Ещё более ИМХО:
Проблема с драйвером управляющим PCIe шиной - .
device [8086:d138] error status
ошибка статуса
d138   Core Processor PCI Express Root Port 1

Похоже что карта висит на этой шине. Попробуйте ещё раз этот финт провернуть:
https://forum.altlinux.org/index.php?topic=36660.msg284082#msg284082
« Последнее редактирование: 17.08.2018 07:53:08 от Speccyfighter »

Оффлайн ApB

  • Давно тут
  • **
  • Сообщений: 412
Похоже что карта висит на этой шине. Попробуйте ещё раз этот финт провернуть:
https://forum.altlinux.org/index.php?topic=36660.msg284082#msg284082
на тот момент ПК запустился, но привёл к тому, что вместо 8 потоков на ядре осталось два.
Докучи, сейчас этот-же блок к ведру при загрузке, приводит к повисанию системы при запуске DE (гнома) вообще ... вот такая вот беда.
Ни в консоль не перейти ctl+alt+f12

Эта беда всплывает ... и порой получалось обойти вопрос при использовании un-def ядра, но сейчас использование un-def ядра, даже того, что использовал ранее приводит к аналогичному (что и pci=nomsi) результату.
« Последнее редактирование: 17.08.2018 09:35:18 от ApB »

Оффлайн Rider

  • /usr/sbin/control
  • *******
  • Сообщений: 1 136
Можно ядру попробовать дать параметр:
 pci=nommconf

Если не поможет, то:
pci=nomsi irqpoll

Оффлайн ApB

  • Давно тут
  • **
  • Сообщений: 412
на текущий момент
pci=nommconf дает мне 2-3 минуты и потом вешается система

pci=nomsi irqpool - множество мелких горизонтальных полос вместо DE

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 9 733
порой получалось обойти вопрос при использовании un-def ядра, но сейчас использование un-def ядра, даже того, что использовал ранее приводит к аналогичному (что и pci=nomsi) результату.

В общем в Линукс было плохо, стало ещё хуже.

Как сам вижу вашу ситуацию, очень ИМХО конечно:

Торвальдс в ядре где-то перемудрил.

usr/libexec/gdm-x-session[1378]: (II) NVIDIA(0): Virtual screen size determined to be 1366 x 768
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0: AER: Corrected error received: id=0018
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Transmitter ID)
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0:   device [8086:d138] error status/mask=00001000/00002000
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0:    [12] Replay Timer Timeout 

device [8086:d138] error status/mask=00001000/00002000
ошибка статуса устройства Core Processor PCI Express Root Port 1  [8086:d138] (ошибка статуса рут порта PCI Express)

Ошибка где-то в ядре. То ли на уровне прерываний, то ли ещё что-то.
На вашем месте, я бы на bugzilla.kernel.org сходил бы и повесил багрепорт. Разговаривать там придётся на английском. Надо будет спросить какие выбросы требуются. Но надо будет иметь хоть какое-то знание матчасти. Если вдруг кто-то предложит опробовать патч, почти наверняка ядро с патчем вам придётся собирать для тест-прогона. Если вдруг обойдётся без этого, не ждите что ядро в альтах с исправлением быстро доползёт до вас, - возможно для этого понадобится полгода-год-полтора.
Например мне надо ждать патченного стабильно работающего std-def-4.18 (или выше) которое появится у альтов точно не через неделю. А когда это произойдёт, я и сам не знаю. И в большинстве новостей про ядро 4.18, если не во всех, этот патч не упоминается.
« Последнее редактирование: 17.08.2018 19:23:57 от Speccyfighter »

Оффлайн ApB

  • Давно тут
  • **
  • Сообщений: 412
device [8086:d138] error status/mask=00001000/00002000
ошибка статуса устройства Core Processor PCI Express Root Port 1  [8086:d138] (ошибка статуса рут порта PCI Express)

Ошибка где-то в ядре.

Но это не отвечает на вопрос, почему не грузятся un-def ядра, а также ядро перед std-def 4.9.110 не работает тоже.
Вопрос, как мне кажется, не только в этом, но и в ... как минимум сборке видеодрайвера и в pciids.

а вот как бы запустить запись лога журнала в файл, чтобы загрузиться и запустив систему, получить в текстовый файл построчную (в режиме реального времени) запись лога?

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 9 733
Вопрос, как мне кажется, не только в этом, но и в ... как минимум сборке видеодрайвера и в pciids.

Ещё раз: (kernel: pcieport - это драйвер ядра)
usr/libexec/gdm-x-session[1378]: (II) NVIDIA(0): Virtual screen size determined to be 1366 x 768
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0: AER: Corrected error received: id=0018
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0018(Transmitter ID)
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0:   device [8086:d138] error status/mask=00001000/00002000
авг 15 11:33:33 comp-core-i7-26c38c kernel: pcieport 0000:00:03.0:    [12] Replay Timer Timeout 
lspci -n
00:03.0 0604: 8086:d138 (rev 11)
Цитировать
http://pci-ids.ucw.cz/read/PC/8086/d138
Main -> PCI Devices -> Vendor 8086 -> Device 8086:d138
Name: Core Processor PCI Express Root Port 1

https://www.techwalla.com/articles/what-is-a-pci-express-root-port
« Последнее редактирование: 18.08.2018 19:13:24 от Speccyfighter »

Оффлайн ApB

  • Давно тут
  • **
  • Сообщений: 412
Ещё раз: (kernel: pcieport - это драйвер ядра)
Ок, с текущим ядром - будем посмотреть, что в kernel.org ответят.

Вопрос интересный:
а если зависания GUI связано с отвалом чипа? :-/

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 9 733
Ещё раз: (kernel: pcieport - это драйвер ядра)
Ок, с текущим ядром - будем посмотреть, что в kernel.org ответят.

Вопрос интересный:
а если зависания GUI связано с отвалом чипа? :-/

Например как у меня в почившем NX6110, где контроллер памяти и GPU совмещены в одном чипе 82915GM(PM) под радиатором.:
К слову говоря:
Перегреть 82915GM невозможно. По производительности он приблизительно равен GF440. Но проблема 82915GM в поддержке функций. Он значительно хуже чем у GF440.
Но вся штука в том, что в современных процессорах Intel начиная с Core i, северный мост внутри процессора. Там нечему отваливаться.
Да и лог у вас косвенно говорит, что проблемный корневой PCI Express порт у вас, это Core Processor.

Можно блок диаграммы (блок-схемы) посмотреть архитектур Intel (скриншоты)

Но если речь идёт о чипе nVidia в ноутбуке, то теоретически это возможно:
http://www.reset.ua/articles2.html
http://www.laptop.nnov.ru/content/view/152/1/
Причиной может быть как дефект техпроцесса, так и перегрев.
Именно по этой причине, я считал и считаю, что перегрев ноутбука, безумно плохая идея.
И моё ИМХО:
Но и владельцам ноутбуков с Intel графикой, с предельными температурами процессора не стоит обольщаться. Здесь всё зависит от типа сокета:
http://www.tomshardware.co.uk/answers/id-2372970/laptop-cpu-upgrade.html
Сокет указан в спецификации процессора строкой Sockets Supported.

Оффлайн ApB

  • Давно тут
  • **
  • Сообщений: 412
Но если речь идёт о чипе nVidia в ноутбуке, то теоретически это возможно:
http://www.reset.ua/articles2.html
http://www.laptop.nnov.ru/content/view/152/1/
Причиной может быть как дефект техпроцесса, так и перегрев.
Именно по этой причине, я считал и считаю, что перегрев ноутбука, безумно плохая идея

Перегревом-то я не занимался ... и всю ноутбучную жизнь, покуда он со мной, ему была обеспечена должная возможность потребления/прогона воздуха и "валенки" в системе вентиляции он не имел (очень мне нравится система охлаждения). Известен-ли вариант, позволяющий прогнать тест, позволяющий однозначно идентифицировать проблему? Не очень мне нравится вариант с разбором и прогревом видеокарты посредством фена :( Да и греть его придётся градусов до ... 200-230 ... если греть "снаружи" :-/

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 9 733
Перегревом-то я не занимался

Да у меня 82915GM тоже не от перегрева забарахлил. Предполагаю, что это связано с BGA.

Известен-ли вариант, позволяющий прогнать тест, позволяющий однозначно идентифицировать проблему?
"снаружи" :-/

Мне не попадалось такое по тесту GPU. Где-то видел только тест видеопамяти под Windows (лайв?). И даже на форуме где-то ссылку оставлял на sf.net

Не очень мне нравится вариант с разбором и прогревом видеокарты посредством фена :( Да и греть его придётся градусов до ... 200-230 ... если греть "снаружи" :-/

И не факт что окончательно не подохнет. Мне например отказались греть на фирме. Аргументировали что, поскольку место неизвестно, в несколько заходов прогрева, плату можно где-то перегреть и окончательно угробить.