Автор Тема: Альт виртуализация 10.4 (Kernel panic)  (Прочитано 509 раз)

Оффлайн tuxzer92

  • Начинающий
  • *
  • Сообщений: 9
Описание серверов в кластере:
1)   HP ProLiant DL380 Gen10, 2x Intel(R) Xeon(R) Silver 4210R, RAM DDR4 RDIMM 384 Gb
2)   DEPO Storm 3470A2R, 2x Intel(R) Xeon(R) Gold 6326, RAM DDR4 RDIMM 384 Gb
3)   DEPO Storm 3470A2R, 2x Intel(R) Xeon(R) Gold 6326, RAM DDR4 RDIMM 384 Gb

Дисковое пространство:
СХД на базе ПО RAIDIX (версия 5.2)
Подключение по FibreChannel с multipath. В кластере диски подключены с помощью LVM

Версии ПО:
На всех серверах «ALT Virtualization Server 10.4 (Actinoform)», ядро – «Linux 5.10.226-std-def-alt1»

Изначально кластер включал в себя только серверы DEPO, работало стабильно. В конце августа добавился сервер HP, но на нем не было нагрузки (максимум пара тестовых ВМ). 18.10.24 потребовалось перезагрузить сервера кластера без остановки ВМ. Поэтому с помощью онлайн миграции поочередно освободили сервера и перезагрузили. Сначала сервер HP, т.к. на нем не было активных ВМ на тот момент. Затем сервера DEPO. И после того как перезапустили второй сервер DEPO кластер «завис», т.е. отсутствовал доступ через веб-интерфейс и по ssh. Физически на экране выводился лог dmesg такой же как указан ниже. Затем после перезагрузки всех серверов всё восстановилось.
Но 25.10.24 снова возникла такая же проблема, но уже сама по себе, а не в результате каких-либо действий. Перезагрузка в этот раз уже не помогла, кластер снова зависал после перезагрузки. Обновили Альт Виртуализацию на всех серверах до актуальной с помощью команды epm full-upgrade, это так же не помогло.

На данный момент все ВМ с сервера HP перенесли и полностью его остановили. Пока ошибок не возникает.

Лог за 25.10.24 в один из моментов «зависания» с сервера DEPO:
Спойлер
Oct 25 16:51:58.740220 node06.main.izh kernel: BUG: kernel NULL pointer dereference, address: 0000000000000094
Oct 25 16:51:58.740716 node06.main.izh kernel: #PF: supervisor read access in kernel mode
Oct 25 16:51:58.740924 node06.main.izh kernel: #PF: error_code(0x0000) - not-present page
Oct 25 16:51:58.741056 node06.main.izh kernel: PGD 0 P4D 0
Oct 25 16:51:58.741162 node06.main.izh kernel: Oops: 0000 [#1] SMP NOPTI
Oct 25 16:51:58.741190 node06.main.izh kernel: CPU: 0 PID: 12446 Comm: vgs Tainted: G           OE     5.10.226-std-def-alt1 #1
Oct 25 16:51:58.741209 node06.main.izh kernel: Hardware name: To Be Filled By O.E.M. DPC621-BV/DPC621-BV, BIOS L1.06  09/20/2023
Oct 25 16:51:58.741229 node06.main.izh kernel: RIP: 0010:bfq_bio_bfqg+0x2d/0x80
Oct 25 16:51:58.741250 node06.main.izh kernel: Code: 00 00 41 54 53 48 8b 46 48 48 89 fb 48 89 f7 48 85 c0 74 2a 48 63 15 12 99 6e 01 48 83 c2 16 80 78 48 00 74 10 4c 8b 64 d0 >
Oct 25 16:51:58.741273 node06.main.izh kernel: RSP: 0018:ffffbad365ef7778 EFLAGS: 00010002
Oct 25 16:51:58.741294 node06.main.izh kernel: RAX: ffff9fa844224200 RBX: ffff9f78d5895000 RCX: 00000000ffffffe0
Oct 25 16:51:58.741318 node06.main.izh kernel: RDX: 0000000000000019 RSI: ffff9f78d3322610 RDI: ffff9f78d3322610
Oct 25 16:51:58.741336 node06.main.izh kernel: RBP: ffff9f78d5895000 R08: 0000000000000001 R09: 00000000fffe1e00
Oct 25 16:51:58.741357 node06.main.izh kernel: R10: 0000000000000001 R11: ffff9f78d3322610 R12: 0000000000000000
Oct 25 16:51:58.741378 node06.main.izh kernel: R13: ffff9f78d3322610 R14: ffff9f78d56f87e0 R15: ffff9f78d5895000
Oct 25 16:51:58.741396 node06.main.izh kernel: FS:  00007f91041dd8c0(0000) GS:ffff9fa76fe00000(0000) knlGS:0000000000000000
Oct 25 16:51:58.741415 node06.main.izh kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Oct 25 16:51:58.741434 node06.main.izh kernel: CR2: 0000000000000094 CR3: 000000010c220005 CR4: 0000000000770ef0
Oct 25 16:51:58.741449 node06.main.izh kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Oct 25 16:51:58.741467 node06.main.izh kernel: DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
Oct 25 16:51:58.741489 node06.main.izh kernel: PKRU: 55555554
Oct 25 16:51:58.741517 node06.main.izh kernel: Call Trace:
Oct 25 16:51:58.741534 node06.main.izh kernel:  ? __die_body.cold+0x1a/0x1f
Oct 25 16:51:58.741551 node06.main.izh kernel:  ? no_context.constprop.0+0x120/0x340
Oct 25 16:51:58.741569 node06.main.izh kernel:  ? exc_page_fault+0x7c/0x150
Oct 25 16:51:58.741591 node06.main.izh kernel:  ? asm_exc_page_fault+0x1e/0x30
Oct 25 16:51:58.741608 node06.main.izh kernel:  ? bfq_bio_bfqg+0x2d/0x80
Oct 25 16:51:58.741627 node06.main.izh kernel:  bfq_bic_update_cgroup+0x2c/0x1f0
Oct 25 16:51:58.741652 node06.main.izh kernel:  bfq_insert_requests+0x726/0x2000
Oct 25 16:51:58.741669 node06.main.izh kernel:  ? kmem_cache_alloc+0x171/0x2d0
Oct 25 16:51:58.741688 node06.main.izh kernel:  ? mempool_alloc+0x5f/0x170
Oct 25 16:51:58.741706 node06.main.izh kernel:  blk_mq_sched_insert_request+0x143/0x160
Oct 25 16:51:58.741723 node06.main.izh kernel:  __blk_mq_try_issue_directly+0x89/0x1b0
Oct 25 16:51:58.741738 node06.main.izh kernel:  ? __bio_clone_fast+0x97/0xe0
Oct 25 16:51:58.741754 node06.main.izh kernel:  blk_mq_request_issue_directly+0x51/0xa0
Oct 25 16:51:58.741768 node06.main.izh kernel:  dm_mq_queue_rq+0x22a/0x420 [dm_mod]
Oct 25 16:51:58.741785 node06.main.izh kernel:  blk_mq_dispatch_rq_list+0x119/0x890
Oct 25 16:51:58.741801 node06.main.izh kernel:  ? elv_rb_del+0x1f/0x30
Oct 25 16:51:58.741818 node06.main.izh kernel:  ? deadline_remove_request+0x49/0xb0
Oct 25 16:51:58.741836 node06.main.izh kernel:  blk_mq_do_dispatch_sched+0x2e7/0x330
Oct 25 16:51:58.741857 node06.main.izh kernel:  __blk_mq_sched_dispatch_requests+0x129/0x170
Oct 25 16:51:58.741874 node06.main.izh kernel:  blk_mq_sched_dispatch_requests+0x30/0x60
Oct 25 16:51:58.741898 node06.main.izh kernel:  __blk_mq_run_hw_queue+0x47/0xe0
Oct 25 16:51:58.741916 node06.main.izh kernel:  __blk_mq_delay_run_hw_queue+0x15b/0x170
Oct 25 16:51:58.741932 node06.main.izh kernel:  blk_mq_sched_insert_requests+0x68/0xe0
Oct 25 16:51:58.741946 node06.main.izh kernel:  blk_mq_flush_plug_list+0x100/0x1a0
Oct 25 16:51:58.741963 node06.main.izh kernel:  blk_finish_plug+0x25/0x40
Oct 25 16:51:58.741981 node06.main.izh kernel:  blkdev_direct_IO+0x3ff/0x4a0
Oct 25 16:51:58.741997 node06.main.izh kernel:  ? __x64_sys_io_cancel+0x170/0x170
Oct 25 16:51:58.742018 node06.main.izh kernel:  generic_file_read_iter+0x8f/0x150
Oct 25 16:51:58.742034 node06.main.izh kernel:  blkdev_read_iter+0x44/0x60
Oct 25 16:51:58.742050 node06.main.izh kernel:  aio_read+0xce/0x190
Oct 25 16:51:58.742069 node06.main.izh kernel:  ? cache_alloc_refill+0x101/0x320
Oct 25 16:51:58.742088 node06.main.izh kernel:  ? kmem_cache_alloc+0x171/0x2d0
Oct 25 16:51:58.742103 node06.main.izh kernel:  io_submit_one+0x249/0x7e0
Oct 25 16:51:58.742118 node06.main.izh kernel:  __x64_sys_io_submit+0x82/0x140
Oct 25 16:51:58.742136 node06.main.izh kernel:  do_syscall_64+0x30/0x40
Oct 25 16:51:58.742152 node06.main.izh kernel:  entry_SYSCALL_64_after_hwframe+0x67/0xd1
Oct 25 16:51:58.742168 node06.main.izh kernel: RIP: 0033:0x7f9104650d39
Oct 25 16:51:58.742186 node06.main.izh kernel: Code: 00 c3 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 48 89 f8 48 89 f7 48 89 d6 48 89 ca 4d 89 c2 4d 89 c8 4c 8b 4c 24 08 0f >
Oct 25 16:51:58.742208 node06.main.izh kernel: RSP: 002b:00007fff8e56c2a8 EFLAGS: 00000246 ORIG_RAX: 00000000000000d1
Oct 25 16:51:58.742225 node06.main.izh kernel: RAX: ffffffffffffffda RBX: 00007f91041dd6c8 RCX: 00007f9104650d39
Oct 25 16:51:58.742241 node06.main.izh kernel: RDX: 00007fff8e56c300 RSI: 0000000000000001 RDI: 00007f9104a5d000
Oct 25 16:51:58.742264 node06.main.izh kernel: RBP: 00007f9104a5d000 R08: 000056331009e000 R09: 0000563310071a20
Oct 25 16:51:58.742284 node06.main.izh kernel: R10: 0000000000020000 R11: 0000000000000246 R12: 0000000000000001
Oct 25 16:51:58.742305 node06.main.izh kernel: R13: 000000000000007b R14: 00007fff8e56c300 R15: 00005633100782a0
Oct 25 16:51:58.742320 node06.main.izh kernel: Modules linked in: ebtable_filter ebtables ip_set(OE) ip6table_raw iptable_raw ip6table_filter ip6_tables iptable_filter bpfilter>
Oct 25 16:51:58.742454 node06.main.izh kernel:  acpi_ipmi i2c_smbus intel_th mei dca wmi hed ipmi_si ipmi_devintf ipmi_msghandler acpi_power_meter hwmon acpi_pad tiny_power_but>
Oct 25 16:51:58.742492 node06.main.izh kernel: CR2: 0000000000000094
Oct 25 16:51:58.742512 node06.main.izh kernel: ---[ end trace 2c04e207d01ac04f ]---
Oct 25 16:51:58.742530 node06.main.izh kernel: RIP: 0010:bfq_bio_bfqg+0x2d/0x80
Oct 25 16:51:58.742545 node06.main.izh kernel: Code: 00 00 41 54 53 48 8b 46 48 48 89 fb 48 89 f7 48 85 c0 74 2a 48 63 15 12 99 6e 01 48 83 c2 16 80 78 48 00 74 10 4c 8b 64 d0 >
Oct 25 16:51:58.742560 node06.main.izh kernel: RSP: 0018:ffffbad365ef7778 EFLAGS: 00010002
Oct 25 16:51:58.742575 node06.main.izh kernel: RAX: ffff9fa844224200 RBX: ffff9f78d5895000 RCX: 00000000ffffffe0
Oct 25 16:51:58.742593 node06.main.izh kernel: RDX: 0000000000000019 RSI: ffff9f78d3322610 RDI: ffff9f78d3322610
Oct 25 16:51:58.742611 node06.main.izh kernel: RBP: ffff9f78d5895000 R08: 0000000000000001 R09: 00000000fffe1e00
Oct 25 16:51:58.742627 node06.main.izh kernel: R10: 0000000000000001 R11: ffff9f78d3322610 R12: 0000000000000000
Oct 25 16:51:58.742643 node06.main.izh kernel: R13: ffff9f78d3322610 R14: ffff9f78d56f87e0 R15: ffff9f78d5895000
Oct 25 16:51:58.742657 node06.main.izh kernel: FS:  00007f91041dd8c0(0000) GS:ffff9fa76fe00000(0000) knlGS:0000000000000000
Oct 25 16:51:58.742670 node06.main.izh kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Oct 25 16:51:58.742688 node06.main.izh kernel: CR2: 0000000000000094 CR3: 000000010c220005 CR4: 0000000000770ef0
Oct 25 16:51:58.742704 node06.main.izh kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Oct 25 16:51:58.742716 node06.main.izh kernel: DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
Oct 25 16:51:58.742728 node06.main.izh kernel: PKRU: 55555554