|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Все работало отлично и вот в ноябре начались перезагрузки, сначала один раз в день, потом чаще. Что я сделал: 1. Убрал все из /boot/loader.conf, остался только модуль gmirror 2. Убрал все из /etc/sysctl.conf 3. Тестировал память с помощью memtest86+ в разных режимах, ни одной ошибки не нашел. 4. Пробовал перезагрузиться в single режиме и проверял диски fsck, все ок. 5. По смарту диски проходят тесты SHORT И LONG, все ОК! 6. Стоит мониторинг munin, ничего странного на графиках нету, единственное что смущает раздел system statistic значение System Calls почемуто иногда по графику проседает в отрицательную сторону, вплоть до -1 000 000 per second , чтобы это могло значить? На других серверах у меня такого нету! 7. Посмотрел датчики ipmi все в норме, все напряжение в границах, датчики температуры показывают норму, хорошобы записать их статистику да нет на сервере модуля отдельного чтоб снять показания независимо от состояния ОС. В логах сервера нет ничего, при подключении по KVM увидел мельком ошибку, что то там было про memory, но настолько быстро проскакивает что я не успеваю прочитать, просто не возможно. Как можно получить ошибку, чтоб сервер не падал в перезагрузку, или куда мне копнуть еще, помогите SOS? p.s. частота перезагрузок совершенно разная, никак не связана с нагрузкой на сервер, да ее и нет почти, вчера вот перезагружался почти каждые 2-5 минут, потом вроде отпустило и держался пол дня((( ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 11:27 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovik, 1. /var/log/ - что говорит система? 2. dmesg ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 11:43 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Alex URS, Там только лог загрузки сервера и все ничего странного WARNING: /home was not properly dismounted WARNING: /tmp was not properly dismounted WARNING: /tmp: mount pending error: blocks 12640 files 0 WARNING: /usr was not properly dismounted WARNING: /var was not properly dismounted Ну это говорит что была резкая перезагрузка без размонтирования Я уже 10 раз загружался в single и чистил разделы FSCK но при след перезагрузки опять тоже самое ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 12:10 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Вот график перезагрузок за день и системная статистика, видно что совпадает проседания по system calls с перезагрузкой, чтобы это могло значить ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 12:18 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovik, 1. это VPS/VDS? если да, что в логах? 2. что говорит out-of-band контроллер (iLO, iDRAC, ThinkServer или подобное)? или это не сервер? ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 12:31 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Alex URSwestvovik, 1. это VPS/VDS? если да, что в логах? 2. что говорит out-of-band контроллер (iLO, iDRAC, ThinkServer или подобное)? или это не сервер? Это наш сервер, размещен в ДЦ INTEL S5520UR, удаленное управление только через KVM есть, отдельного интерфейса с сетевухой для управления на нем нет ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 12:38 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovik, syscall отрицательный при write, но значением -1, и мне кажется, что -1000000 это не причина, а следствие возможно отказ контроллера какой RAID? ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 13:25 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Alex URSwestvovik, syscall отрицательный при write, но значением -1, и мне кажется, что -1000000 это не причина, а следствие возможно отказ контроллера какой RAID? Там gmirror настроен на двух дисках SAS в зеркало ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 13:43 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovikAlex URSwestvovik, syscall отрицательный при write, но значением -1, и мне кажется, что -1000000 это не причина, а следствие возможно отказ контроллера какой RAID? Там gmirror настроен на двух дисках SAS в зеркало и что показывает статус программного рейда? ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 14:01 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Alex URSwestvovikпропущено... Там gmirror настроен на двух дисках SAS в зеркало и что показывает статус программного рейда? После перезагрузки один диск падает в состояние STALE Я делаю rebuild, диск пересобирается, синхронизируется и работает, до следующей перезагрузки и опять в STALE, Даже если я не делаю rebuild и работает один диск, сервер все равно перезагружается, так что это не очень связанные вещи как я понимаю ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 14:06 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovikДаже если я не делаю rebuild и работает один диск, сервер все равно перезагружается, так что это не очень связанные вещи как я понимаю Убери один из дисков из сервера физически. Симптомы напоминают те, что я видел при плохом контакте в шлейфе питания. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 14:11 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Dimitry SibiryakovwestvovikДаже если я не делаю rebuild и работает один диск, сервер все равно перезагружается, так что это не очень связанные вещи как я понимаю Убери один из дисков из сервера физически. Симптомы напоминают те, что я видел при плохом контакте в шлейфе питания. Знать бы какой диск убрать, а неужели реально могут быть плохой контакт у дисков которые в лотке вставляются в корпус и защелкиваются? Или в каком месте это может быть, там серверный корпус 1U? Да и надо сказать в ДЦ все хорошо пыли нет нигде на комплектующих ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 14:35 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovikЗнать бы какой диск убрать Оба по очереди. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 14:43 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Несколько месяцев назад пролечил похожие симптомы заменой БП. westvovikнеужели реально могут быть плохой контакт у дисков которые в лотке вставляются в корпус и защелкиваются?могут. Наши на одном из серваков прямо на корпусе пометили одно из гнезд восьмидисковой корзины - т.к. в этом конкретном гнезде левые сбои дисков. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.12.2018, 18:03 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Я смог сделать принт скрин ошибки которая промелкивала вот, похоже что это все же память как я понимаю? ... |
|||
:
Нравится:
Не нравится:
|
|||
16.12.2018, 15:36 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovik, UNCOR PCC AC приwestvovik...3. Тестировал память с помощью memtest86+ в разных режимах, ни одной ошибки не нашел.... возможно "приговор" для сервера, т.к. AC - это в твоём случае не модуль но память на всякий случай передёрни... PS смотри порты, mcelog, оно гдето должно вылезти, не может быть, чтобы при ошибке контроллера памяти (не модуля) везде было "гуд" ... |
|||
:
Нравится:
Не нравится:
|
|||
17.12.2018, 09:07 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovikЭто наш сервер, размещен в ДЦ INTEL S5520UR, удаленное управление только через KVM есть, отдельного интерфейса с сетевухой для управления на нем нет На этой плате есть BMC, проверьте - https://www.intel.com/content/www/us/en/support/articles/000007037/server-products.html?productId=36456&localeCode=us_en . Тж. см. https://www.intel.com/content/dam/support/us/en/documents/motherboards/server/s5520ur/sb/e44031012_s5520ur_s5520urt_tps_r1_9.pdf Чтобы не терять сообщения на консоли, во-первых, отключите перезагрузку по аппаратному сбою, во-вторых - перенаправьте консоль на последовательный порт ( https://www.freebsd.org/doc/handbook/serialconsole-setup.html ) и подключите этот порт к консольному коммутатору, который умеет хранить историю (в ДЦ быть должен, Altusen или что-то подобное). Переусадите модули памяти. Если не полегчает, поменяйте их местами - это позволит понять, ходит ли ошибка за модулем или за слотом (во втором случае это будет слот памяти, материнская плата или, менее всего вероятно, процессор). ... |
|||
:
Нравится:
Не нравится:
|
|||
17.12.2018, 10:12 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Scott TigerwestvovikЭто наш сервер, размещен в ДЦ INTEL S5520UR, удаленное управление только через KVM есть, отдельного интерфейса с сетевухой для управления на нем нет На этой плате есть BMC, проверьте - https://www.intel.com/content/www/us/en/support/articles/000007037/server-products.html?productId=36456&localeCode=us_en . Тж. см. https://www.intel.com/content/dam/support/us/en/documents/motherboards/server/s5520ur/sb/e44031012_s5520ur_s5520urt_tps_r1_9.pdf Чтобы не терять сообщения на консоли, во-первых, отключите перезагрузку по аппаратному сбою, во-вторых - перенаправьте консоль на последовательный порт ( https://www.freebsd.org/doc/handbook/serialconsole-setup.html ) и подключите этот порт к консольному коммутатору, который умеет хранить историю (в ДЦ быть должен, Altusen или что-то подобное). Переусадите модули памяти. Если не полегчает, поменяйте их местами - это позволит понять, ходит ли ошибка за модулем или за слотом (во втором случае это будет слот памяти, материнская плата или, менее всего вероятно, процессор). Подскажите, а удаленно как я понимаю этим сервером я управлять через BMC не смогу, если у меня на метери не вставлен RMM3 модуль так, а он приобретается отдельно? Тогда что можно сделать с помощью BMC без RMM, для какой цели он нужен, не очень понимаю? ... |
|||
:
Нравится:
Не нравится:
|
|||
17.12.2018, 11:28 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovik, если ты не понимаешь, о чём тут пишут, хотя бы проверь это: ports, mcelog и я так понял, что у тебя ни разу не сервер - это обычный desktop, которому так "приказали", ибо server - это не просто название ... |
|||
:
Нравится:
Не нравится:
|
|||
17.12.2018, 11:48 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Alex URSwestvovik, если ты не понимаешь, о чём тут пишут, хотя бы проверь это: ports, mcelog и я так понял, что у тебя ни разу не сервер - это обычный desktop, которому так "приказали", ибо server - это не просто название Зачем хамить то? mcelog я установил! Далее ему нужно скормить, как я понимаю логи для вывода инфы в человекочитаемом варианте, где взять эти логи или это Kernel Crash Dump? Попробовал запустить его в режиме демона mcelog --daemon --logfile /var/log/mcelog, сервер перезагрузился, но в файле mcelog ничего нету! что делаю не так? ... |
|||
:
Нравится:
Не нравится:
|
|||
17.12.2018, 12:35 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
westvovik, RMM нужен для удалённого сетевого доступа к BMC. В его отсутствие можете работать с консоли (опять же, goto к админам ДЦ). Почитайте внимательно мою первую ссылку - SEL Viewer работает даже в EFI Shell. ... |
|||
:
Нравится:
Не нравится:
|
|||
17.12.2018, 20:23 |
|
Помогите sos, перезагружается постоянно FreeBSD 11.1-RELEASE-p4
|
|||
---|---|---|---|
#18+
Scott Tigerwestvovik, RMM нужен для удалённого сетевого доступа к BMC. В его отсутствие можете работать с консоли (опять же, goto к админам ДЦ). Почитайте внимательно мою первую ссылку - SEL Viewer работает даже в EFI Shell. Спасибо за совет, SEL попробую! Вчера при замене памяти в ДЦ сервер в биосе выдал что первые два слота память FAILED, вот переставили в другие два слота, сейчас все пока работает без перезагрузок, посмотрим что будет дальше. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.12.2018, 11:45 |
|
|
start [/forum/topic.php?fid=25&fpage=9&tid=1481219]: |
0ms |
get settings: |
7ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
27ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
56ms |
get tp. blocked users: |
1ms |
others: | 265ms |
total: | 394ms |
0 / 0 |