powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Unix-системы [игнор отключен] [закрыт для гостей] / Регулярное падение сервера
5 сообщений из 5, страница 1 из 1
Регулярное падение сервера
    #38512724
Регулярно начал падать сервер во время бэкапа postgresa.

скрипт бэкапа

Код: powershell
1.
2.
3.
4.
5.
6.
7.
#!/bin/bash
cd /BACKUP/bankclientbackups/ || exit 1
SUFFIX=$(date "+%Y-%m-%d_%H:%M:%S")
FILENAME="pg_dumpall_$SUFFIX.sql"
pg_dumpall -l usr -U postgres > "$FILENAME" || exit 1
md5sum "$FILENAME" >> md5sums.txt
gzip "$FILENAME"



Кусок лога messages и mcelog во вложении.

Могут или являются ли ошибки в памяти причиной перезагрузок?
Как найти сбойную линейку, в сервере? Всего 8 слотов, занято 4.
Какие логи еще можно посмотреть чтобы выяснить ошибку?

[root@xxx-server ~]# uname -a
Linux xxx-server 2.6.32-300.3.1.el6uek.x86_64 #1 SMP Fri Dec 9 18:57:35 EST 2011 x86_64 x86_64 x86_64 GNU/Linux
...
Рейтинг: 0 / 0
Регулярное падение сервера
    #38512726
логи
...
Рейтинг: 0 / 0
Регулярное падение сервера
    #38514191
Фотография Scott Tiger
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Лагутин АлександрМогут или являются ли ошибки в памяти причиной перезагрузок?

Корректируемые ошибки по определению уже скорректированы ECC-логикой. Но достаточно часто корректируемая ошибка памяти на умирающем модуле памяти со временем вырождается в некорректируемую, которая с б о льшей вероятностью может вызвать аварийную остановку ядра. Также корректируемые ошибки могут идти в огромных количествах (многие тысячи в секунду), сильно нагружая обработчик, что в некоторых случаях может привести к "зависанию" или перезагрузке по вотчдогу.

Лагутин АлександрКак найти сбойную линейку, в сервере? Всего 8 слотов, занято 4.

Код: plaintext
1.
2.
Dec 25 19:19:53 xxx-server mcelog: Corrected memory errors on page 3770e000 exceed threshold 20 in 24h: 20 in 24h
Dec 25 19:19:53 xxx-server mcelog:  Location SOCKET:0 CHANNEL:1 DIMM:1  []
...
Рейтинг: 0 / 0
Регулярное падение сервера
    #38515714
Scott Tiger,

спасибо за проявленный интерес к теме.

С половиной вопросов разобрался, кроме причины. Для тех кому интересно:

по поводу как найти сбойную линейку:
[root@xxx-server pgsql]# dmidecode -t 17
.
.
.
Handle 0x0036, DMI type 17, 27 bytes

Memory Device

Array Handle: 0x002E

Error Information Handle: Not Provided

Total Width: 72

Data Width: 64

Size: 2048 MB

Form Factor: DIMM

Set: 2

Locator: DIMM_B2

Bank Locator: NODE 0 CHANNEL 1 DIMM 1

Type: Other

Type Detail: Synchronous

Speed: 1333 MHz

Manufacturer: 0x0198

Serial Number: 0x9832B89C

Asset Tag: NO DIMM

Part Number: 9965426-024.A00LF

Потом значение локатора ищем на подписях к слотам памяти на материнской плате.


По поводу
Scott TigerТакже корректируемые ошибки могут идти в огромных количествах (многие тысячи в секунду)

Я так понял до этого доводить нельзя:
■ UCEs occur and investigation shows that the errors originated from memory.
In addition, a DIMM should be replaced whenever more than 24 Correctable
Errors (CEs) originate in 24 hours from a single DIMM and no other DIMM is
showing further CEs.
Взято от сюда http://docs.oracle.com/cd/E19469-01/819-4363-12/819-4363-12.pdf

В пятницу вытащил сбойную линейку. В воскресенье опять упал.
На данный момент:

[root@xxx-server pgsql]# mcelog --client

Memory errors

SOCKET 0 CHANNEL any DIMM any

corrected memory errors:

158 total
0 in 24h

uncorrected memory errors:

0 total
0 in 24h

SOCKET 0 CHANNEL 1 DIMM 0

corrected memory errors:

146 total
146 in 24h

uncorrected memory errors:

0 total
0 in 24h

Per page corrected memory statistics:

1bb86000: total 3 seen "3 in 24h" online
1bb87000: total 3 seen "3 in 24h" online
1bb8e000: total 11 seen "11 in 24h" online triggered
1bb8f000: total 129 seen "129 in 24h" online triggered


Контроллер памяти или проц?
...
Рейтинг: 0 / 0
Регулярное падение сервера
    #38516457
Фотография Scott Tiger
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если это и правда тампер (X4500/4540), то относительно модулей памяти есть следующие ограничения:

Sun Fire X4500/X4540 Server Service Manual Part No. 819-4359-19Each CPU supports a maximum of four DIMMs.
* Each pair of DIMMs must be identical (same manufacturer, size, and speed).
* DIMM slots are paired and the DIMMs must be installed in pairs (0 and 1, 2 and 3). See FIGURE 3-29. The memory sockets are colored black or white to indicate which slots are paired by matching colors.
* CPUs with only a single pair of DIMMs must have those DIMMs installed in that CPU’s white DIMM slots (0 and 1). See FIGURE 3-29.
* Only PC3200 ECC Registered DIMMs are supported.

Поэтому вынимание одного сбойного модуля привело систему в неподдерживаемую конфигурацию. Но, с другой стороны, в mcelog.txt видно:

Код: plaintext
CPUID Vendor Intel Family 6 Model 30

Соответственно, это не тампер :) Что за система?
...
Рейтинг: 0 / 0
5 сообщений из 5, страница 1 из 1
Форумы / Unix-системы [игнор отключен] [закрыт для гостей] / Регулярное падение сервера
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]