|
|
|
Регулярное падение сервера
|
|||
|---|---|---|---|
|
#18+
Регулярно начал падать сервер во время бэкапа postgresa. скрипт бэкапа Код: powershell 1. 2. 3. 4. 5. 6. 7. Кусок лога messages и mcelog во вложении. Могут или являются ли ошибки в памяти причиной перезагрузок? Как найти сбойную линейку, в сервере? Всего 8 слотов, занято 4. Какие логи еще можно посмотреть чтобы выяснить ошибку? [root@xxx-server ~]# uname -a Linux xxx-server 2.6.32-300.3.1.el6uek.x86_64 #1 SMP Fri Dec 9 18:57:35 EST 2011 x86_64 x86_64 x86_64 GNU/Linux ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.12.2013, 03:24 |
|
||
|
Регулярное падение сервера
|
|||
|---|---|---|---|
|
#18+
Лагутин АлександрМогут или являются ли ошибки в памяти причиной перезагрузок? Корректируемые ошибки по определению уже скорректированы ECC-логикой. Но достаточно часто корректируемая ошибка памяти на умирающем модуле памяти со временем вырождается в некорректируемую, которая с б о льшей вероятностью может вызвать аварийную остановку ядра. Также корректируемые ошибки могут идти в огромных количествах (многие тысячи в секунду), сильно нагружая обработчик, что в некоторых случаях может привести к "зависанию" или перезагрузке по вотчдогу. Лагутин АлександрКак найти сбойную линейку, в сервере? Всего 8 слотов, занято 4. Код: plaintext 1. 2. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2013, 13:28 |
|
||
|
Регулярное падение сервера
|
|||
|---|---|---|---|
|
#18+
Scott Tiger, спасибо за проявленный интерес к теме. С половиной вопросов разобрался, кроме причины. Для тех кому интересно: по поводу как найти сбойную линейку: [root@xxx-server pgsql]# dmidecode -t 17 . . . Handle 0x0036, DMI type 17, 27 bytes Memory Device Array Handle: 0x002E Error Information Handle: Not Provided Total Width: 72 Data Width: 64 Size: 2048 MB Form Factor: DIMM Set: 2 Locator: DIMM_B2 Bank Locator: NODE 0 CHANNEL 1 DIMM 1 Type: Other Type Detail: Synchronous Speed: 1333 MHz Manufacturer: 0x0198 Serial Number: 0x9832B89C Asset Tag: NO DIMM Part Number: 9965426-024.A00LF Потом значение локатора ищем на подписях к слотам памяти на материнской плате. По поводу Scott TigerТакже корректируемые ошибки могут идти в огромных количествах (многие тысячи в секунду) Я так понял до этого доводить нельзя: ■ UCEs occur and investigation shows that the errors originated from memory. In addition, a DIMM should be replaced whenever more than 24 Correctable Errors (CEs) originate in 24 hours from a single DIMM and no other DIMM is showing further CEs. Взято от сюда http://docs.oracle.com/cd/E19469-01/819-4363-12/819-4363-12.pdf В пятницу вытащил сбойную линейку. В воскресенье опять упал. На данный момент: [root@xxx-server pgsql]# mcelog --client Memory errors SOCKET 0 CHANNEL any DIMM any corrected memory errors: 158 total 0 in 24h uncorrected memory errors: 0 total 0 in 24h SOCKET 0 CHANNEL 1 DIMM 0 corrected memory errors: 146 total 146 in 24h uncorrected memory errors: 0 total 0 in 24h Per page corrected memory statistics: 1bb86000: total 3 seen "3 in 24h" online 1bb87000: total 3 seen "3 in 24h" online 1bb8e000: total 11 seen "11 in 24h" online triggered 1bb8f000: total 129 seen "129 in 24h" online triggered Контроллер памяти или проц? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.12.2013, 11:15 |
|
||
|
Регулярное падение сервера
|
|||
|---|---|---|---|
|
#18+
Если это и правда тампер (X4500/4540), то относительно модулей памяти есть следующие ограничения: Sun Fire X4500/X4540 Server Service Manual Part No. 819-4359-19Each CPU supports a maximum of four DIMMs. * Each pair of DIMMs must be identical (same manufacturer, size, and speed). * DIMM slots are paired and the DIMMs must be installed in pairs (0 and 1, 2 and 3). See FIGURE 3-29. The memory sockets are colored black or white to indicate which slots are paired by matching colors. * CPUs with only a single pair of DIMMs must have those DIMMs installed in that CPU’s white DIMM slots (0 and 1). See FIGURE 3-29. * Only PC3200 ECC Registered DIMMs are supported. Поэтому вынимание одного сбойного модуля привело систему в неподдерживаемую конфигурацию. Но, с другой стороны, в mcelog.txt видно: Код: plaintext Соответственно, это не тампер :) Что за система? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.12.2013, 12:28 |
|
||
|
|

start [/forum/topic.php?fid=25&msg=38512726&tid=1482668]: |
0ms |
get settings: |
10ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
37ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
47ms |
get tp. blocked users: |
1ms |
| others: | 12ms |
| total: | 141ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...