|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
перенос на другой диск не помог. Уже 13:52, а чекпоинт ожидался в 13:21 Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37.
Код: sql 1. 2. 3. 4. 5.
... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 13:55 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
_torero, А вот эти сообщения вас не смущают? причем дважды в течении дня Код: html 1. 2.
... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 14:36 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
пока батарейку не замените , кеширование на запись не будет ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 14:42 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
_torerobk0010, Хронология событий: 1. После НГ в первый день нас завалили звонками - не работает. 2. Разбирались несколько дней - таких симптомов раньше не видели. Только на второй-третий день обратили внимание на низкую дисковую скорость. 3. В утилите контроллера было сообщение "не работает аккумулятор контроллера". Поменяли с другой идентичной железки на заранее исправную. Ошибка не исчезла. В то же время на втором ошибка не появилась. 4. Поменяли контроллеры местами - ошибка исчезла на обоих серверах. 5. Выгрузили БД. 6. Переинициализировали инстанс, тк на фоне непонимания происходящего было недоверие в корректности содержимого чанков. 7. Сейчас вторая неделя поиска причин. 8. Параллельно на этой же машине создан второй инстанс для другой системы. С ним проблем нет и близко таких. Пользовательская нагрузка на эту систему на порядок ниже. Настройки config для обеих систем одинаковые. Сейчас немного разошлись, но не принципиально. 15.01.2014 проблема с контроллером решена заменой на аналогичный. В логах больше ничего не появилось ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 17:18 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
Проблема найдена. Всем спасибо за участие в ее решении. На фоне явных проблем с железом и попыток исключить эту составляющую нами не прекращались поиски проблем в самой программе. Найден запрос, который валит сервер: Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97. 98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111. 112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141. 142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155. 156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169. 170. 171. 172. 173. 174. 175. 176. 177. 178. 179. 180. 181. 182. 183. 184. 185. 186.
Этот запрос сгенерирован ORM EntityFramework из linq Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
Помимо объектов из контекста базы данных в join соединении участвует список ключей plans. ORM его преобразовала в множество подзапросов к systables. Причем чем больше мощность множества, тем больше подзапросов к systables. После этого запроса сервер останавливается 10 минут. Умирает сразу. Чекпоинт попал под внимание, тк он выполняется часто и первым попадал под зависание. Свою часть темы закрываю. За эти дни я и мои коллеги узнали что-то новое за более чем 15 лет работы с информиксом. Было интересно. Еще раз спасибо! ps. и все таки странно, что informix позволил пользовательскому запросу так глубоко парализовать работу субд, что даже подключиться к БД в новой сессии невозможно. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 22:38 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
Однако я угадал :) _torero15.01.2014 проблема с контроллером решена заменой на аналогичный. В логах больше ничего не появилось Круть :) Но достаточно было только батарейку :) Производительность вернулась ? Надо заказывать новую батарейку, так как раз он так часто начал её заряжать, то каюк. Вообще "батарейки" которые аккумуляторы имеют срок жизни всего 2-3 года. Я бы провёл переучёт и заменил все пожилые батарейки. Не нашёл с ходу чей контроллер HP выдаёт за свой - наверняка LSI или Adaptec. Если напишите pci-id (lspci и lspci -n), то можно посмотреть чья батарейка вам подойдёт ибо "фирменная" от HP должна стоить дофига :) И ещё немного про контроллеры - на случай когда вы готовы рискнуть целостностью данных в большинстве контроллеров есть настройка "не переключаться на Write-Through при отсутстивии батарейки". Но включать без совсем крайней нужны не стоит. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 22:39 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
"ps. и все таки странно, что informix позволил пользовательскому запросу так глубоко парализовать работу субд, что даже подключиться к БД в новой сессии невозможно. " ужас какой-то ! изучайте материальную часть , и не фиг пинать на зеркало , что фейсбук кривой. у вас железо дохнет , субд не оптимизирован - а вы всё зеркало пинаете . ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 23:04 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
Яковлев Павел, сначала меняли батарейку на заведомо исправную. "неисправную" поставили на донора. В результате на доноре "неисправная" стала нормальной. А новая исправная тоже стала "неисправной". Поменяли контроллеры между двумя одинаковыми серверами - ошибка везде исчезла. Мы уже рекомендовали заказчику закупить в запас этих батареек. Серверам действительно уже третий год. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 23:05 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
_toreroЯковлев Павел, сначала меняли батарейку на заведомо исправную. "неисправную" поставили на донора. В результате на доноре "неисправная" стала нормальной. А новая исправная тоже стала "неисправной". Поменяли контроллеры между двумя одинаковыми серверами - ошибка везде исчезла. опаааа так быть не должно, может и правда контроллер... или контакт отходит из-за микротрещин.... ну или барабашка... А контроллер на базе чипа PMC-Sierra pm8011. Их продукцию ни разу не использовал. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 23:18 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
aist-psk, почему сразу ужас. во-первых, с железом проблем нет. была проблема с зарядкой батарейки. Сейчас не диагностируется. Различные тесты не выявили ни то что ошибок, даже предупреждений. Учитывая найденный проблемный запрос, версию о проблемах с железом можно полностью из рассмотрения убрать. во-вторых, субд была оптимизирована достаточно, для конкретно этой задачи. ни с быстродействием, ни с обслуживанием, ни с надежностью проблем близко не было. в-третьих, мы любим информикс и на него не пиняем. мне было бы интереснее услышать от вас предположении, почему такой запрос привел к невозможности новых подключений. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 23:18 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
Яковлев Павел, мы между собой решили, что проблема контактов - окислились, запылились. За последние две недели проблем на обоих серверах нет. Говорить о более серьезных проблемах пока оснований нет. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 23:25 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
_toreroЗа эти дни я и мои коллеги узнали что-то новое за более чем 15 лет работы с информиксом. Было интересно. Еще раз спасибо! Это еще раз доказывает простоту и надежность в эксплуатации informix. Мы бед с ним реальных не знали так долго, что он нам не давал повода его глубоко изучать. Хотя и вправду это очень интересно! ... |
|||
:
Нравится:
Не нравится:
|
|||
29.01.2014, 23:51 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
_torerops. и все таки странно, что informix позволил пользовательскому запросу так глубоко парализовать работу субд, что даже подключиться к БД в новой сессии невозможно.скорее всего баг в оптимизаторе, при построении плана лочит что-то, выделяя кучу памяти. Можно попробовать перед запросом выполнить set optimization low. Завалить можно любую субд, банальным запросом: select * from огромная_таблица,огромная_таблица,огромная_таблица,огромная_таблица,огромная_таблица order by 1,2,3,4,5,6 защититься от такого сложно. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.01.2014, 12:38 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
SELECT CAST(1 AS int) AS X FROM INFORMIX.SYSTABLES WHERE TABID=1 это не обращение к системной таблице, это просто способ создать множество из одной строки, типа select 1 from table(set{1}) или select 1 from dual ... |
|||
:
Нравится:
Не нравится:
|
|||
30.01.2014, 12:41 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
Drive Array - Array Accelerator Battery is charging. The Array Accelerator Cache will be enabled once the battery has been charged. это сообщение может быть если электричество выключить на час. Т.е. это нормально если у вас проблемы с питанием. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.01.2014, 12:48 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
Журавлев ДенисЗавалить можно любую субд, банальным запросом: select * from огромная_таблица,огромная_таблица,огромная_таблица,огромная_таблица,огромная_таблица order by 1,2,3,4,5,6 защититься от такого сложно. Этот запрос не валит сервер. Он ожидаемо его грузит и потребляет ресурсы. При этом: - новые соединения проходят, - onparams выводит справку по себе (в нашем случае просто запуск onparams давал shared memory not initialized) - и достаточно быстро получаем -567 SQL error: Cannot write sorted rows.-179 ISAM error: no free disk space for sort То есть все контролируемо, все ожидаемо и мы получаем вполне конкретный ответ от СУБД, что ей не понравилось. В каждый момент времени можно диагностировать потребление ресурсов. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.01.2014, 13:57 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
Журавлев ДенисSELECT CAST(1 AS int) AS X FROM INFORMIX.SYSTABLES WHERE TABID=1 это не обращение к системной таблице, это просто способ создать множество из одной строки, типа select 1 from table(set{1}) или select 1 from dual И тем не менее это таки обращение к системной таблице. Если хочется получить 1 as integer, то лучше использовать select 1 from table(set{1}) ... |
|||
:
Нравится:
Не нравится:
|
|||
30.01.2014, 22:16 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
Журавлев ДенисМожно попробовать перед запросом выполнить set optimization low. Результат тот же - завис. ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2014, 09:30 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
Выбегалло Если хочется получить 1 as integer, то лучше использовать select 1 from table(set{1}) Кто бы это рассказал ORM EntityFramework из linq )))))))) А во время выполнения этого запроса, что говорит onstat -k? ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2014, 13:05 |
|
Сервер не дает коннектиться и пропускает чекпойнты
|
|||
---|---|---|---|
#18+
IkirА во время выполнения этого запроса, что говорит onstat -k? например так Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
или так Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24.
... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2014, 22:54 |
|
|
start [/forum/topic.php?fid=44&msg=38542094&tid=1606990]: |
0ms |
get settings: |
25ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
37ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
425ms |
get tp. blocked users: |
2ms |
others: | 315ms |
total: | 841ms |
0 / 0 |