|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
Mike_gs94, сборка мусора? ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 15:47 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
31.01.2019 15:47, Симонов Денис пишет: > сборка мусора? на всех 56 ядрах? не верю. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 15:49 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
То же думали про сборку мусора, но на всех ядрах... ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 16:35 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
Mike_gs94, ну может и бага где-то в сервере, но теперь уже ловить поздно. Ждите следующего раза ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 16:37 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
админа ищите, MCSE. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 16:55 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
Итак, ситуация безрадостная. Лучше бы была явная ошибка, по крайней мере ясно было бы что исправлять. Диспозиция: 1. конфигурация техники и размер БД см. выше. 2. всё работало как часы с марта прошлого года. сервер был или 3.0.2 или 3.0.3 сейчас трудно установить. Что делали в последнее время: 1. в пятницу создали тригер на disconnect. триггер пишет в одну табличку и как потом выяснилось, при записи кидается ошибка нарушения первичного ключа. но она (ошибка) была не заметна. 2. в вс сделали бэкап/рестор бд. занимает весь процесс в районе 8 часов. 3. в среду могли обновить большое количество записей. точное количество трудно установить. возможно, до миллиона. До утра четверга система работала без нареканий. 1. Утром в четверг предприятие стало. База "зависла". На сервере в диспетчере задач процесс fbserver показывал 100% загрузку процессора (там два процессора по 28 ядер каждый, итого 56 ядер). 2. Местный сисадмин подождав некоторое время (20-30 минут) остановил процесс сервера (не срубил жестко, а именно остановил) и перегрузил сервер. По мере подключения пользователей к базе картина повторилась. 3. Опять остановили сервер и обновили до ФБ 3.0.4. Перегрузили. Не помогло. 4. обнаружили что при ресторе бд был выставлен кэш 2 000 000 страниц (16 Гб) вместо 20 000 000 (160 Гб). Остановили сервер и утилитой gfix увеличили кэш. Перезапустили. Не помогло. 5. Запретили пользователям входить в систему. Оставили только 20-30 самых критичных конектов для отгрузки продукции. С огромным трудом и паузами система ворочалась. На сервере по прежнему 100% загрузка. 6. обнаружили что тригер на дисконнект внутри кидает ошибку (см. выше). Удалили триггер и опять аккуратно перезагрузили сервер. Не помогло. 7. Начали искать в логах операционной системы, в логах RAID контроллера. Никакой подозрительной информации не обнаружено. 8. через несколько часов сисема самостоятельно пришла в нормальное состояние. Что это было? Сборка мусора? Но sweep interval в header page установлен в 0. Хотя mon$attachment и содержит информацию о сборщике. Массированные обновления происходили и раньше, но никогда не приводили к таким последствиям. ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 18:29 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
31.01.2019 18:29, sysdba22 пишет: > 2. Местный сисадмин подождав некоторое время (20-30 минут) остановил процесс сервера > (не срубил жестко, а именно остановил) как именно останавливал? Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 18:48 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
sysdba22Сборка мусора? Но sweep interval в header page установлен в 0. Парень, я, конечно, понимаю, что вы крутая контора, гедымин, все дела, но теперь реально пришло время чтобы начать-таки изучать азы в области администрирования Firebird, Windows и программирования для них. Sweep interval никак со сборкой мусора не связан. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 18:51 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
1. Заходят в сервисы. Находят сервис Firebird. Вызывают для него команду остановить. 2. Disabling Automatic Sweeping If you set the sweep interval to zero then automatic sweeping will be disabled. This implies that there will be no automatic housekeeping done so your database performance will not suffer as a result of the processing requirements of the automatic sweep. If you disable sweeping you are advised to run a manual sweep at regular intervals when the database is quiet. Alternatively, simply make sure that you take regular backups of the database and as this is something you should be doing anyway, it shouldn't be a problem. я не говорю что знаю всё. я вообще знаю мало. объясните, буду рад узнать новую информацию. заранее спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 19:07 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
авторСборка мусора? Но sweep interval в header page установлен в 0. Хотя mon$attachment и содержит информацию о сборщике. Если был sweep, то в логе fb должна быть соответствующая информация. ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 19:07 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
Очень интересно, как вообще удалось загрузить все 56 ядер? :) А при обычной работе сколько ядер задействуется? Нафига их столько? ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 19:14 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
sysdba22я вообще знаю мало. объясните, буду рад узнать новую информацию. Читать букварь вслух и с выражением это к kdv, у меня дикция плохая. http://www.ibase.ru/transactions/ http://www.ibase.ru/performance/ Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 19:15 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
DmSerОчень интересно, как вообще удалось загрузить все 56 ядер? :) Для ответа на этот вопрос нужен админ, способный применить совет Влада или Process Explorer. Но у них такого нет. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 19:18 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
DmSerОчень интересно, как вообще удалось загрузить все 56 ядер? :) обычное количество одновременных пользователей ~250. На пике может и 300 быть. сервер FB SuperServer 3. так вот ядра и грузятся... ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 19:29 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov Sweep interval никак со сборкой мусора не связан. несколько противоречит хотя бы этой странице: http://www.ibase.ru/garbage/ авторСамый известный момент сборки мусора – это sweep, автоматический (sweep interval > 0) или ручной (gfix -sweep db.gdb). ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 19:33 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
sysdba22несколько противоречит хотя бы этой странице "Каждый идиот - человек. Стало быть люди - идиоты." Твоя логика. Если sweep попутно собирает мусор, это вовсе не значит, что отключение sweep отключит сборку мусора. Иди уже читай http://www.ibase.ru/articles/ от корки до корки и не позорься. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 19:44 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
почему возникла тема свипа. потому что это был обычный день, с обычной работой пользователей. ничего не предвещало... одна из гипотез была, что при бэкапе/ресторе как-то установили sweep interval больше 0 и запустилась автоматическая сборка. почему ставим sweep 0? Это еще с девяностых тянется, с IB 5.6, с которого мы начинали. предпочитаем контролировать процессы вручную через бэкап/рестор. это вообще привычка выработанная годами. потому что только успешный бэкап/рестор на ранних версиях ib/yaffil/fb давал уверенность, что база целая и в ней не начало чего сыпаться. я вообще был в 600 км от этого предприятия и только с телефонной связью, так что дебагер оперативно запустить не мог, к сожалению. квалификация людей такая, какая она есть. я не думаю, что файреберду в нынешних условиях стоит щеголять требованием обязательного наличия системного программиста с++ высокого уровня в штате предприятия, да еще и с сертификатом MSCE. Как то это будет уж очень невыгодно, относительно конкурентов. знаю ли я что мусор убирается не только при свипе, но и при чтении записи, например? да знаю. но в момент "зависания" в mon$statements не было никаких подозрительных запросов на массовое чтение, которые можно было бы в чем-то подозревать. как, впрочем, и на массовое удаление или обновление. да, был на предприятии массовый update до этого. но такие апдейты там регулярно происходили и раньше, но не приводили к особым проблемам. по крайней мере таких "зависаний" вообще за 12 лет эксплуатации системы не было ни разу. не хочется, чтобы это была какая скрытая ошибка в фб. будем надеяться просто на неудачную сборку мусора. еще раз повторюсь, я был не на месте и не могу за всё ручаться. на будущее будем наблюдать, будем смотреть. огромное спасибо за помощь и советы. ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 19:58 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
и остается еще маленькая наводка с тригером на дисконект от бд, в котором кидалась ошибка на вставку записи в таблицу. при его удалении проблема вроде как не решилась, но всё же. не может быть такого, что из-за ошибки в этом триггере дисконнект не происходил а оставался висеть в каком-то промежуточном состоянии? постепенно заматывая нитями ядра? ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 20:08 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
PPS: и остается еще прогнать gfix. вдруг эта вся канитель из-за битой базы. но это как у них получится отключить всех пользователей. на выходных, возможно. ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 20:25 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
sysdba22, В 3-ке ошибки в триггере ON DISCONNECT пишутся в firebird.log ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 21:31 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
sysdba22я вообще был в 600 км от этого предприятия и только с телефонной связью, так что дебагер оперативно запустить не мог, к сожалению.Это не повод не учиться самому и не автоматизировать создание дампов\трассы стека. Это не сложно. Если сами не умеете и не хотите уметь - наймите тех, кто умеет, они есть. ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 21:33 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
sysdba22но в момент "зависания" в mon$statements не было никаких подозрительных запросов на массовое чтение 1) как быстро/долго выполнялись запросы к мониторингу в момент подвиса? В секундах. 2) на статистику mon$io_stats / mon$record_stats / mon$table_stats в разрезе времени никто не смотрел? sysdba22да, был на предприятии массовый update до этого не закончился ли он часом роллбеком, в отличие от предыдущих случаев? ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2019, 21:52 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
dimitrsysdba22но в момент "зависания" в mon$statements не было никаких подозрительных запросов на массовое чтение 1) как быстро/долго выполнялись запросы к мониторингу в момент подвиса? В секундах. 2) на статистику mon$io_stats / mon$record_stats / mon$table_stats в разрезе времени никто не смотрел? sysdba22да, был на предприятии массовый update до этого не закончился ли он часом роллбеком, в отличие от предыдущих случаев? 1) Запросы к мониторингу выполнялись долго от 1 мин до 5 мин 2) К сожалению нет... 3) Нет UPDATE закончился COMMIT ... |
|||
:
Нравится:
Не нравится:
|
|||
01.02.2019, 06:39 |
|
Срочно нужна помощь
|
|||
---|---|---|---|
#18+
sysdba22это вообще привычка выработанная годами."Мир меняется ..." (ц) "Братва и кольцо". Вырабатывая привычки, важно не забывать о своевременном обновлении оных. P.S. Если выделять на "предметные изучения" полчаса рабочего времени, то за двадцать лет ("с девяностых") набежит, примерно, 800 академических часов. Целый университет можно закончить. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.02.2019, 06:59 |
|
|
start [/forum/topic.php?fid=40&msg=39767796&tid=1560820]: |
0ms |
get settings: |
10ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
36ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
58ms |
get tp. blocked users: |
1ms |
others: | 314ms |
total: | 453ms |
0 / 0 |