powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / MySQL [игнор отключен] [закрыт для гостей] / Mariadb Galera Cluster: кластер рандомно останавливается
69 сообщений из 69, показаны все 3 страниц
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500074
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Приветствую коллеги. Проблема обозначилась в окончательном виде.

В http://www.sql.ru/forum/1267380/mariadb-galera-cluster-zavisaut-zaprosy я писал, о том, что зависают отдельные запросы, но это "цветочки" по сравнению с тем, что происходит дальше. Через некоторое время с момента запуска (от 15 минут до нескольких дней) кластер становится колом - не принимает и не обрабатывает запросы приложений.

В PROCESSLIST при этом висит некоторое количество запросов в статусе Query End, при попытке их "убить" статус меняется на Killed - и всё.

В syslog\mysql-error.log может не быть ошибок совсем, а может быть что-то вроде

Aug 3 10:43:32 ru-tul-dc01-db-galera-node1 mysqld[1122]: 2017-08-03 10:43:32 139707425306368 [Warning] Aborted connection 2905 to db: 'basename' user: 'username' host: 'ip' (Got an error reading communication packets)
Aug 3 10:43:32 ru-tul-dc01-db-galera-node1 mysqld[1122]: 2017-08-03 10:43:32 139707424700160 [Warning] Aborted connection 2919 to db: 'basename' user: 'username' host' host: 'ip' (Got an error reading communication packets)

и\или множество

Aug 3 14:35:08 ru-tul-dc01-db-galera-node1 mysqld[1115]: 2017-08-03 14:35:08 140310822119168 [Warning] WSREP: certification interval for trx source: dcdccd42-7837-17837-11e7-a045-2a82ddbaac7a version: 3 local: 1 state: CERTIFYING flags: 1 conn_id: 1010 trx_id: 10244940 seqnos (l: 152638, g: 5113465, s: 5088151, d: -1, ts: 3445: 3445393337346) exceeds the limit of 16384)


Единственный способ вернуть кластер к жизни (на время) - перезапустить ноду на которую ведется запись. Переносить mysqld в одну NUMA ноду пробовал - проблема остается. Помогите пожалуйста понять где грабли, уже голову сломал. Конфиг прилагаю.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500445
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ты performance schema принципиально смотреть не хочешь?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500517
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow, похоже, что она выключена. Или я не то\ не там смотрю?

MariaDB [(none)]> SHOW VARIABLES LIKE 'performance_schema';
+--------------------+-------+
| Variable_name | Value |
+--------------------+-------+
| performance_schema | OFF |
+--------------------+-------+
1 row in set (0.00 sec)
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500574
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

включил.

MariaDB [(none)]> show variables like 'performance%';
+--------------------------------------------------------+-------+
| Variable_name | Value |
+--------------------------------------------------------+-------+
| performance_schema | ON |
| performance_schema_accounts_size | 100 |
| performance_schema_digests_size | 10000 |
| performance_schema_events_stages_history_long_size | 10000 |
| performance_schema_events_stages_history_size | 10 |
| performance_schema_events_statements_history_long_size | 10000 |
| performance_schema_events_statements_history_size | 10 |
| performance_schema_events_waits_history_long_size | 10000 |
| performance_schema_events_waits_history_size | 10 |
| performance_schema_hosts_size | 100 |
| performance_schema_max_cond_classes | 80 |
| performance_schema_max_cond_instances | 3300 |
| performance_schema_max_digest_length | 1024 |
| performance_schema_max_file_classes | 50 |
| performance_schema_max_file_handles | 32768 |
| performance_schema_max_file_instances | 3077 |
| performance_schema_max_mutex_classes | 200 |
| performance_schema_max_mutex_instances | 10000 |
| performance_schema_max_rwlock_classes | 40 |
| performance_schema_max_rwlock_instances | 5000 |
| performance_schema_max_socket_classes | 10 |
| performance_schema_max_socket_instances | 1020 |
| performance_schema_max_stage_classes | 150 |
| performance_schema_max_statement_classes | 188 |
| performance_schema_max_table_handles | 4000 |
| performance_schema_max_table_instances | 12500 |
| performance_schema_max_thread_classes | 50 |
| performance_schema_max_thread_instances | 1100 |
| performance_schema_session_connect_attrs_size | 512 |
| performance_schema_setup_actors_size | 100 |
| performance_schema_setup_objects_size | 100 |
| performance_schema_users_size | 100 |
+--------------------------------------------------------+-------+
32 rows in set (0.00 sec)


На что стоит обратить внимание? К сожалению, доселе не работал с perfomance schema, потому прошу прощения за глупые вопросы.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500636
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторПереносить mysqld в одну NUMA ноду пробовал - проблема остается.
прямо сразу или спустя время? оно же обратно смигрирует, если нагрузка растет и ядро принимает решение подключить второй процессор.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500637
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторЕдинственный способ вернуть кластер к жизни (на время) - перезапустить ноду на которую ведется запись.
Раз он какое-то время нормально работает, я все же считают это основанием заняться numa.

Когда начинает тормозить, что видно в numastat -pm| grep mysqld ?
если пара мегабайт - это нормально. Если сотни мегабайт - значит он мигрирует.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500723
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

через час-несколько часов ломается, без корреляции с NUMA. Вот вывод команды в состоянии "кластер стоит колом".

numastat -pm| grep mysqld
5879 (mysqld) 52241.51 2614.92 54856.43

Прилагаю вывод SHOW PROCESSLIST, где видны зависшие запросы (айпи я "замазал")
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500734
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, ну 2 гб из 54 же мигрировало.
Может там какой-то баг в дополнении к замедлению работы.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500743
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

Не исключено... Но к разгадке "что же делать" это не ведет. Буду думать дальше.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500745
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, зафиксировать. И от замедления избавит и, возможно, вызванного этим бага.
раз вам хватает 54 гб из 192, то оно может неплохо поработать на одной ноде.
С производительностью процессора правда не понятно.

А еще проверьте значение
cat /sys/kernel/mm/ksm/merge_across_nodes
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500836
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

cat /sys/kernel/mm/ksm/merge_across_nodes
1

И вот сейчас у меня есть один единственный зависший запрос типа

| 2641 | юзер | ip:49454 | база| Execute | 7571 | NULL | SELECT * FROM `таблица` WHERE useralias = '74224752' | 0.000 |

Как бы извлечь максимум информации о том, что происходит с этим запросом?

Если я просто вбиваю его в командную строку, он выполняется мгновенно.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500837
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

с другой стороны cat /sys/kernel/mm/ksm/run
0


Т.е. ksm получается не запущен.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500840
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, не особо мне понятно где в данном случае смотрят всякие блокировки, но может это вкомпилено в innodb ?
show engine innodb status; показывает их.

Ну а что бы NUMA не добить до конца, если второй экземпляр тормозит?
KSM не запущен, но ядро может и просто так решить выделить память из другой ноды, если не предприняты специальные действия - запуск mysql через numactl.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500842
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
а еще кажется что не запрос висит, а упавшая репликация никак не останавливает запросы во время выполнения которых все сломалось.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500843
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

так это же SELECT - он не вызывает изменений в базе и потому не реплицируется никуда.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500844
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, зато он блокировки чтения накладывает и тд.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500845
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
не хотите нуму исправлять - вот вам man gdb.
А че мелочиться.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500847
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

не могу понять как ее лучше исправить. Выключить в опциях ядра? Выключить в опциях mysqld? Урезать innodb_buffer_pool_size до половины RAM?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500851
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, ну что непонятного в numactl?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500856
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

Не вполне очевидно что делать - man короткий и малопонятный (лично мне) . Вот какая картина сейчас:
numactl --hardware
available: 2 nodes (0-1)
node 0 cpus: 0 1 2 3 4 5 6 7 16 17 18 19 20 21 22 23
node 0 size: 96849 MB
node 0 free: 60960 MB
node 1 cpus: 8 9 10 11 12 13 14 15 24 25 26 27 28 29 30 31
node 1 size: 96957 MB
node 1 free: 90813 MB
node distances:
node 0 1
0: 10 21
1: 21 10

numactl --show mysqld
policy: default
preferred node: current
physcpubind: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
cpubind: 0 1
nodebind: 0 1
membind: 0 1


Мне, получается, нужно сделать так, чтобы mysqld работал в рамках только одной ноды (например, 1).

Мне нужно установить это командой вроде numactl -cpunodebind=1 --membind=1 mysqld ?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39500857
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, эту команду придется вставить куда-нибудь в процесс запуска mysqld. Она не позволяет менять настройки у уже запущенных процессов. Не знаю почему так.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501245
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

Может быть, порекомендуете как с помощью Perfomance Schema посмотреть что происходит с зависшими запросами? К сожалению, не получается найти информацию самостоятельно, вероятно я не то и не там ищу.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501438
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
посмотреть что делает зависший процесс
select * from EVENTS_WAITS_CURRENT where THREAD_ID=3


посмотреть что ждали процессы
select THREAD_ID, EVENT_ID, EVENT_NAME, SOURCE, TIMER_WAIT, OBJECT_INSTANCE_BEGIN, OPERATION from EVENTS_WAITS_HISTORY --where THREAD_ID=3
order by THREAD_ID, EVENT_ID;
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501447
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

Спасибо! При очередном зависании соберу данные.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501453
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, счетчики производительности предназначены для анализа производительности, а у вас навсегда зависает.
в gdb надо смотреть.

Ну или все же попытаться выровнять ситуацию с NUMA в надежде, что влияет на синхронизацию в wsrep-кластере тоже.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501491
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

таблица events_waits_current пуста на обеих нодах.

На первой ноде (на которую идет запись) висят 10 запросов в статусе Execute, Query end, на второй - тоже 10 запросов (видимо, они же , но не точно, потому что сами запросы на второй ноде не показаны в PROCESSLIST) в статусе sleep. В syslog нет ошибок, в mysql-error нет ошибок. Кластер стоит колом, новые запросы первая нода не принимает.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501563
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
events_waits_history ?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501609
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

SELECT * FROM `events_waits_history`;
Empty set (0.00 sec)



А вот SELECT * FROM `performance_schema.events_waits_summary_by_thread_by_event_name` where THREAD_ID=1 дал данные, прилагаю. Это снято при одном зависшем процессе, висяшем около 36654с.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501658
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

Разобрался почему было пусто - были включены не все инструменты в perfomance schema. Сейчас включил , данные есть (SELECT * FROM events_waits_current возвращает 110 значений). Нужно ли перезапустить mysql или данные по зависшему треду уже есть в perfomance schema?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501757
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ну запусти селект и посомтри.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501895
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

пока не зависают запросы, испугались... Оффтоп: что почитать по MySQL в разрезе администрирования, оптимизации? Ситуативного чтения форумов мало, нужны фундаментальные знания.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501914
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Автор Света Смирнова (Sveta Smirnova)
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501918
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
https://www.percona.com/blog/2016/09/08/mysql-replication-troubleshooting-q/

вроде еще книжки выходили.
точно есть записи выступлений с Хайлоада.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501925
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Только там ничего нет про эту модную wsrep-репликацию. Да и про NUMA тоже.

Думать надо и маны читать.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501929
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaevScareCrow,

SELECT * FROM `events_waits_history`;
Empty set (0.00 sec)



А вот SELECT * FROM `performance_schema.events_waits_summary_by_thread_by_event_name` where THREAD_ID=1 дал данные, прилагаю. Это снято при одном зависшем процессе, висяшем около 36654с.

судя по логу у тя оно по I/O загибается.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501948
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ScareCrow, а вот Лешик уехал из Белгорода и там ему показали машину с NUMA.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39501960
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindScareCrow, а вот Лешик уехал из Белгорода и там ему показали машину с NUMA.
чего?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39502308
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

Вот выборка по всем wait/io - всё плохо?
MariaDB [performance_schema]> select * from events_waits_summary_global_by_event_name where event_name like 'wait/io/%';
+----------------------------------------+------------+------------------+----------------+----------------+----------------+
| EVENT_NAME | COUNT_STAR | SUM_TIMER_WAIT | MIN_TIMER_WAIT | AVG_TIMER_WAIT | MAX_TIMER_WAIT |
+----------------------------------------+------------+------------------+----------------+----------------+----------------+
| wait/io/file/sql/map | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/binlog | 1776321 | 46938108218000 | 0 | 26424000 | 10284188000 |
| wait/io/file/sql/binlog_index | 30 | 7341779500 | 0 | 244725500 | 2599827000 |
| wait/io/file/sql/relaylog | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/relaylog_index | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/casetest | 5 | 81014000 | 0 | 16202500 | 49286000 |
| wait/io/file/sql/dbopt | 603 | 4872328000 | 0 | 8080000 | 195723000 |
| wait/io/file/sql/des_key_file | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/ERRMSG | 5 | 74544000 | 0 | 14908500 | 41116000 |
| wait/io/file/sql/select_to_file | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/file_parser | 88 | 1184569500 | 0 | 13461000 | 228296000 |
| wait/io/file/sql/FRM | 206 | 7370089000 | 0 | 35777000 | 276097500 |
| wait/io/file/sql/global_ddl_log | 2 | 15370000 | 0 | 7685000 | 12350000 |
| wait/io/file/sql/load | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/LOAD_FILE | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/log_event_data | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/log_event_info | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/master_info | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/misc | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/partition | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/pid | 3 | 88070000 | 0 | 29356500 | 59483000 |
| wait/io/file/sql/query_log | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/relay_log_info | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/send_file | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/slow_log | 2220 | 30118099000 | 0 | 13566500 | 159940000 |
| wait/io/file/sql/tclog | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/trigger_name | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/trigger | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/init | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/binlog_state | 6 | 21552000 | 0 | 3592000 | 12455000 |
| wait/io/file/mysys/proc_meminfo | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/mysys/charset | 3 | 29342000 | 0 | 9780500 | 16428000 |
| wait/io/file/mysys/cnf | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/sql/wsrep_gra_log | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/myisam/data_tmp | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/myisam/dfile | 79 | 1009222000 | 0 | 12774500 | 213580000 |
| wait/io/file/myisam/kfile | 75 | 3163909000 | 0 | 42185000 | 304135000 |
| wait/io/file/myisam/log | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/csv/metadata | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/csv/data | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/csv/update | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/myisammrg/MRG | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/innodb/innodb_data_file | 715124 | 542412579473000 | 0 | 758487000 | 47767724000 |
| wait/io/file/innodb/innodb_log_file | 7057858 | 7915465909524500 | 0 | 1121511000 | 64100438500 |
| wait/io/file/innodb/innodb_temp_file | 0 | 0 | 0 | 0 | 0 |
| wait/io/file/aria/translog | 8 | 67388000 | 0 | 8423500 | 26534000 |
| wait/io/file/aria/MAI | 87378 | 281719691500 | 0 | 3224000 | 1730800000 |
| wait/io/file/aria/MAD | 10808 | 85843318500 | 0 | 7942500 | 3159835500 |
| wait/io/file/aria/control | 3 | 44830000 | 0 | 14943000 | 24633000 |
| wait/io/table/sql/handler | 2297850360 | 6558797263111000 | 145000 | 2854000 | 13095096500 |
| wait/io/socket/sql/server_tcpip_socket | 0 | 0 | 0 | 0 | 0 |
| wait/io/socket/sql/server_unix_socket | 0 | 0 | 0 | 0 | 0 |
| wait/io/socket/sql/client_connection | 241347433 | 2602163544042500 | 0 | 10781500 | 8486614000 |
+----------------------------------------+------------+------------------+----------------+----------------+----------------+



По iotop выходит на обеих нодах 1000-3000 K/s записи.

Что можно подкрутить - размер кэша таблиц, размер лога транзакий?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39502429
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ну для начала проверь свободное место на всех разделах
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39502432
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Код: sql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
SELECT EVENT_NAME, 
       COUNT_READ, 
       IFNULL(ROUND(SUM_NUMBER_OF_BYTES_READ/1024/1024/1024, 2), 0.00) AS READ_GB,
       IFNULL(ROUND((SUM_NUMBER_OF_BYTES_READ/COUNT_READ)/1024, 2), 0.00) AS AVG_READ_KB,
       COUNT_WRITE, 
       IFNULL(ROUND(SUM_NUMBER_OF_BYTES_WRITE/1024/1024/1024, 2), 0.00) AS WRITE_GB,
       IFNULL(ROUND((SUM_NUMBER_OF_BYTES_WRITE/COUNT_WRITE)/1024, 2), 0.00) AS AVG_WRITE_KB,
       IFNULL(ROUND((SUM_NUMBER_OF_BYTES_READ + SUM_NUMBER_OF_BYTES_WRITE)/1024/1024/1024, 2), 0.00) AS TOTAL_GB, 
       IFNULL(100-((SUM_NUMBER_OF_BYTES_READ/(SUM_NUMBER_OF_BYTES_READ+SUM_NUMBER_OF_BYTES_WRITE))*100), 0.00) AS WRITE_PCT 
  FROM FILE_SUMMARY_BY_EVENT_NAME
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39502438
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ScareCrownetwindScareCrow, а вот Лешик уехал из Белгорода и там ему показали машину с NUMA.
чего?
кругозор надо расширять, вот чего.

Если запросы встали навечно, то это скорее проблема не производительности, а синхронизации и внутренностей wsrep.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39502458
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

Вот данные по свободному месту

df -h
Файловая система Размер Использовано Дост Использовано% Cмонтировано в
/dev/md0p1 176G 95G 72G 57% /
udev 10M 0 10M 0% /dev
tmpfs 38G 9,5M 38G 1% /run
tmpfs 95G 0 95G 0% /dev/shm
tmpfs 5,0M 0 5,0M 0% /run/lock
tmpfs 95G 0 95G 0% /sys/fs/cgroup






а вот результат запроса

+--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+
| EVENT_NAME | COUNT_READ | READ_GB | AVG_READ_KB | COUNT_WRITE | WRITE_GB | AVG_WRITE_KB | TOTAL_GB | WRITE_PCT |
+--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+
| wait/io/file/sql/map | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/binlog | 1 | 0.00 | 0.36 | 67808 | 0.08 | 1.19 | 0.08 | 99.9996 |
| wait/io/file/sql/binlog_index | 2 | 0.00 | 0.55 | 1 | 0.00 | 0.56 | 0.00 | 33.9623 |
| wait/io/file/sql/relaylog | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/relaylog_index | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/casetest | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/dbopt | 4 | 0.00 | 0.06 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/des_key_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/ERRMSG | 3 | 0.00 | 22.80 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/select_to_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/file_parser | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/FRM | 72 | 0.00 | 1.09 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/global_ddl_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/load | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/LOAD_FILE | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/log_event_data | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/log_event_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/master_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/misc | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/partition | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/pid | 0 | 0.00 | 0.00 | 1 | 0.00 | 0.00 | 0.00 | 100.0000 |
| wait/io/file/sql/query_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/relay_log_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/send_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/slow_log | 0 | 0.00 | 0.00 | 4155 | 0.00 | 0.36 | 0.00 | 100.0000 |
| wait/io/file/sql/tclog | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/trigger_name | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/trigger | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/init | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/binlog_state | 1 | 0.00 | 0.01 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/mysys/proc_meminfo | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/mysys/charset | 1 | 0.00 | 22.95 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/mysys/cnf | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/sql/wsrep_gra_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/myisam/data_tmp | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/myisam/dfile | 25 | 0.00 | 0.58 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/myisam/kfile | 36 | 0.00 | 0.23 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/myisam/log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/csv/metadata | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/csv/data | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/csv/update | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/myisammrg/MRG | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/innodb/innodb_data_file | 43073 | 0.67 | 16.21 | 9704 | 0.15 | 16.00 | 0.81 | 18.1883 |
| wait/io/file/innodb/innodb_log_file | 6 | 0.00 | 11.08 | 2258 | 0.07 | 30.28 | 0.07 | 99.9028 |
| wait/io/file/innodb/innodb_temp_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/aria/translog | 2 | 0.00 | 4.02 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
| wait/io/file/aria/MAI | 7440 | 0.00 | 0.65 | 177250 | 0.01 | 0.03 | 0.01 | 52.4782 |
| wait/io/file/aria/MAD | 3721 | 0.03 | 8.00 | 0 | 0.00 | 0.00 | 0.03 | 0.0000 |
| wait/io/file/aria/control | 1 | 0.00 | 0.05 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |
+--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39502460
Фотография ScareCrow
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
блин, ну оформи ты их по человечески, чтобы глаза не ломать.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39502461
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

поставил innodb_flush_log_at_trx_commit = 0, перезапустил (последние присланные данные взяты после перезапуска).
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39502472
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

+--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+| EVENT_NAME | COUNT_READ | READ_GB | AVG_READ_KB | COUNT_WRITE | WRITE_GB | AVG_WRITE_KB | TOTAL_GB | WRITE_PCT |+--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+| wait/io/file/sql/map | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/binlog | 1 | 0.00 | 0.36 | 90199 | 0.10 | 1.19 | 0.10 | 99.9997 || wait/io/file/sql/binlog_index | 2 | 0.00 | 0.55 | 1 | 0.00 | 0.56 | 0.00 | 33.9623 || wait/io/file/sql/relaylog | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/relaylog_index | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/casetest | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/dbopt | 4 | 0.00 | 0.06 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/des_key_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/ERRMSG | 3 | 0.00 | 22.80 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/select_to_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/file_parser | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/FRM | 72 | 0.00 | 1.09 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/global_ddl_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/load | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/LOAD_FILE | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/log_event_data | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/log_event_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/master_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/misc | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/partition | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/pid | 0 | 0.00 | 0.00 | 1 | 0.00 | 0.00 | 0.00 | 100.0000 || wait/io/file/sql/query_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/relay_log_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/send_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/slow_log | 0 | 0.00 | 0.00 | 4156 | 0.00 | 0.36 | 0.00 | 100.0000 || wait/io/file/sql/tclog | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/trigger_name | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/trigger | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/init | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/binlog_state | 1 | 0.00 | 0.01 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/mysys/proc_meminfo | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/mysys/charset | 1 | 0.00 | 22.95 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/mysys/cnf | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/wsrep_gra_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisam/data_tmp | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisam/dfile | 25 | 0.00 | 0.58 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisam/kfile | 36 | 0.00 | 0.23 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisam/log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/csv/metadata | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/csv/data | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/csv/update | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisammrg/MRG | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/innodb/innodb_data_file | 46734 | 0.72 | 16.20 | 18003 | 0.27 | 16.00 | 1.00 | 27.5642 || wait/io/file/innodb/innodb_log_file | 6 | 0.00 | 11.08 | 3103 | 0.09 | 29.03 | 0.09 | 99.9262 || wait/io/file/innodb/innodb_temp_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/aria/translog | 2 | 0.00 | 4.02 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/aria/MAI | 7440 | 0.00 | 0.65 | 177250 | 0.01 | 0.03 | 0.01 | 52.4782 || wait/io/file/aria/MAD | 3721 | 0.03 | 8.00 | 0 | 0.00 | 0.00 | 0.03 | 0.0000 || wait/io/file/aria/control | 1 | 0.00 | 0.05 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |+--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+

Красивее не получилось:(
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503233
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

Настроил mariadb так, что iostat показывает очень низкую нагрузку. Запросы всеравно фризятся. Не знаю уже куда смотреть.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503251
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
а NUMA так и не настроил.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503272
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

Выключил NUMA на уровне grub. Посмотрим что будет.

dmesg | grep -i numa
[ 0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-3.16.0-4-amd64 root=UUID=1f341e21-440b-44af-a5ec-278575270a6b ro rootdelay=10 numa=off quiet
[ 0.000000] NUMA turned off
[ 0.000000] Kernel command line: BOOT_IMAGE=/boot/vmlinuz-3.16.0-4-amd64 root=UUID=1f341e21-440b-44af-a5ec-278575270a6b ro rootdelay=10 numa=off quiet
[ 1.217240] pci_bus 0000:80: on NUMA node 0
[ 1.220796] pci_bus 0000:ff: on NUMA node 0
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503288
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, не, так не надо. Это просто значит, что все 192 гб будут отображены линейно без различий для ОС, а процессы за кулисами будут происходить те же самые.

Нужно вставить numactl с соответствующими параметрами привязки в скрипт запуска mysqld
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503291
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

Что-то вроде "numactl --interleave all" в [mysqld_safe]? Или не там смотрю?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503296
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, по логике - да . На практике у меня нет таких инсталляций. Есть пара kvm и там mysql действительно перестал вести себя непредсказуемо.

Я предлагаю опробовать именно bind, а не interleave.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503307
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

нашёл параметр innodb_numa_interleave=1 , попробую с ним.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503316
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, это - шняга.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503325
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

bind - одна из функций numactl или что-то иное?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503338
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, политика привязки. Нужно привязать процесс к памяти и физическому сокету. Я же не будут за вас ман читать.
А если это повлияет, то имеет смысл потом перейти на что-то типа prefered - нестрогая привязка.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503639
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

Сейчас запускаю вот так:

ExecStart=/usr/bin/numactl --cpunodebind=0 --membind=0 /usr/sbin/mysqld $MYSQLD_OPTS $_WSREP_NEW_CLUSTER $_WSREP_START_POSITION

numastat -p $(pidof mysqld) показывает вот что (в Node 1 всё-таки что-то есть)

Per-node process memory usage (in MBs) for PID 3114 (mysqld)
Node 0 Node 1 Total
--------------- --------------- ---------------
Huge 0.00 0.00 0.00
Heap 3855.70 0.00 3855.70
Stack 8438.64 0.00 8438.64
Private 1142.05 15.96 1158.01
---------------- --------------- --------------- ---------------
Total 13436.39 15.96 13452.35


Я все правильно делаю?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503836
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, то же самое поведение у себя и с kvm наблюдаю. Почти всегда есть с десяток мб,но там и механизм используется другой, не numactl.
Вроде неплохо выглядит. Надо смотреть как дальше со временем будет развиваться ситуация.

Что с торможением при этом вот тут http://www.sql.ru/forum/1267776/mariadb-galera-zagruzka-cpu-na-sleyve-ogromna-na-mastere-v-predelah-normy?hl=
Улучшилась ситуация?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503950
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

К сожалению нет, запросы продолжали виснуть (примерно через 3 часа после запуска серверов). Вернул как было настройки NUMA (убрал кастомный файл из systemd) и при том упростил конфиг до вот такого:


[client]
port = 3306
socket = /var/run/mysqld/mysqld.sock

# This was formally known as [safe_mysqld]. Both versions are currently parsed.
[mysqld_safe]
socket = /var/run/mysqld/mysqld.sock
nice = 0

[mysqld]
#
# * Basic Settings
#
user = mysql
pid-file = /var/run/mysqld/mysqld.pid
socket = /var/run/mysqld/mysqld.sock
port = 3306
basedir = /usr
datadir = /var/lib/mysql
tmpdir = /tmp
lc_messages_dir = /usr/share/mysql
lc_messages = en_US
skip-external-locking
performance_schema=ON

# MyISAM #
key-buffer-size = 32M
myisam-recover = FORCE,BACKUP

# SAFETY #
max-allowed-packet = 16M
max-connect-errors = 1000000
skip-name-resolve

# DATA STORAGE #
datadir = /var/lib/mysql/

# BINARY LOGGING #
log-bin = /var/lib/mysql/mysql-bin
expire-logs-days = 14
sync-binlog = 1

# CACHES AND LIMITS #
tmp-table-size = 32M
max-heap-table-size = 32M
query-cache-type = 0
query-cache-size = 0
max-connections = 500
thread-cache-size = 50
open-files-limit = 65535
table-definition-cache = 4096
table-open-cache = 4096
innodb_flush_log_at_trx_commit = 1

# INNODB #
innodb-flush-method = O_DIRECT
innodb-log-files-in-group = 2
innodb-log-file-size = 512M
innodb-flush-log-at-trx-commit = 1
innodb-file-per-table = 1
innodb-buffer-pool-size = 160G

# LOGGING #
log-error = /var/lib/mysql/mysql-error.log
log-queries-not-using-indexes = 1
slow-query-log = 1
slow-query-log-file = /var/lib/mysql/mysql-slow.log



#GALERA
binlog_format=ROW
default-storage-engine=innodb
innodb_autoinc_lock_mode=2
bind-address=0.0.0.0
# Galera Provider Configuration
wsrep_on=ON
wsrep_provider=/usr/lib/galera/libgalera_smm.so
# Galera Cluster Configuration
wsrep_cluster_name="galera-cluster"
wsrep_cluster_address="gcomm://ip1,ip2"
# Galera Synchronization Configuration
wsrep_sst_method=xtrabackup-v2
wsrep_sst_auth=user:password
# Galera Node Configuration
wsrep_node_address="ip_ноды"
wsrep_node_name="galera-node1"

# Tuning
wsrep_retry_autocommit = 4
wsrep_slave_threads = 64
wsrep_provider_options="gcache.size=5G; gcs.fc_limit = 320; gcs.fc_factor=0.8;"




!includedir /etc/mysql/conf.d/


Конфиг явно не оптимальный, высока нагрузка на диск (из-за innodb-flush-log-at-trx-commit и маленького innodb-log-file-size) - но запросы не виснут! Погонял стресс-тесты на одной ноде (запись только на нее, чтение и с нее и со второй) примерно 12 часов - нет ошибок. Теперь для записи выбрал другую, тестирую. Чудеса в решете.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503952
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, ну так понятно что wsrep - сырая лажа, но второй кластер тормозить то перестал?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503954
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторsync-binlog = 1

innodb_flush_log_at_trx_commit = 1
innodb-flush-method = O_DIRECT

вы, простите, в банковской отрасли? там такие вопросы про NUMA не задают.

Не нужно вам это. Чесслово.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503959
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

Почему в банковской области? Потому что настройки параноидально безопасны - чтобы ни одну транзакцию не потерять? :)

Вторая нода загружена лютыми селектами, примерно половина ядер (16 из 32). Мне уже это не кажется проблемой - фактически она не тормозит, просто активно использует проц.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503963
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, да. про sync_binlog вообще по-моему мало кто даже знает.

Вы сделали на второй ноде те же манипуляции с NUMA или нет? Тормозить перестало?
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39503966
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

делал на обеих нодах синхронно, на ситуацию с загрузкой CPU и быстродействием никак не повлияло. Думаю, потому что ни одна из NUMA-нод памяти не была заполнена полностью.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39504336
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
dpronyaev,

Проблема оформилась в окончательном виде. Если в качестве "мастера" (и чтение и запись) использовать 1ю ноду (а со второй только чтение) - вышеуказанные проблемы. Но если "мастером" поставить 2ю ноду (а с 1й только читать) - все хорошо, запросы не виснут. Сервера абсолютно идентичны железно\программно. Для чистоты эксперимента я вчера переставил ос на проблемной первой ноде, скопировал туда (подправив имена-адреса) конфиги мускула и галеры со второй ноды - проблема не пропала. Что-то уже пахнет чертовщиной:)
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39504782
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

В общем, все интересно. Если писать на вторую ноду (а читать с обеих) - все работает как часы. Если писать на первую ноду (а читать с обеих) - запросы виснут. Переставил ОС на первой ноде, поменял сетевой кабель, воткнул обе ноды в одну циску - проблема не уходит. Чудеса.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39504784
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ScareCrow,

В общем, все интересно. Если писать на вторую ноду (а читать с обеих) - все работает как часы. Если писать на первую ноду (а читать с обеих) - запросы виснут. Переставил ОС на первой ноде, поменял сетевой кабель, воткнул обе ноды в одну циску - проблема не уходит. Чудеса.
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39504785
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dpronyaev, ну попробуйте написать конкретно в список рассылки wsrep. или переставьте все на percona - там хотя бы не пытаются изображать локомотив mysql и передовые возможности не разрабатывают как в maria.

Отличия при одинаковых конфигурациях - это очень странно (опять же, больше намекает на numa)
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39505177
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

да, решение с перконой назревало. Настроил кластер, разворачиваю базу. Расскажу о впечатлениях:)
...
Рейтинг: 0 / 0
Mariadb Galera Cluster: кластер рандомно останавливается
    #39506067
dpronyaev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
netwind,

Переехал на Percona. Больше запросы не виснут ни на одной ноде. Гы.

Пока единственная проблема, что в системе и в mysql (проверял с помощью SELECT NOW () )правильное время, а mysqld.log - на три часа отстает.
...
Рейтинг: 0 / 0
69 сообщений из 69, показаны все 3 страниц
Форумы / MySQL [игнор отключен] [закрыт для гостей] / Mariadb Galera Cluster: кластер рандомно останавливается
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]