Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
Приветствую коллеги. Проблема обозначилась в окончательном виде. В http://www.sql.ru/forum/1267380/mariadb-galera-cluster-zavisaut-zaprosy я писал, о том, что зависают отдельные запросы, но это "цветочки" по сравнению с тем, что происходит дальше. Через некоторое время с момента запуска (от 15 минут до нескольких дней) кластер становится колом - не принимает и не обрабатывает запросы приложений. В PROCESSLIST при этом висит некоторое количество запросов в статусе Query End, при попытке их "убить" статус меняется на Killed - и всё. В syslog\mysql-error.log может не быть ошибок совсем, а может быть что-то вроде Aug 3 10:43:32 ru-tul-dc01-db-galera-node1 mysqld[1122]: 2017-08-03 10:43:32 139707425306368 [Warning] Aborted connection 2905 to db: 'basename' user: 'username' host: 'ip' (Got an error reading communication packets) Aug 3 10:43:32 ru-tul-dc01-db-galera-node1 mysqld[1122]: 2017-08-03 10:43:32 139707424700160 [Warning] Aborted connection 2919 to db: 'basename' user: 'username' host' host: 'ip' (Got an error reading communication packets) и\или множество Aug 3 14:35:08 ru-tul-dc01-db-galera-node1 mysqld[1115]: 2017-08-03 14:35:08 140310822119168 [Warning] WSREP: certification interval for trx source: dcdccd42-7837-17837-11e7-a045-2a82ddbaac7a version: 3 local: 1 state: CERTIFYING flags: 1 conn_id: 1010 trx_id: 10244940 seqnos (l: 152638, g: 5113465, s: 5088151, d: -1, ts: 3445: 3445393337346) exceeds the limit of 16384) Единственный способ вернуть кластер к жизни (на время) - перезапустить ноду на которую ведется запись. Переносить mysqld в одну NUMA ноду пробовал - проблема остается. Помогите пожалуйста понять где грабли, уже голову сломал. Конфиг прилагаю. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.08.2017, 08:41 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ты performance schema принципиально смотреть не хочешь? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.08.2017, 18:09 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, похоже, что она выключена. Или я не то\ не там смотрю? MariaDB [(none)]> SHOW VARIABLES LIKE 'performance_schema'; +--------------------+-------+ | Variable_name | Value | +--------------------+-------+ | performance_schema | OFF | +--------------------+-------+ 1 row in set (0.00 sec) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.08.2017, 20:05 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, включил. MariaDB [(none)]> show variables like 'performance%'; +--------------------------------------------------------+-------+ | Variable_name | Value | +--------------------------------------------------------+-------+ | performance_schema | ON | | performance_schema_accounts_size | 100 | | performance_schema_digests_size | 10000 | | performance_schema_events_stages_history_long_size | 10000 | | performance_schema_events_stages_history_size | 10 | | performance_schema_events_statements_history_long_size | 10000 | | performance_schema_events_statements_history_size | 10 | | performance_schema_events_waits_history_long_size | 10000 | | performance_schema_events_waits_history_size | 10 | | performance_schema_hosts_size | 100 | | performance_schema_max_cond_classes | 80 | | performance_schema_max_cond_instances | 3300 | | performance_schema_max_digest_length | 1024 | | performance_schema_max_file_classes | 50 | | performance_schema_max_file_handles | 32768 | | performance_schema_max_file_instances | 3077 | | performance_schema_max_mutex_classes | 200 | | performance_schema_max_mutex_instances | 10000 | | performance_schema_max_rwlock_classes | 40 | | performance_schema_max_rwlock_instances | 5000 | | performance_schema_max_socket_classes | 10 | | performance_schema_max_socket_instances | 1020 | | performance_schema_max_stage_classes | 150 | | performance_schema_max_statement_classes | 188 | | performance_schema_max_table_handles | 4000 | | performance_schema_max_table_instances | 12500 | | performance_schema_max_thread_classes | 50 | | performance_schema_max_thread_instances | 1100 | | performance_schema_session_connect_attrs_size | 512 | | performance_schema_setup_actors_size | 100 | | performance_schema_setup_objects_size | 100 | | performance_schema_users_size | 100 | +--------------------------------------------------------+-------+ 32 rows in set (0.00 sec) На что стоит обратить внимание? К сожалению, доселе не работал с perfomance schema, потому прошу прощения за глупые вопросы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 01:12 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
авторПереносить mysqld в одну NUMA ноду пробовал - проблема остается. прямо сразу или спустя время? оно же обратно смигрирует, если нагрузка растет и ядро принимает решение подключить второй процессор. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 12:37 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
авторЕдинственный способ вернуть кластер к жизни (на время) - перезапустить ноду на которую ведется запись. Раз он какое-то время нормально работает, я все же считают это основанием заняться numa. Когда начинает тормозить, что видно в numastat -pm| grep mysqld ? если пара мегабайт - это нормально. Если сотни мегабайт - значит он мигрирует. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 12:44 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, через час-несколько часов ломается, без корреляции с NUMA. Вот вывод команды в состоянии "кластер стоит колом". numastat -pm| grep mysqld 5879 (mysqld) 52241.51 2614.92 54856.43 Прилагаю вывод SHOW PROCESSLIST, где видны зависшие запросы (айпи я "замазал") ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 19:33 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, ну 2 гб из 54 же мигрировало. Может там какой-то баг в дополнении к замедлению работы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 19:55 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, Не исключено... Но к разгадке "что же делать" это не ведет. Буду думать дальше. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 20:12 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, зафиксировать. И от замедления избавит и, возможно, вызванного этим бага. раз вам хватает 54 гб из 192, то оно может неплохо поработать на одной ноде. С производительностью процессора правда не понятно. А еще проверьте значение cat /sys/kernel/mm/ksm/merge_across_nodes ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 20:21 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, cat /sys/kernel/mm/ksm/merge_across_nodes 1 И вот сейчас у меня есть один единственный зависший запрос типа | 2641 | юзер | ip:49454 | база| Execute | 7571 | NULL | SELECT * FROM `таблица` WHERE useralias = '74224752' | 0.000 | Как бы извлечь максимум информации о том, что происходит с этим запросом? Если я просто вбиваю его в командную строку, он выполняется мгновенно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 23:27 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, с другой стороны cat /sys/kernel/mm/ksm/run 0 Т.е. ksm получается не запущен. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 23:30 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, не особо мне понятно где в данном случае смотрят всякие блокировки, но может это вкомпилено в innodb ? show engine innodb status; показывает их. Ну а что бы NUMA не добить до конца, если второй экземпляр тормозит? KSM не запущен, но ядро может и просто так решить выделить память из другой ноды, если не предприняты специальные действия - запуск mysql через numactl. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 23:39 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
а еще кажется что не запрос висит, а упавшая репликация никак не останавливает запросы во время выполнения которых все сломалось. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.08.2017, 23:53 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, так это же SELECT - он не вызывает изменений в базе и потому не реплицируется никуда. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.08.2017, 00:01 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, зато он блокировки чтения накладывает и тд. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.08.2017, 00:03 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
не хотите нуму исправлять - вот вам man gdb. А че мелочиться. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.08.2017, 00:04 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, не могу понять как ее лучше исправить. Выключить в опциях ядра? Выключить в опциях mysqld? Урезать innodb_buffer_pool_size до половины RAM? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.08.2017, 00:22 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, ну что непонятного в numactl? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.08.2017, 00:36 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, Не вполне очевидно что делать - man короткий и малопонятный (лично мне) . Вот какая картина сейчас: numactl --hardware available: 2 nodes (0-1) node 0 cpus: 0 1 2 3 4 5 6 7 16 17 18 19 20 21 22 23 node 0 size: 96849 MB node 0 free: 60960 MB node 1 cpus: 8 9 10 11 12 13 14 15 24 25 26 27 28 29 30 31 node 1 size: 96957 MB node 1 free: 90813 MB node distances: node 0 1 0: 10 21 1: 21 10 numactl --show mysqld policy: default preferred node: current physcpubind: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 cpubind: 0 1 nodebind: 0 1 membind: 0 1 Мне, получается, нужно сделать так, чтобы mysqld работал в рамках только одной ноды (например, 1). Мне нужно установить это командой вроде numactl -cpunodebind=1 --membind=1 mysqld ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.08.2017, 01:00 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, эту команду придется вставить куда-нибудь в процесс запуска mysqld. Она не позволяет менять настройки у уже запущенных процессов. Не знаю почему так. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.08.2017, 01:05 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, Может быть, порекомендуете как с помощью Perfomance Schema посмотреть что происходит с зависшими запросами? К сожалению, не получается найти информацию самостоятельно, вероятно я не то и не там ищу. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.08.2017, 14:32 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
посмотреть что делает зависший процесс select * from EVENTS_WAITS_CURRENT where THREAD_ID=3 посмотреть что ждали процессы select THREAD_ID, EVENT_ID, EVENT_NAME, SOURCE, TIMER_WAIT, OBJECT_INSTANCE_BEGIN, OPERATION from EVENTS_WAITS_HISTORY --where THREAD_ID=3 order by THREAD_ID, EVENT_ID; ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.08.2017, 17:38 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, Спасибо! При очередном зависании соберу данные. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.08.2017, 17:49 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, счетчики производительности предназначены для анализа производительности, а у вас навсегда зависает. в gdb надо смотреть. Ну или все же попытаться выровнять ситуацию с NUMA в надежде, что влияет на синхронизацию в wsrep-кластере тоже. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.08.2017, 18:03 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, таблица events_waits_current пуста на обеих нодах. На первой ноде (на которую идет запись) висят 10 запросов в статусе Execute, Query end, на второй - тоже 10 запросов (видимо, они же , но не точно, потому что сами запросы на второй ноде не показаны в PROCESSLIST) в статусе sleep. В syslog нет ошибок, в mysql-error нет ошибок. Кластер стоит колом, новые запросы первая нода не принимает. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.08.2017, 19:16 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
events_waits_history ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.08.2017, 22:52 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, SELECT * FROM `events_waits_history`; Empty set (0.00 sec) А вот SELECT * FROM `performance_schema.events_waits_summary_by_thread_by_event_name` where THREAD_ID=1 дал данные, прилагаю. Это снято при одном зависшем процессе, висяшем около 36654с. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 07:58 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, Разобрался почему было пусто - были включены не все инструменты в perfomance schema. Сейчас включил , данные есть (SELECT * FROM events_waits_current возвращает 110 значений). Нужно ли перезапустить mysql или данные по зависшему треду уже есть в perfomance schema? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 10:14 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ну запусти селект и посомтри. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 12:05 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, пока не зависают запросы, испугались... Оффтоп: что почитать по MySQL в разрезе администрирования, оптимизации? Ситуативного чтения форумов мало, нужны фундаментальные знания. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 14:43 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
Автор Света Смирнова (Sveta Smirnova) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 15:17 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
https://www.percona.com/blog/2016/09/08/mysql-replication-troubleshooting-q/ вроде еще книжки выходили. точно есть записи выступлений с Хайлоада. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 15:21 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
Только там ничего нет про эту модную wsrep-репликацию. Да и про NUMA тоже. Думать надо и маны читать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 15:30 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaevScareCrow, SELECT * FROM `events_waits_history`; Empty set (0.00 sec) А вот SELECT * FROM `performance_schema.events_waits_summary_by_thread_by_event_name` where THREAD_ID=1 дал данные, прилагаю. Это снято при одном зависшем процессе, висяшем около 36654с. судя по логу у тя оно по I/O загибается. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 15:46 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, а вот Лешик уехал из Белгорода и там ему показали машину с NUMA. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 16:14 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwindScareCrow, а вот Лешик уехал из Белгорода и там ему показали машину с NUMA. чего? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2017, 16:22 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, Вот выборка по всем wait/io - всё плохо? MariaDB [performance_schema]> select * from events_waits_summary_global_by_event_name where event_name like 'wait/io/%'; +----------------------------------------+------------+------------------+----------------+----------------+----------------+ | EVENT_NAME | COUNT_STAR | SUM_TIMER_WAIT | MIN_TIMER_WAIT | AVG_TIMER_WAIT | MAX_TIMER_WAIT | +----------------------------------------+------------+------------------+----------------+----------------+----------------+ | wait/io/file/sql/map | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/binlog | 1776321 | 46938108218000 | 0 | 26424000 | 10284188000 | | wait/io/file/sql/binlog_index | 30 | 7341779500 | 0 | 244725500 | 2599827000 | | wait/io/file/sql/relaylog | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/relaylog_index | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/casetest | 5 | 81014000 | 0 | 16202500 | 49286000 | | wait/io/file/sql/dbopt | 603 | 4872328000 | 0 | 8080000 | 195723000 | | wait/io/file/sql/des_key_file | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/ERRMSG | 5 | 74544000 | 0 | 14908500 | 41116000 | | wait/io/file/sql/select_to_file | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/file_parser | 88 | 1184569500 | 0 | 13461000 | 228296000 | | wait/io/file/sql/FRM | 206 | 7370089000 | 0 | 35777000 | 276097500 | | wait/io/file/sql/global_ddl_log | 2 | 15370000 | 0 | 7685000 | 12350000 | | wait/io/file/sql/load | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/LOAD_FILE | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/log_event_data | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/log_event_info | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/master_info | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/misc | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/partition | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/pid | 3 | 88070000 | 0 | 29356500 | 59483000 | | wait/io/file/sql/query_log | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/relay_log_info | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/send_file | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/slow_log | 2220 | 30118099000 | 0 | 13566500 | 159940000 | | wait/io/file/sql/tclog | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/trigger_name | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/trigger | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/init | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/binlog_state | 6 | 21552000 | 0 | 3592000 | 12455000 | | wait/io/file/mysys/proc_meminfo | 0 | 0 | 0 | 0 | 0 | | wait/io/file/mysys/charset | 3 | 29342000 | 0 | 9780500 | 16428000 | | wait/io/file/mysys/cnf | 0 | 0 | 0 | 0 | 0 | | wait/io/file/sql/wsrep_gra_log | 0 | 0 | 0 | 0 | 0 | | wait/io/file/myisam/data_tmp | 0 | 0 | 0 | 0 | 0 | | wait/io/file/myisam/dfile | 79 | 1009222000 | 0 | 12774500 | 213580000 | | wait/io/file/myisam/kfile | 75 | 3163909000 | 0 | 42185000 | 304135000 | | wait/io/file/myisam/log | 0 | 0 | 0 | 0 | 0 | | wait/io/file/csv/metadata | 0 | 0 | 0 | 0 | 0 | | wait/io/file/csv/data | 0 | 0 | 0 | 0 | 0 | | wait/io/file/csv/update | 0 | 0 | 0 | 0 | 0 | | wait/io/file/myisammrg/MRG | 0 | 0 | 0 | 0 | 0 | | wait/io/file/innodb/innodb_data_file | 715124 | 542412579473000 | 0 | 758487000 | 47767724000 | | wait/io/file/innodb/innodb_log_file | 7057858 | 7915465909524500 | 0 | 1121511000 | 64100438500 | | wait/io/file/innodb/innodb_temp_file | 0 | 0 | 0 | 0 | 0 | | wait/io/file/aria/translog | 8 | 67388000 | 0 | 8423500 | 26534000 | | wait/io/file/aria/MAI | 87378 | 281719691500 | 0 | 3224000 | 1730800000 | | wait/io/file/aria/MAD | 10808 | 85843318500 | 0 | 7942500 | 3159835500 | | wait/io/file/aria/control | 3 | 44830000 | 0 | 14943000 | 24633000 | | wait/io/table/sql/handler | 2297850360 | 6558797263111000 | 145000 | 2854000 | 13095096500 | | wait/io/socket/sql/server_tcpip_socket | 0 | 0 | 0 | 0 | 0 | | wait/io/socket/sql/server_unix_socket | 0 | 0 | 0 | 0 | 0 | | wait/io/socket/sql/client_connection | 241347433 | 2602163544042500 | 0 | 10781500 | 8486614000 | +----------------------------------------+------------+------------------+----------------+----------------+----------------+ По iotop выходит на обеих нодах 1000-3000 K/s записи. Что можно подкрутить - размер кэша таблиц, размер лога транзакий? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.08.2017, 09:08 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ну для начала проверь свободное место на всех разделах ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.08.2017, 11:35 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
Код: sql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.08.2017, 11:38 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrownetwindScareCrow, а вот Лешик уехал из Белгорода и там ему показали машину с NUMA. чего? кругозор надо расширять, вот чего. Если запросы встали навечно, то это скорее проблема не производительности, а синхронизации и внутренностей wsrep. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.08.2017, 11:43 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, Вот данные по свободному месту df -h Файловая система Размер Использовано Дост Использовано% Cмонтировано в /dev/md0p1 176G 95G 72G 57% / udev 10M 0 10M 0% /dev tmpfs 38G 9,5M 38G 1% /run tmpfs 95G 0 95G 0% /dev/shm tmpfs 5,0M 0 5,0M 0% /run/lock tmpfs 95G 0 95G 0% /sys/fs/cgroup а вот результат запроса +--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+ | EVENT_NAME | COUNT_READ | READ_GB | AVG_READ_KB | COUNT_WRITE | WRITE_GB | AVG_WRITE_KB | TOTAL_GB | WRITE_PCT | +--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+ | wait/io/file/sql/map | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/binlog | 1 | 0.00 | 0.36 | 67808 | 0.08 | 1.19 | 0.08 | 99.9996 | | wait/io/file/sql/binlog_index | 2 | 0.00 | 0.55 | 1 | 0.00 | 0.56 | 0.00 | 33.9623 | | wait/io/file/sql/relaylog | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/relaylog_index | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/casetest | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/dbopt | 4 | 0.00 | 0.06 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/des_key_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/ERRMSG | 3 | 0.00 | 22.80 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/select_to_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/file_parser | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/FRM | 72 | 0.00 | 1.09 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/global_ddl_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/load | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/LOAD_FILE | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/log_event_data | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/log_event_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/master_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/misc | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/partition | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/pid | 0 | 0.00 | 0.00 | 1 | 0.00 | 0.00 | 0.00 | 100.0000 | | wait/io/file/sql/query_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/relay_log_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/send_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/slow_log | 0 | 0.00 | 0.00 | 4155 | 0.00 | 0.36 | 0.00 | 100.0000 | | wait/io/file/sql/tclog | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/trigger_name | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/trigger | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/init | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/binlog_state | 1 | 0.00 | 0.01 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/mysys/proc_meminfo | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/mysys/charset | 1 | 0.00 | 22.95 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/mysys/cnf | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/sql/wsrep_gra_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/myisam/data_tmp | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/myisam/dfile | 25 | 0.00 | 0.58 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/myisam/kfile | 36 | 0.00 | 0.23 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/myisam/log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/csv/metadata | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/csv/data | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/csv/update | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/myisammrg/MRG | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/innodb/innodb_data_file | 43073 | 0.67 | 16.21 | 9704 | 0.15 | 16.00 | 0.81 | 18.1883 | | wait/io/file/innodb/innodb_log_file | 6 | 0.00 | 11.08 | 2258 | 0.07 | 30.28 | 0.07 | 99.9028 | | wait/io/file/innodb/innodb_temp_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/aria/translog | 2 | 0.00 | 4.02 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | | wait/io/file/aria/MAI | 7440 | 0.00 | 0.65 | 177250 | 0.01 | 0.03 | 0.01 | 52.4782 | | wait/io/file/aria/MAD | 3721 | 0.03 | 8.00 | 0 | 0.00 | 0.00 | 0.03 | 0.0000 | | wait/io/file/aria/control | 1 | 0.00 | 0.05 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 | +--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+ ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.08.2017, 12:03 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
блин, ну оформи ты их по человечески, чтобы глаза не ломать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.08.2017, 12:04 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, поставил innodb_flush_log_at_trx_commit = 0, перезапустил (последние присланные данные взяты после перезапуска). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.08.2017, 12:05 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, +--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+| EVENT_NAME | COUNT_READ | READ_GB | AVG_READ_KB | COUNT_WRITE | WRITE_GB | AVG_WRITE_KB | TOTAL_GB | WRITE_PCT |+--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+| wait/io/file/sql/map | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/binlog | 1 | 0.00 | 0.36 | 90199 | 0.10 | 1.19 | 0.10 | 99.9997 || wait/io/file/sql/binlog_index | 2 | 0.00 | 0.55 | 1 | 0.00 | 0.56 | 0.00 | 33.9623 || wait/io/file/sql/relaylog | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/relaylog_index | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/casetest | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/dbopt | 4 | 0.00 | 0.06 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/des_key_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/ERRMSG | 3 | 0.00 | 22.80 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/select_to_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/file_parser | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/FRM | 72 | 0.00 | 1.09 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/global_ddl_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/load | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/LOAD_FILE | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/log_event_data | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/log_event_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/master_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/misc | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/partition | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/pid | 0 | 0.00 | 0.00 | 1 | 0.00 | 0.00 | 0.00 | 100.0000 || wait/io/file/sql/query_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/relay_log_info | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/send_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/slow_log | 0 | 0.00 | 0.00 | 4156 | 0.00 | 0.36 | 0.00 | 100.0000 || wait/io/file/sql/tclog | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/trigger_name | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/trigger | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/init | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/binlog_state | 1 | 0.00 | 0.01 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/mysys/proc_meminfo | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/mysys/charset | 1 | 0.00 | 22.95 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/mysys/cnf | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/sql/wsrep_gra_log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisam/data_tmp | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisam/dfile | 25 | 0.00 | 0.58 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisam/kfile | 36 | 0.00 | 0.23 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisam/log | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/csv/metadata | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/csv/data | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/csv/update | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/myisammrg/MRG | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/innodb/innodb_data_file | 46734 | 0.72 | 16.20 | 18003 | 0.27 | 16.00 | 1.00 | 27.5642 || wait/io/file/innodb/innodb_log_file | 6 | 0.00 | 11.08 | 3103 | 0.09 | 29.03 | 0.09 | 99.9262 || wait/io/file/innodb/innodb_temp_file | 0 | 0.00 | 0.00 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/aria/translog | 2 | 0.00 | 4.02 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 || wait/io/file/aria/MAI | 7440 | 0.00 | 0.65 | 177250 | 0.01 | 0.03 | 0.01 | 52.4782 || wait/io/file/aria/MAD | 3721 | 0.03 | 8.00 | 0 | 0.00 | 0.00 | 0.03 | 0.0000 || wait/io/file/aria/control | 1 | 0.00 | 0.05 | 0 | 0.00 | 0.00 | 0.00 | 0.0000 |+--------------------------------------+------------+---------+-------------+-------------+----------+--------------+----------+-----------+ Красивее не получилось:( ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.08.2017, 12:16 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, Настроил mariadb так, что iostat показывает очень низкую нагрузку. Запросы всеравно фризятся. Не знаю уже куда смотреть. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 11:53 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
а NUMA так и не настроил. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 12:09 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, Выключил NUMA на уровне grub. Посмотрим что будет. dmesg | grep -i numa [ 0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-3.16.0-4-amd64 root=UUID=1f341e21-440b-44af-a5ec-278575270a6b ro rootdelay=10 numa=off quiet [ 0.000000] NUMA turned off [ 0.000000] Kernel command line: BOOT_IMAGE=/boot/vmlinuz-3.16.0-4-amd64 root=UUID=1f341e21-440b-44af-a5ec-278575270a6b ro rootdelay=10 numa=off quiet [ 1.217240] pci_bus 0000:80: on NUMA node 0 [ 1.220796] pci_bus 0000:ff: on NUMA node 0 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 12:36 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, не, так не надо. Это просто значит, что все 192 гб будут отображены линейно без различий для ОС, а процессы за кулисами будут происходить те же самые. Нужно вставить numactl с соответствующими параметрами привязки в скрипт запуска mysqld ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 13:02 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, Что-то вроде "numactl --interleave all" в [mysqld_safe]? Или не там смотрю? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 13:09 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, по логике - да . На практике у меня нет таких инсталляций. Есть пара kvm и там mysql действительно перестал вести себя непредсказуемо. Я предлагаю опробовать именно bind, а не interleave. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 13:13 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, нашёл параметр innodb_numa_interleave=1 , попробую с ним. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 13:18 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, это - шняга. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 13:20 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, bind - одна из функций numactl или что-то иное? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 13:26 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, политика привязки. Нужно привязать процесс к памяти и физическому сокету. Я же не будут за вас ман читать. А если это повлияет, то имеет смысл потом перейти на что-то типа prefered - нестрогая привязка. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 13:36 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, Сейчас запускаю вот так: ExecStart=/usr/bin/numactl --cpunodebind=0 --membind=0 /usr/sbin/mysqld $MYSQLD_OPTS $_WSREP_NEW_CLUSTER $_WSREP_START_POSITION numastat -p $(pidof mysqld) показывает вот что (в Node 1 всё-таки что-то есть) Per-node process memory usage (in MBs) for PID 3114 (mysqld) Node 0 Node 1 Total --------------- --------------- --------------- Huge 0.00 0.00 0.00 Heap 3855.70 0.00 3855.70 Stack 8438.64 0.00 8438.64 Private 1142.05 15.96 1158.01 ---------------- --------------- --------------- --------------- Total 13436.39 15.96 13452.35 Я все правильно делаю? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 18:01 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, то же самое поведение у себя и с kvm наблюдаю. Почти всегда есть с десяток мб,но там и механизм используется другой, не numactl. Вроде неплохо выглядит. Надо смотреть как дальше со временем будет развиваться ситуация. Что с торможением при этом вот тут http://www.sql.ru/forum/1267776/mariadb-galera-zagruzka-cpu-na-sleyve-ogromna-na-mastere-v-predelah-normy?hl= Улучшилась ситуация? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 09:52 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, К сожалению нет, запросы продолжали виснуть (примерно через 3 часа после запуска серверов). Вернул как было настройки NUMA (убрал кастомный файл из systemd) и при том упростил конфиг до вот такого: [client] port = 3306 socket = /var/run/mysqld/mysqld.sock # This was formally known as [safe_mysqld]. Both versions are currently parsed. [mysqld_safe] socket = /var/run/mysqld/mysqld.sock nice = 0 [mysqld] # # * Basic Settings # user = mysql pid-file = /var/run/mysqld/mysqld.pid socket = /var/run/mysqld/mysqld.sock port = 3306 basedir = /usr datadir = /var/lib/mysql tmpdir = /tmp lc_messages_dir = /usr/share/mysql lc_messages = en_US skip-external-locking performance_schema=ON # MyISAM # key-buffer-size = 32M myisam-recover = FORCE,BACKUP # SAFETY # max-allowed-packet = 16M max-connect-errors = 1000000 skip-name-resolve # DATA STORAGE # datadir = /var/lib/mysql/ # BINARY LOGGING # log-bin = /var/lib/mysql/mysql-bin expire-logs-days = 14 sync-binlog = 1 # CACHES AND LIMITS # tmp-table-size = 32M max-heap-table-size = 32M query-cache-type = 0 query-cache-size = 0 max-connections = 500 thread-cache-size = 50 open-files-limit = 65535 table-definition-cache = 4096 table-open-cache = 4096 innodb_flush_log_at_trx_commit = 1 # INNODB # innodb-flush-method = O_DIRECT innodb-log-files-in-group = 2 innodb-log-file-size = 512M innodb-flush-log-at-trx-commit = 1 innodb-file-per-table = 1 innodb-buffer-pool-size = 160G # LOGGING # log-error = /var/lib/mysql/mysql-error.log log-queries-not-using-indexes = 1 slow-query-log = 1 slow-query-log-file = /var/lib/mysql/mysql-slow.log #GALERA binlog_format=ROW default-storage-engine=innodb innodb_autoinc_lock_mode=2 bind-address=0.0.0.0 # Galera Provider Configuration wsrep_on=ON wsrep_provider=/usr/lib/galera/libgalera_smm.so # Galera Cluster Configuration wsrep_cluster_name="galera-cluster" wsrep_cluster_address="gcomm://ip1,ip2" # Galera Synchronization Configuration wsrep_sst_method=xtrabackup-v2 wsrep_sst_auth=user:password # Galera Node Configuration wsrep_node_address="ip_ноды" wsrep_node_name="galera-node1" # Tuning wsrep_retry_autocommit = 4 wsrep_slave_threads = 64 wsrep_provider_options="gcache.size=5G; gcs.fc_limit = 320; gcs.fc_factor=0.8;" !includedir /etc/mysql/conf.d/ Конфиг явно не оптимальный, высока нагрузка на диск (из-за innodb-flush-log-at-trx-commit и маленького innodb-log-file-size) - но запросы не виснут! Погонял стресс-тесты на одной ноде (запись только на нее, чтение и с нее и со второй) примерно 12 часов - нет ошибок. Теперь для записи выбрал другую, тестирую. Чудеса в решете. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 12:08 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, ну так понятно что wsrep - сырая лажа, но второй кластер тормозить то перестал? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 12:11 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
авторsync-binlog = 1 innodb_flush_log_at_trx_commit = 1 innodb-flush-method = O_DIRECT вы, простите, в банковской отрасли? там такие вопросы про NUMA не задают. Не нужно вам это. Чесслово. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 12:13 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, Почему в банковской области? Потому что настройки параноидально безопасны - чтобы ни одну транзакцию не потерять? :) Вторая нода загружена лютыми селектами, примерно половина ядер (16 из 32). Мне уже это не кажется проблемой - фактически она не тормозит, просто активно использует проц. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 12:21 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, да. про sync_binlog вообще по-моему мало кто даже знает. Вы сделали на второй ноде те же манипуляции с NUMA или нет? Тормозить перестало? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 12:29 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, делал на обеих нодах синхронно, на ситуацию с загрузкой CPU и быстродействием никак не повлияло. Думаю, потому что ни одна из NUMA-нод памяти не была заполнена полностью. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 12:31 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, Проблема оформилась в окончательном виде. Если в качестве "мастера" (и чтение и запись) использовать 1ю ноду (а со второй только чтение) - вышеуказанные проблемы. Но если "мастером" поставить 2ю ноду (а с 1й только читать) - все хорошо, запросы не виснут. Сервера абсолютно идентичны железно\программно. Для чистоты эксперимента я вчера переставил ос на проблемной первой ноде, скопировал туда (подправив имена-адреса) конфиги мускула и галеры со второй ноды - проблема не пропала. Что-то уже пахнет чертовщиной:) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2017, 09:55 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, В общем, все интересно. Если писать на вторую ноду (а читать с обеих) - все работает как часы. Если писать на первую ноду (а читать с обеих) - запросы виснут. Переставил ОС на первой ноде, поменял сетевой кабель, воткнул обе ноды в одну циску - проблема не уходит. Чудеса. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2017, 09:49 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
ScareCrow, В общем, все интересно. Если писать на вторую ноду (а читать с обеих) - все работает как часы. Если писать на первую ноду (а читать с обеих) - запросы виснут. Переставил ОС на первой ноде, поменял сетевой кабель, воткнул обе ноды в одну циску - проблема не уходит. Чудеса. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2017, 09:51 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
dpronyaev, ну попробуйте написать конкретно в список рассылки wsrep. или переставьте все на percona - там хотя бы не пытаются изображать локомотив mysql и передовые возможности не разрабатывают как в maria. Отличия при одинаковых конфигурациях - это очень странно (опять же, больше намекает на numa) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2017, 09:53 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, да, решение с перконой назревало. Настроил кластер, разворачиваю базу. Расскажу о впечатлениях:) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2017, 17:58 |
|
||
|
Mariadb Galera Cluster: кластер рандомно останавливается
|
|||
|---|---|---|---|
|
#18+
netwind, Переехал на Percona. Больше запросы не виснут ни на одной ноде. Гы. Пока единственная проблема, что в системе и в mysql (проверял с помощью SELECT NOW () )правильное время, а mysqld.log - на три часа отстает. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.08.2017, 09:22 |
|
||
|
|

start [/forum/search_topic.php?author=%D0%90%D0%BB%D0%B5%D0%BA%D1%814&author_mode=last_topics&do_search=1]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
get settings: |
8ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
46ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
76ms |
get tp. blocked users: |
1ms |
| others: | 440ms |
| total: | 623ms |

| 0 / 0 |
