|
Подскажите как найти ошибку?
|
|||
---|---|---|---|
#18+
Всем привет! Есть у меня два sql сервер версия "Microsoft SQL Server 2017 (RTM-CU20) (KB4541283) - 14.0.3294.2 (X64) Mar 13 2020 14:53:45 Copyright (C) 2017 Microsoft Corporation Enterprise Edition: Core-based Licensing (64-bit) on Windows Server 2016 Standard 10.0 <X64> (Build 14393: )" Работают в группе доступности AlwaysOn. Периодически, несколько раз в день, в разное время, вторичная реплика "отваливается" порт 1433 становиться не доступным. Точный текст ошибки такой "com.microsoft.sqlserver.jdbc.SQLServerException: The TCP/IP connection to the host server-2.local, port 1433 has failed. Error: "connect timed out. Verify the connection properties. Make sure that an instance of SQL Server is running on the host and accepting TCP/IP connections at the port. Make sure that TCP connections to the port are not blocked by a firewall.". В логах sql и ОС ничего нет, т.е. там нет записей об ошибках. Количество соединений с SQL сервер не увеличивается, т.е. не отличается от нормального, когда сервер работает в обычном режиме. Через несколько минут, сервер сам возвращается в нормальное, рабочее состояние. Подскажите пожалуйста, какие показатели нужно мониторить, чтобы найти причину отказа sql принимать новые соединения? ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 15:14 |
|
Подскажите как найти ошибку?
|
|||
---|---|---|---|
#18+
Mandarin, сетевики что говорят? ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 15:51 |
|
Подскажите как найти ошибку?
|
|||
---|---|---|---|
#18+
Критик, Ошибок в DNS, VPN и сети в целом нет. Есть ещё пару серверов приложений (Tomcat) куда приходят запросы от клиентов, там максимальное количество соединений в пуле 1500 (на два сервера в сумме 3000) т.е. сервера приложений не могу сгенерировать столько коннектов чтобы достичь максимального придела 32 тыс. соединений, но иногда перезагрузка одного из серверов приложений решает проблему и SQL снова становиться доступен. Из этого я делаю вывод (могу ошибаться), что за счёт количества и сложности запросов, от клиентов, в sql заканчивается какой то ресурс, например свободные воркеры (worker) либо что-то другое. Вот как раз для того, чтобы понять какой ресурс заканчивается, прошу подсказки, что нужно мониторить в таких случаях. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 16:09 |
|
Подскажите как найти ошибку?
|
|||
---|---|---|---|
#18+
Mandarin, CPU в топ не улетает в эти моменты? ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 16:13 |
|
Подскажите как найти ошибку?
|
|||
---|---|---|---|
#18+
env, Нет, на графиках zabbix всё в порядке ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2020, 16:24 |
|
Подскажите как найти ошибку?
|
|||
---|---|---|---|
#18+
В справке по WinSock есть такое замечание: MSWhen a TCP connection is closed, connection resources at the node that initiated the close are put into a wait state, called TIME-WAIT, to guard against data corruption if duplicate packets linger in the network. This ensures both ends are finished with the connection. This can cause depletion of resources required per-connection, such as RAM and ports, when applications open and close connections frequently. Подсчитайте суммарную частоту подключений к трем вашим приложениям (2 томката и скуль) в часы пиковой нагрузки. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2020, 14:48 |
|
|
start [/forum/topic.php?fid=46&fpage=50&tid=1685742]: |
0ms |
get settings: |
12ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
34ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
44ms |
get tp. blocked users: |
2ms |
others: | 15ms |
total: | 146ms |
0 / 0 |