powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Unix-системы [игнор отключен] [закрыт для гостей] / Подвисает система ?
35 сообщений из 35, показаны все 2 страниц
Подвисает система ?
    #37074341
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Недавно стал замечать такую картину.
Все чаще при заходе через ssh виснет подсистема отображения, т.е. все напечатанное выводится через какое то время, не говоря уже об отрисовке всяких top...

В munin часть графиков также не прорисовывается будто система отключена. При этом какой то сильной нагрузки на систему вроде бы не производится.

4 8 15 16 23 42
...
Рейтинг: 0 / 0
Подвисает система ?
    #37074343
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ОС ubuntu 10.04 server

в top ничего особенного: на машине крутится виртуальная машина vmware server с одной запущенной качалкой на базе ubuntu 9.10

Проц Pdc 2.5, 4гб памяти, при этом раньше чуть ли не вся память уходила под кеширование дисковых операций, то сейчас порядка 100-250мб свободно...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37080696
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
хм...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37080728
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В munin часть графиков также не прорисовывается будто система отключена. При этом какой то сильной нагрузки на систему вроде бы не производится.

по-моему, стандартное поведение для munin. Что-то вроде защиты от размножения конкурирующих копий запускающихся по крону и поэтому часть данных не записывается. Успевает только одна копия. Т.е. это не диагностический симптом, а следствие тормозов.

Раз у тебя есть munin (на хосте или в госте? ), то данных должно быть достаточно.
...
Рейтинг: 0 / 0
Подвисает система ?
    #37080758
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindВ munin часть графиков также не прорисовывается будто система отключена. При этом какой то сильной нагрузки на систему вроде бы не производится.

по-моему, стандартное поведение для munin. Что-то вроде защиты от размножения конкурирующих копий запускающихся по крону и поэтому часть данных не записывается. Успевает только одна копия. Т.е. это не диагностический симптом, а следствие тормозов.

Раз у тебя есть munin (на хосте или в госте? ), то данных должно быть достаточно.

мунин на хосте

и хост и гест тормозят в консоли: наберу команду потом жду 2-10 если не более секунд пока она на экране не напечатается... топ воолбще такое ощущение что не обновляет ну ваще... ребут не помогает...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37081207
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Aklin, ты IT-профессионал или где? сними и покажи хоть какие-нибудь метрики производительности. на остальных графиках munin что-нибудь нетипичное есть?
...
Рейтинг: 0 / 0
Подвисает система ?
    #37081647
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
...
Рейтинг: 0 / 0
Подвисает система ?
    #37081662
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
то, что происходило пару дней назад показывают всего пару графиков. но тормоза есть и сейчас...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37081808
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Aklin, гигантский iowait вкупе с 100% disk utilization.
ты можешь отделить физический диск для системы и свопа от физических дисков для торентов?
сразу получишь гарантированные ресурсы ввода-вывода для программ.
еще можно попробовать с ionice поиграть
...
Рейтинг: 0 / 0
Подвисает система ?
    #37081842
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindAklin, гигантский iowait вкупе с 100% disk utilization.
ты можешь отделить физический диск для системы и свопа от физических дисков для торентов?
сразу получишь гарантированные ресурсы ввода-вывода для программ.
еще можно попробовать с ionice поиграть

есть системный диск, 1тб 7200. на нем ОС, на нем ОС, свап и виртуалка. воткнут в мамку.
торренты качаются на отдельный рейд5 на 5 (7) дисках гринах (5400), часть дисков воткнута в мамку, часть - в два pci-e x1 sata контроллера.

сейчас думаю как бы использовать 4*1тб дисков, хочу на них поставить рейд 10 и на них ОС и все остальное... но некуда их втыкать - на мамке pci-e закончились, а в pci - очень медленно получается...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37082089
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AklinnetwindAklin, гигантский iowait вкупе с 100% disk utilization.
ты можешь отделить физический диск для системы и свопа от физических дисков для торентов?
сразу получишь гарантированные ресурсы ввода-вывода для программ.
еще можно попробовать с ionice поиграть

есть системный диск, 1тб 7200. на нем ОС, на нем ОС, свап и виртуалка. воткнут в мамку.
торренты качаются на отдельный рейд5 на 5 (7) дисках гринах (5400), часть дисков воткнута в мамку, часть - в два pci-e x1 sata контроллера.

может с таким объемом ты уже перегрузил шину и операции на тех дисках отражаются на операциях с системным диском. но сомнительно.
сейчас думаю как бы использовать 4*1тб дисков, хочу на них поставить рейд 10 и на них ОС и все остальное... но некуда их втыкать - на мамке pci-e закончились, а в pci - очень медленно получается...
тогда отзывчивость обычных программ наоборот понизится, ведь торенты будут бесконтрольно забивать очередь диска.
возможно неплохая идея использовать железный дешевый контроллер raid10, который работает без драйверов, только для торрентов чтобы разгрузить шину. тогда один блок данных посланный по шине на устройство должен внутри контроллера "размножаться" на диски.

до сих пор мне не ясна причина. я и интернета такого домашнего не видал, чтобы торентокачалка могла упереться в шину.
...
Рейтинг: 0 / 0
Подвисает система ?
    #37082129
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
и действительно ли тебе нужна vmware тут?
может попробовать без нее? тем более качалка консольная. мало ли какие там патчи и что они ломают.
...
Рейтинг: 0 / 0
Подвисает система ?
    #37082152
sledopit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
vmware server крайне плохо работает в настоящий момент.
если так хочется повиртуалить, то лучше использовать что-нибудь другое (vmware player, virtualbox, kvm, xen [если железка поддерживает]).
...
Рейтинг: 0 / 0
Подвисает система ?
    #37082174
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
sledopit, "крайне плохо" на форуме ИТ-профессионалов не катит.
что именно ухудшается?
...
Рейтинг: 0 / 0
Подвисает система ?
    #37082294
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindможет с таким объемом ты уже перегрузил шину и операции на тех дисках отражаются на операциях с системным диском. но сомнительно.
не исключаю. система не шустрая (p5cl-vm, e5200 2.8, 4гб 800мгц)
сейчас думаю об ее обновлении на что нибудь на базе i3 1155

netwindтогда отзывчивость обычных программ наоборот понизится, ведь торенты будут бесконтрольно забивать очередь диска.
возможно неплохая идея использовать железный дешевый контроллер raid10, который работает без драйверов, только для торрентов чтобы разгрузить шину. тогда один блок данных посланный по шине на устройство должен внутри контроллера "размножаться" на диски.

до сих пор мне не ясна причина. я и интернета такого домашнего не видал, чтобы торентокачалка могла упереться в шину.

торренты висят на файлопомойке за базе mdadm, дисков в дем уже сейчас 5 штук на рейде5, и еще два в резерве (на время переезда я их как буферы для копирования использовал). насчет железного контроллера: такой контроллер, что подойдет по моим требованиям, стоит порядка 10-15к, а меня жаба душит на дешевую систему вешать эдакого исполина. да и производительность ненамного увеличится... =/
...
Рейтинг: 0 / 0
Подвисает система ?
    #37082303
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindи действительно ли тебе нужна vmware тут?
может попробовать без нее? тем более качалка консольная. мало ли какие там патчи и что они ломают.

вируалка используется для имитации отдельного компа. это позволяет использовать шейпер, который хоть позволяет компам пробиваться в интернет при забитом канале...

еще: сам проц не имеет поддержки виртуализации, так что скорость геста меня не особо волнует, но вот тормоза хоста мне не понятны...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37082311
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindsledopit, "крайне плохо" на форуме ИТ-профессионалов не катит.
что именно ухудшается?
уже не первый человек говорит что сервер плох.
думаю попробовать workstation, если он на мой сервер встанет (сервер без иксов -- консольный).

в будущем (примерно через 4мес) планирую докупать htpc, а именно обновить серверную систему на i3 и хотя бы 3 pci-e x1, тогда я диски могу повесить нормально без тормозов простого pci, а на сам htpc повесить текущий pdc e5200 плюс хорошая видеокарта... (6850 или 470).
...
Рейтинг: 0 / 0
Подвисает система ?
    #37082320
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
есть еще мысль -- отключить нафиг pci сата контроллер, потому что из-за него и пошли серьезные лаги...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37083781
SSukholet
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
On Thu, 27 Jan 2011 19:05:14 +0600, Aklin <nospam@sql.ru>; wrote:

> Автор: Aklin
> есть еще мысль -- отключить нафиг pci сата контроллер, потому что из-за
> него и пошли серьезные лаги...

Вот похоже что в этом дело. Потому что простите, НЕ ВЕРИТСЯ, что один рэйд
может уложить не такой уж и слабый комп.


--
Остаюсь искренне Ваш,
Станислав Сухолёт
Posted via ActualForum NNTP Server 1.4
...
Рейтинг: 0 / 0
Подвисает система ?
    #37088390
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
отключил pci контроллер. Возможно помогло, но частично.
Консоль перестала подвисать - хотя бы хостовая.
Систему я удачно уронил, пытаясь отделить бут и вынести его в отдельный раздел что бы затем все это повесить на два raid1 (для / и для /boot). В итоге я тупо переустановил систему на рейды, скопировал настройки, все вроде работает (пока почему то не запускается веб-сервер на виртуалке, хотя сама сеть на виртуалке работает...). Итого:
(все рейды - mdadm) (пишу отчасти что бы потом не забыть)

diskraidmdmountcommentsd[fe]1 raid1 md4 /boot md4 - другой не тот что в первых тестахsd[fe]2 raid1 md5 / md5 - другой не тот что в первых тестахsd[fegh]3 4*swap (есть идея запихать все свапы в рейд 10 но пока думаю)sd[fegh]4 raid10 md3 /virt тут будут хранится виртуалки и некоторые архивыsd[abcdi]1 raid5 md2 /raid основная файлопомойка. есть идея в будущем увеличить до 7-8 дисков. возможно перейти на raid6sdj1 /mnt/old_disk старый системный раздел

перетасовка дисков позволила отключить три диска, что были подключены на pci контроллер, теперь все диски только на мамке и двух pci-e x1
основной рейд также виден по самбе.
файловые системы: везде ext4

линейное чтение/запись основного рейда - ~220/146 мбайт/с (гонял 80гб пустышку) ( подробнее о тестах )
но самба дает 20+-2мбайт
сейчас тестирую raid10, еще надо будет их одновременно запустить, что бы загрузить шину как следует...

пока идеи - попробовать простейший ftp открыть (для локалки, для внешки есть sftp) и посмотреть скорость на нем...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37088981
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
пррбовал ли кто переносить свап на софт-рейд ? рейд1 или рейд10 ?
я планирую на рейд 10, благо есть 4 диска, на двух из которых установлена ОС (в рейд1)
...
Рейтинг: 0 / 0
Подвисает система ?
    #37096500
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
касательно самбы: перелопатил кучу вариантов настройки самбы, нашел какой то вариант при котором 50мбайт выдает... так что теперь думаю можно спать спокойна...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37153852
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
опять поднимаю вопрос:
ночью сервер завис, отклику не было, ребутнул.
начал ребилдить 10 рейд. один диск из него показывает высокий disk latensy - порядка секунды в среднем - что это означает? диск не гарантийный увы... на остальных дисках в пределах 100мс, максимум 300-400мс...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37153855
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Aklin, ну так smart смотри. даже в munin есть такие графики
...
Рейтинг: 0 / 0
Подвисает система ?
    #37153876
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
smart sdh (этот сбоит)
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
88.
89.
90.
91.
92.
93.
94.
95.
96.
97.
98.
99.
100.
101.
102.
103.
104.
105.
106.
107.
108.
109.
110.
111.
112.
113.
114.
115.
116.
117.
118.
119.
120.
121.
122.
123.
124.
125.
126.
127.
128.
129.
130.
131.
132.
133.
134.
135.
136.
137.
138.
139.
140.
141.
142.
143.
144.
145.
146.
147.
148.
149.
150.
151.
152.
153.
154.
155.
156.
157.
158.
159.
160.
161.
162.
163.
164.
165.
166.
167.
168.
169.
170.
171.
172.
173.
174.
175.
176.
177.
178.
179.
180.
181.
182.
183.
184.
185.
186.
187.
188.
189.
smartctl version  5 . 38  [x86_64-unknown-linux-gnu] Copyright (C)  2002 - 8  Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda  7200 . 11 
Device Model:     ST31000340AS
Serial Number:    5QJ0NW29
Firmware Version: SD81
User Capacity:     1   000   204   886   016  bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:    8 
ATA Standard is:  ATA- 8 -ACS revision  4 
Local Time is:    Tue Mar   8   15 : 42 : 20   2011  MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (    0 ) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (  650 ) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (    1 ) minutes.
Extended self-test routine
recommended polling time:        (  232 ) minutes.
Conveyance self-test routine
recommended polling time:        (    2 ) minutes.
SCT capabilities:              (0x103b) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number:  10 
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
   1  Raw_Read_Error_Rate     0x000f    117     093     006     Pre-fail  Always       -        139267845 
   3  Spin_Up_Time            0x0003    098     083     000     Pre-fail  Always       -        0 
   4  Start_Stop_Count        0x0032    099     099     020     Old_age   Always       -        1094 
   5  Reallocated_Sector_Ct   0x0033    100     100     036     Pre-fail  Always       -        1 
   7  Seek_Error_Rate         0x000f    056     053     030     Pre-fail  Always       -        2315191448637 
   9  Power_On_Hours          0x0032    084     084     000     Old_age   Always       -        14150 
  10  Spin_Retry_Count        0x0013    100     100     097     Pre-fail  Always       -        11 
  12  Power_Cycle_Count       0x0032    099     037     020     Old_age   Always       -        1045 
 184  Unknown_Attribute       0x0032    100     100     099     Old_age   Always       -        0 
 187  Reported_Uncorrect      0x0032    001     001     000     Old_age   Always       -        271 
 188  Unknown_Attribute       0x0032    100     098     000     Old_age   Always       -        4295032963 
 189  High_Fly_Writes         0x003a    001     001     000     Old_age   Always       -        901 
 190  Airflow_Temperature_Cel 0x0022    063     026     045     Old_age   Always   In_the_past  37  ( 172   243   37   36 )
 194  Temperature_Celsius     0x0022    037     074     000     Old_age   Always       -        37  ( 0   17   0   0 )
 195  Hardware_ECC_Recovered  0x001a    041     015     000     Old_age   Always       -        139267845 
 197  Current_Pending_Sector  0x0012    100     100     000     Old_age   Always       -        1 
 198  Offline_Uncorrectable   0x0010    100     100     000     Old_age   Offline      -        1 
 199  UDMA_CRC_Error_Count    0x003e    200     200     000     Old_age   Always       -        0 

SMART Error Log Version:  1 
ATA Error Count:  272  (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after  49 . 710  days.

Error  272  occurred at disk power-on lifetime:  14148  hours ( 589  days +  12  hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
   40   51   00  1a  45  e8  01   Error: UNC at LBA = 0x01e8451a =  31999258 

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8  00   08  1a  45  e8 e1  00        00 : 20 : 16 . 438   READ DMA
   27   00   00   00   00   00  e0  00        00 : 20 : 16 . 437   READ NATIVE MAX ADDRESS EXT
  ec  00   00   00   00   00  a0  00        00 : 20 : 16 . 436   IDENTIFY DEVICE
  ef  03   46   00   00   00  a0  00        00 : 20 : 16 . 436   SET FEATURES [Set transfer mode]
   27   00   00   00   00   00  e0  00        00 : 20 : 16 . 435   READ NATIVE MAX ADDRESS EXT

Error  271  occurred at disk power-on lifetime:  14148  hours ( 589  days +  12  hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
   40   51   00  1a  45  e8  01   Error: UNC at LBA = 0x01e8451a =  31999258 

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8  00   08  1a  45  e8 e1  00        00 : 20 : 11 . 909   READ DMA
   27   00   00   00   00   00  e0  00        00 : 20 : 11 . 909   READ NATIVE MAX ADDRESS EXT
  ec  00   00   00   00   00  a0  00        00 : 20 : 11 . 908   IDENTIFY DEVICE
  ef  03   46   00   00   00  a0  00        00 : 20 : 11 . 907   SET FEATURES [Set transfer mode]
   27   00   00   00   00   00  e0  00        00 : 20 : 11 . 907   READ NATIVE MAX ADDRESS EXT

Error  270  occurred at disk power-on lifetime:  14148  hours ( 589  days +  12  hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
   40   51   00  1a  45  e8  01   Error: UNC at LBA = 0x01e8451a =  31999258 

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8  00   08  1a  45  e8 e1  00        00 : 20 : 06 . 776   READ DMA
   27   00   00   00   00   00  e0  00        00 : 20 : 06 . 775   READ NATIVE MAX ADDRESS EXT
  ec  00   00   00   00   00  a0  00        00 : 20 : 06 . 774   IDENTIFY DEVICE
  ef  03   46   00   00   00  a0  00        00 : 20 : 06 . 774   SET FEATURES [Set transfer mode]
   27   00   00   00   00   00  e0  00        00 : 20 : 06 . 773   READ NATIVE MAX ADDRESS EXT

Error  269  occurred at disk power-on lifetime:  14148  hours ( 589  days +  12  hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
   40   51   00  1a  45  e8  01   Error: UNC at LBA = 0x01e8451a =  31999258 

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8  00   08  1a  45  e8 e1  00        00 : 20 : 02 . 189   READ DMA
   27   00   00   00   00   00  e0  00        00 : 20 : 02 . 189   READ NATIVE MAX ADDRESS EXT
  ec  00   00   00   00   00  a0  00        00 : 20 : 02 . 188   IDENTIFY DEVICE
  ef  03   46   00   00   00  a0  00        00 : 20 : 02 . 187   SET FEATURES [Set transfer mode]
   27   00   00   00   00   00  e0  00        00 : 20 : 02 . 187   READ NATIVE MAX ADDRESS EXT

Error  268  occurred at disk power-on lifetime:  14148  hours ( 589  days +  12  hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
   40   51   00  1a  45  e8  01   Error: UNC at LBA = 0x01e8451a =  31999258 

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8  00   08  1a  45  e8 e1  00        00 : 19 : 57 . 583   READ DMA
   27   00   00   00   00   00  e0  00        00 : 19 : 57 . 583   READ NATIVE MAX ADDRESS EXT
  ec  00   00   00   00   00  a0  00        00 : 19 : 57 . 582   IDENTIFY DEVICE
  ef  03   46   00   00   00  a0  00        00 : 19 : 57 . 581   SET FEATURES [Set transfer mode]
   27   00   00   00   00   00  e0  00        00 : 19 : 57 . 581   READ NATIVE MAX ADDRESS EXT

SMART Self-test log structure revision number  1 
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number  1 
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
     1          0          0   Not_testing
     2          0          0   Not_testing
     3          0          0   Not_testing
     4          0          0   Not_testing
     5          0          0   Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after  0  minute delay.


smart | grep fail
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
user@host:~$ sudo smartctl  /dev/sda -a | grep fail
   1  Raw_Read_Error_Rate     0x002f    200     200     051     Pre-fail  Always       -        0 
   3  Spin_Up_Time            0x0027    184     162     021     Pre-fail  Always       -        5800 
   5  Reallocated_Sector_Ct   0x0033    200     200     140     Pre-fail  Always       -        0 
user@host:~$ sudo smartctl  /dev/sdb -a | grep fail
   1  Raw_Read_Error_Rate     0x000f    116     099     006     Pre-fail  Always       -        110622992 
   3  Spin_Up_Time            0x0003    100     100     000     Pre-fail  Always       -        0 
   5  Reallocated_Sector_Ct   0x0033    100     100     036     Pre-fail  Always       -        0 
   7  Seek_Error_Rate         0x000f    081     060     030     Pre-fail  Always       -        151457051 
  10  Spin_Retry_Count        0x0013    100     100     097     Pre-fail  Always       -        0 
user@host:~$ sudo smartctl  /dev/sdc -a | grep fail
   1  Raw_Read_Error_Rate     0x002f    100     100     051     Pre-fail  Always       -        757 
   3  Spin_Up_Time            0x0023    070     062     025     Pre-fail  Always       -        9171 
   5  Reallocated_Sector_Ct   0x0033    252     252     010     Pre-fail  Always       -        0 
user@host:~$ sudo smartctl  /dev/sdd -a | grep fail
   1  Raw_Read_Error_Rate     0x002f    100     100     051     Pre-fail  Always       -        6964 
   3  Spin_Up_Time            0x0023    070     061     025     Pre-fail  Always       -        9236 
   5  Reallocated_Sector_Ct   0x0033    252     252     010     Pre-fail  Always       -        0 
user@host:~$ sudo smartctl  /dev/sde -a | grep fail
   1  Raw_Read_Error_Rate     0x002f    200     200     051     Pre-fail  Always       -        0 
   3  Spin_Up_Time            0x0027    170     164     021     Pre-fail  Always       -        6491 
   5  Reallocated_Sector_Ct   0x0033    166     166     140     Pre-fail  Always       -        272 
user@host:~$ sudo smartctl  /dev/sdf -a | grep fail
   1  Raw_Read_Error_Rate     0x002f    200     200     051     Pre-fail  Always       -        0 
   3  Spin_Up_Time            0x0027    167     161     021     Pre-fail  Always       -        6641 
   5  Reallocated_Sector_Ct   0x0033    200     200     140     Pre-fail  Always       -        0 
^[[Auser@host:~$ sudo smartctl  /dev/sdh -a | grep fail
   1  Raw_Read_Error_Rate     0x000f    117     093     006     Pre-fail  Always       -        117539608 
   3  Spin_Up_Time            0x0003    098     083     000     Pre-fail  Always       -        0 
   5  Reallocated_Sector_Ct   0x0033    100     100     036     Pre-fail  Always       -        1 
   7  Seek_Error_Rate         0x000f    056     053     030     Pre-fail  Always       -        2315191448613 
  10  Spin_Retry_Count        0x0013    100     100     097     Pre-fail  Always       -        11 
user@host:~$ sudo smartctl  /dev/sdg -a | grep fail
   1  Raw_Read_Error_Rate     0x002f    200     200     051     Pre-fail  Always       -        0 
   3  Spin_Up_Time            0x0027    204     161     021     Pre-fail  Always       -        4800 
   5  Reallocated_Sector_Ct   0x0033    199     199     140     Pre-fail  Always       -        5 
user@host:~$ sudo smartctl  /dev/sdi -a | grep fail
   1  Raw_Read_Error_Rate     0x000f    106     099     006     Pre-fail  Always       -        10984159 
   3  Spin_Up_Time            0x0003    100     100     000     Pre-fail  Always       -        0 
   5  Reallocated_Sector_Ct   0x0033    100     100     036     Pre-fail  Always       -        0 
   7  Seek_Error_Rate         0x000f    078     060     030     Pre-fail  Always       -        60635971 
  10  Spin_Retry_Count        0x0013    100     100     097     Pre-fail  Always       -        0 
user@host:~$ sudo smartctl  /dev/sdj -a | grep fail
   1  Raw_Read_Error_Rate     0x002f    100     100     051     Pre-fail  Always       -        0 
   3  Spin_Up_Time            0x0023    075     074     025     Pre-fail  Always       -        7614 
   5  Reallocated_Sector_Ct   0x0033    252     252     010     Pre-fail  Always       -        0 
user@host:~$
...
Рейтинг: 0 / 0
Подвисает система ?
    #37153881
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
на sdh как я вижу есть какие то ошибки в логе смарта, в других дисках такого нету =/
...
Рейтинг: 0 / 0
Подвисает система ?
    #37154088
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
рейд так и не успел перестроится - серв снова завис.
в течение следующих 2-3 часов он вис раза 3. После чего я решил вынуть проблемный диск.
После этого, запустившись с <S> - т.е. проигнорировав разрушенный рейд (разрйшенный рейд 10 - не системный), я загрузился. после загрузки я вообще припух - такое ощущение, что я загрузился в какую то другую ОС - чистый линух, а все мои настройки спрашивается - куда дели ?

в итоге - имею чистый линух без каких либо настроек, програм. дирректория /etc имеет дефолтные настройки, программ, которые ставил ранее нет. Сети соотвественно тоже нет потому что interfaces чистый (в нем тупо описан один eth0 причем через dchp, хотя на машине две сетевых, и оба ip заданы вручную были.

Сейчас попробую поднять его с монитора/клавы, посмотреть куда все делось .



Предыдущая система стояла на рейде 1 mdadm, эта - судя по mount стоит на ней же...

еще вопрос - бывает ли сетевая версия KVM ? т.е. задача- подключить клаву и монитор с другого компа через сеть непосредственно в разъемы сера? сеть гигабитная.
...
Рейтинг: 0 / 0
Подвисает система ?
    #37154104
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
еще пока помню: в одной из предпоследних (уже после первого зависания, но до краша) при попытке что либо записать на диск выдавало "read only filesystem". я пенял это не ребилд рейда 10, но похожу что то тут не так чисто как кажеца (
...
Рейтинг: 0 / 0
Подвисает система ?
    #37154111
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Aklin, ну, cудя по Reallocated_Sector_Count sdh и sdg - уже были потенциальными мертвецами еще в 15:47.
дальше у тебя ниче не понятно.
kvm бывает всякий, но для домашнего использования дороговато.
...
Рейтинг: 0 / 0
Подвисает система ?
    #37154142
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindAklin, ну, cудя по Reallocated_Sector_Count sdh и sdg - уже были потенциальными мертвецами еще в 15:47.
дальше у тебя ниче не понятно.
kvm бывает всякий, но для домашнего использования дороговато.

Reallocated_Sector_Count - в каждом диске pre-failed. так что получается - что все диски разом упали?
вообще ВСЕ?

как это вообще возможно?

и откуда взялась чистая система?
после одного из ребутов вместо ОС образовалась система чистая - будто ее только что установили =/
...
Рейтинг: 0 / 0
Подвисает система ?
    #37154193
netwind
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
AklinnetwindAklin, ну, cудя по Reallocated_Sector_Count sdh и sdg - уже были потенциальными мертвецами еще в 15:47.
дальше у тебя ниче не понятно.
kvm бывает всякий, но для домашнего использования дороговато.

Reallocated_Sector_Count - в каждом диске pre-failed. так что получается - что все диски разом упали?
вообще ВСЕ?

это тип счетчика,а не диагноз. pre-failed означает что изменение этого счетчика ниже критической отметки прогнозирует ошибку наверняка.
old age - просто меняются со временем.
диагноз ставят когда счетчик типа pre-failed уменьшается ниже своей границы THRESH.
Но на самом деле, админы-перестраховщики меняют диски при наличии хотя бы одного relocated sector count подсмотренного в raw value.
Датацентр можно убедить поменять диск, по моему опыту, где то от 20 секторов.


как это вообще возможно?

и откуда взялась чистая система?
после одного из ребутов вместо ОС образовалась система чистая - будто ее только что установили =/

Откуда-нибудь. Подозреваю такой сценарий, но все может быть по-разному :
1. ты изначально поставил чистую систему
2. построил raid10. прилепил /var или /etc или что там у тебя "пропало" на эти диски.
3. raid разрушился/винты отвалились и старые каталоги, которые были скрыты монтированием поверх вдруг всплыли.
...
Рейтинг: 0 / 0
Подвисает система ?
    #37154218
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
netwindОткуда-нибудь. Подозреваю такой сценарий, но все может быть по-разному :
1. ты изначально поставил чистую систему
2. построил raid10. прилепил /var или /etc или что там у тебя "пропало" на эти диски.
3. raid разрушился/винты отвалились и старые каталоги, которые были скрыты монтированием поверх вдруг всплыли.

система стояла на двух дисках в raid1. В отдельный раздел был вынесен только /boot - остальное было на одном разделе.
/home чиста (папки юзеров есть и все!), /etc - настройки как после инсталятора.

корневая фс на том же рейде - вот что тупо. как такое возможно - понять не могу.

единственный вариант - очень тупой до безобразия.
когда после инсталла рейд-1 системный перестал работать, ОС сидела на одном диске массива, а другой был чист. и в какой то момент что то сбойнуло прошел ресинк и поверх новой ОС наложилась старая. но после найтроки и установки всех прог был как минимум один ресинк рейда =/
...
Рейтинг: 0 / 0
Подвисает система ?
    #37154367
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
еще наблюдение - /mnt не изменилось =/ я теперь вообще ничего не понимаю
...
Рейтинг: 0 / 0
Подвисает система ?
    #37154439
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
похоже я нашел куда все убежали )

мего крутая на первый взгляд штука "а довайте по юидам монтировать" на практике рано или поздно но всегда упирается в "пилять почему у меня юиды одинаковые!".
В итоге оказалось, что вот этот проблемный диск - при каком то из тестов перенял юид рейда корневого, в итоге монировалось (еще с бута) на него, но все монтировщики писали, что смонтировано на рейд. стоило мне его отключить - тут же вылез корневой рейд с чистой ОС.

осталось понять
1) почему ФС на умирающем харде ридонли
2) как ее перенести на рейд
3) как на рейде сделать ее врайтэбл...
...
Рейтинг: 0 / 0
Подвисает система ?
    #37156566
Фотография Aklin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
восстановил систему - все встало нормально (тупо копирнул ФС через tar)

что интересно - до падения munin показывал желтым два диска - один тот который выпал,
второй - 2т сиагейт. всего два сиагейта, один на гарантии другой нет. и скорее всего желтым - тот который на гарантии =/
впрынципе он в рейде 5 и есть запасной диск, так что если не ступлю, то восстановится все пучком )
...
Рейтинг: 0 / 0
35 сообщений из 35, показаны все 2 страниц
Форумы / Unix-системы [игнор отключен] [закрыт для гостей] / Подвисает система ?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]