Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / C++ [игнор отключен] [закрыт для гостей] / Робя, а что делать с ошибками памяти? / 25 сообщений из 28, страница 1 из 2
09.06.2018, 13:14
    #39658833
AlekseySQL
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
Знаю, что при длительных вычислениях память может прочитать/записать некорректные данные. И дальнейшие математические расчеты идут "на смарку".

Есть, конечно, память с контролем четности, но у меня ее использовать не позволяет компьютер + там этот вопрос тоже не решен на 100%.

Как в длительных вычислениях защищаются от подобной напасти на обычных ПК (без контроля четности)?
...
Рейтинг: 0 / 0
09.06.2018, 13:24
    #39658846
rdb_dev
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
AlekseySQL, где и когда ты с таким сталкивался при использовании однопоточных приложений? Даже на десктопных системах с памятью unbuffered non-ECC такое случается только с битыми (нестабильными) модулями памяти. Если у тебя такое происходит - тестируй память с разгоном на 10% без повышения напряжения и меняй сбоящие модули.
...
Рейтинг: 0 / 0
09.06.2018, 13:35
    #39658857
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
AlekseySQLЗнаю, что при длительных вычислениях память может прочитать/записать некорректные данные.

Если у тебя битая память, то в первую очередь грохнется ОС, причём непредсказуемо.

К счастью, если память не битая, то просто так она сбоить не начнёт.

AlekseySQLКак в длительных вычислениях защищаются от подобной напасти на обычных ПК
(без контроля четности)?
Никак.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
09.06.2018, 13:38
    #39658861
Leonid Kudryavtsev
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
Ну никто же не мешает выполнить вычисление на двух разных компьютерах, а потом сравнить результат.
...
Рейтинг: 0 / 0
09.06.2018, 13:39
    #39658862
rdb_dev
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
Dimitry SibiryakovЕсли у тебя битая память, то в первую очередь грохнется ОС, причём непредсказуемо.Зависит от размера памяти и от расположения участка битой памяти. Грохнуться может далеко несразу, а проявится может именно в процессе работы пользовательских приложений в виде вылетов этих приложений.
...
Рейтинг: 0 / 0
09.06.2018, 14:20
    #39658894
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
Leonid Kudryavtsevвыполнить вычисление на двух разных компьютерах

Только не на двух, а на трёх. И взять тот, что совпадёт у двоих.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
09.06.2018, 14:26
    #39658901
NekZ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
AlekseySQLЗнаю, что при длительных вычислениях память может прочитать/записать некорректные данные. И дальнейшие математические расчеты идут "на смарку".

Есть, конечно, память с контролем четности, но у меня ее использовать не позволяет компьютер + там этот вопрос тоже не решен на 100%.

Как в длительных вычислениях защищаются от подобной напасти на обычных ПК (без контроля четности)?
Как вариант можно материализовать промежуточные результаты на диск, как это делает Hadoop при выполнении пакетных задач MapReduce, по и создавать точки восстановления, чтобы не начинать всё вычисление с нуля.
...
Рейтинг: 0 / 0
09.06.2018, 14:29
    #39658905
Leonid Kudryavtsev
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
NekZ, вот так как раз делать и нельзя. Т.к. рядом с темой "Робя, а что делать с ошибками памяти?" появится тема "Робя, а что делать с ошибками на диске?" )))
...
Рейтинг: 0 / 0
09.06.2018, 14:35
    #39658909
NekZ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
Leonid KudryavtsevNekZ, вот так как раз делать и нельзя. Т.к. рядом с темой "Робя, а что делать с ошибками памяти?" появится тема "Робя, а что делать с ошибками на диске?" )))
А для таких вещей есть облачные ФС, рэйд-массивы.
NUMA немного из другой серии.
Да и найти на каком этапе произошла ошибка будет проще.
...
Рейтинг: 0 / 0
09.06.2018, 14:38
    #39658911
AlekseySQL
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
rdb_devAlekseySQL, где и когда ты с таким сталкивался при использовании однопоточных приложений? Даже на десктопных системах с памятью unbuffered non-ECC такое случается только с битыми (нестабильными) модулями памяти. Если у тебя такое происходит - тестируй память с разгоном на 10% без повышения напряжения и меняй сбоящие модули.

Нет, это случается со всеми модулями: описание проблемы

Например, моя чудо- обработка выделяется / заполняет / модифицирует 300 ГБайт памяти (за три минуты). Что будет когда я ее включу на неделю?

Свою память с помощью memtest я проверил (не помню на какой итерации прервал, но точно больше часа): ошибок не обнаружено.
...
Рейтинг: 0 / 0
09.06.2018, 14:42
    #39658915
AlekseySQL
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
Leonid KudryavtsevNekZ, вот так как раз делать и нельзя. Т.к. рядом с темой "Робя, а что делать с ошибками памяти?" появится тема "Робя, а что делать с ошибками на диске?" )))

После записи данных на диск можно проверить качество их записи: считать и сравнить (и если найдена ошибка, то записать повторно).

Но данный подход требует двукратных мощностей (различий будет мало, поэтому коэффициент можно считать равным 2) + алгоритм должен легко дробиться на части, где возможна запись небольшого объема данных на диск.
...
Рейтинг: 0 / 0
09.06.2018, 14:47
    #39658918
NekZ
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
AlekseySQL,

Разумное дробление на самостоятельные подзадачи является одним из факторов
успешной и поддерживаемой архитектуры.
...
Рейтинг: 0 / 0
09.06.2018, 14:47
    #39658919
rdb_dev
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
AlekseySQL, не надо читать всякую муть, о том, что может случится при ненормальной эксплуатации аппаратных комплексов информационной системы! На всякий случай - ни один десктопный комп или дорогущий сервер от IBM, HP, SuperMicro и т.д. не переживёт мощный всплеск ЭМИ, находясь в его зоне действия. На такое расчитаны только определённые системы, произведенные для военных нужд, например, некоорые платформы на базе процессора "Эльбрус".

Не забивай себе голову тем, чем забивать её, абсолютно точно, не надо! В нормальных условиях эксплуатации, при использовании надёжных, хорошо зарекомендовавших и проверенных компонент никаких ошибок памяти не происходит.
...
Рейтинг: 0 / 0
09.06.2018, 14:51
    #39658924
Leonid Kudryavtsev
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
AlekseySQL....описание проблемы...

Вы свой компьютер в космос запускаете?
Ну... богато жить не запретишь.
...
Рейтинг: 0 / 0
09.06.2018, 17:06
    #39659021
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
AlekseySQL, скачай себе загрузочну флешку Memtest. Загрузись с нее и посмотри
какие дефекты выскакивают на конкретно твоём железе.

На скрине будет такое вот окошко.



Если дефектов нет - то расслабся.

Лет 30 назад программисты предусматривали прерывание по сбою памяти. И придумывали
хитрые сценарии обхода. Но в наше время этим никто не занимается. Вообще сложно
предусмотреть какой-то логичный сценарий обхода. Этим занимаются разве-что поставщики
облак такие как MS, Google, Amazon но у них другие подходы к самой проблеме.
...
Рейтинг: 0 / 0
09.06.2018, 18:18
    #39659052
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
maytonЛет 30 назад программисты предусматривали прерывание по сбою памяти. И придумывали
хитрые сценарии обхода. Но в наше время этим никто не занимается. Вообще сложно
предусмотреть какой-то логичный сценарий обхода.

СМ 1420. ОЗУ с кодами Хэмминга штатно исправляет одиночные ошибки и обнаруживает двойные.
Современный ЕСС только обнаруживает одиночные ошибки и пропускает двойные, но всем пофиг,
поскольку надёжность памяти возросла до достаточной величины.

PS: У ТС-а просто гениальный талант забивать голову совершенно бредовыми вопросами.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
09.06.2018, 19:08
    #39659066
AlekseySQL
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
mayton, спасибо, memtest запускал (ждал больше часа): ошибок не обнаружено.
...
Рейтинг: 0 / 0
09.06.2018, 19:10
    #39659069
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
AlekseySQLmemtest запускал (ждал больше часа)

Час это несерьёзно. Хотя бы пару суток непрерывно погоняй.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
09.06.2018, 19:16
    #39659072
Leonid Kudryavtsev
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
Сутки тоже несерьезно.

Например, моя чудо- обработка выделяется / заполняет / модифицирует 300 ГБайт памяти (за три минуты). Что будет когда я ее включу на неделю ?
...
Рейтинг: 0 / 0
09.06.2018, 19:22
    #39659073
Dimitry Sibiryakov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
Leonid KudryavtsevСутки тоже несерьезно.

Ну да, автору может и не хватить. Но лично я уже после суток объявлял комп "годным к
использованию в качестве сервера".
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
09.06.2018, 19:58
    #39659088
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
А я вот частично поддержу топикстартера.
Проблема хоть и не является острой, но имеет место быть.

Dimitry SibiryakovСовременный ЕСС только обнаруживает одиночные ошибки и пропускает двойныеСтарые алгоритмы исправляют одиночные и обнаруживают двойные (при разрядности памяти 64+8).
Современные ( 1 , 2 , 3 , 4 ) позволяют корректировать несколько ошибок, и даже продолжать работать при выходе из строя целого чипа.
Dimitry Sibiryakovнадёжность памяти возросла до достаточной величины.Есть несколько противонаправленных векторов.
С одной стороны - растет качество изготовления кристаллов.
С другой - уменьшаются размеры элементов (т.е. их электрическая емкость), снижается напряжение питания, растут частоты.
И растут объемы. Растут быстрее, чем растет надежность отдельных ячеек.

Гугл подтверждает (страница 4), что количество исправленных ошибок не так уж мало.

Ну и на моей скромной практике - совершенно нормальное явление, когда у сервера ежедневно растет счетчик исправленных ошибок.

Как решать - либо переходить на сервера с ECC, либо вводить алгоритмический контроль результатов вычислений (как вариант - повторное вычисление).
...
Рейтинг: 0 / 0
09.06.2018, 20:11
    #39659094
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
Дайвайте в топике пойдем не от гугла а от собственной практики.

Кто из присутствующих может дать справку о современном положении дел серверной памяти?
...
Рейтинг: 0 / 0
09.06.2018, 20:49
    #39659102
OoCc
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
miksoftКак решать - либо переходить на сервера с ECC, либо вводить алгоритмический контроль результатов вычислений (как вариант - повторное вычисление).
Сервер - там где сервер нужен. Там где ненужен - рабочие станции. В обоих ящиках память ЕСС с 8 битным хэшем. Кстати в IBM серверах в дополнение к ЕСС можно зазеркалить память. А от ошибок памяти не избавится: прилетит космическая гостья и поменяет битики...
...
Рейтинг: 0 / 0
09.06.2018, 21:23
    #39659113
rdb_dev
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
maytonДайвайте в топике пойдем не от гугла а от собственной практики.

Кто из присутствующих может дать справку о современном положении дел серверной памяти?А что с ней не так? В ЦОД'ах серваки, порой, годами в аптайме и никаких проблем.
...
Рейтинг: 0 / 0
09.06.2018, 22:02
    #39659120
Dima T
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Робя, а что делать с ошибками памяти?
ИМХО AlekseySQL неоднократно замечен в неаккуратности при работе с памятью, в чем честно сознавался. В данном топике вижу очередной предлог свалить свои косяки на железо.
...
Рейтинг: 0 / 0
Форумы / C++ [игнор отключен] [закрыт для гостей] / Робя, а что делать с ошибками памяти? / 25 сообщений из 28, страница 1 из 2
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]