powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Хранение множества мелких файлов
33 сообщений из 33, показаны все 2 страниц
Хранение множества мелких файлов
    #39715056
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дано:
Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами. Вопрос, какое хранилище лучше использовать? Hadoop, объединенная на несколько машин файловая система и т.д. Как это вообще делается правильно?
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715081
Serguei
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеДано:
Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами. Вопрос, какое хранилище лучше использовать? Hadoop, объединенная на несколько машин файловая система и т.д. Как это вообще делается правильно?

Просто кладбище файлов или есть все таки какие то задачи?
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715084
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеДано:
Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами. Вопрос, какое хранилище лучше использовать? Hadoop, объединенная на несколько машин файловая система и т.д. Как это вообще делается правильно?
Почитайте доклад Даниила Подольского .
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715089
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Andy_OLAPПочитайте доклад Даниила Подольского.

Читать после
Смотрите: если вы хотите поддерживать, например, 100 тыс. одновременных соединений
(это не так уж много) и отдаете вы файлы размером в 1 Мб. Это означает, что если вы хотите
обращаться с файлом как с одним куском информации, вы вынуждены загрузить все 100 тыс.
файлов по 1 Мб в память, это 100 Гб памяти.
очень сложно: рука от лица не отлепляется. Это из серии широко распространённого в разделе
Дельфи говнокода, когда между BLOB и диском вводится прокладка из TMemoryStream.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715092
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakovрука от лица не отлепляется
Таки да, а что делать? Человек честно выложил про грабли, на которые наступил. Логично прочитать, чтобы не прыгать на них повторно.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715098
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Andy_OLAPЧеловек честно выложил про грабли, на которые наступил.

Человек честно признался, что программировать не умеет. Это повод тыкать в него пальцем и
говорить "смотрите и никогда так не делайте".
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715100
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovAndy_OLAPЧеловек честно выложил про грабли, на которые наступил.

Человек честно признался, что программировать не умеет. Это повод тыкать в него пальцем и
говорить "смотрите и никогда так не делайте".

Просто тут не ошибки в программировании, а ошибки в системном администрировании.
По факту нужно вертикальное масштабирование.
ZFS + нормальная ОС, которая поддерживает эту ФС не в режиме FUSE. Как вариант - что-нибудь из Solaris .
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715102
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Serguei, это склад документов банка с версиями этих документов. Write-Once, Read Many. Есть база данных, которая ведет учет этих версий. Здесь все ясно, реляционный Oracle справится со всем этим замечательно.
А вот сами файлы. Понятно, что десятки терабайт складывать на один раздел просто не выйдет. Да и доступ по скорости будет ужасный. Значит, нужен кластер или что-то вроде.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715105
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеПонятно, что десятки терабайт складывать на один раздел просто не выйдет. Да и доступ по
скорости будет ужасный.

И вот собрат выше ткнутого Даниила по разуму, которому сразу всё "понятно". На уровне
классового чутья, очевидно.

Ты не поверишь, но и террабайты на один раздел складываются без проблем и доступ к ним по
скорости ничем не отличается.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715106
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеЗначит, нужен кластер или что-то вроде.
Еще раз - не нужен кластер. Нужен сервер с возможностью нормального вертикального масштабирования. И с возможностью делать бэкапы на соседний сервер через снапшоты.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715116
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеПонятно, что десятки терабайт складывать на один раздел просто не выйдет.

https://ru.wikipedia.org/wiki/Сравнение_файловых_систем

Да, не выйдет если у тебя в качестве сервера какой-нибудь телефон.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715117
Фотография skyANA
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Щиче,

MongoDB GridFS?
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715124
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovЩичеПонятно, что десятки терабайт складывать на один раздел просто не выйдет. Да и доступ по
скорости будет ужасный.

И вот собрат выше ткнутого Даниила по разуму, которому сразу всё "понятно". На уровне
классового чутья, очевидно.

Ты не поверишь, но и террабайты на один раздел складываются без проблем и доступ к ним по
скорости ничем не отличается.


Не поверю. :) В конкурентном доступе головка будет метаться как бешеная. С предсказуемым исходом. Может быть RAID решил бы проблему, но вы не уточняли. Меня как раз и интересует то, что вы держите в себе.

Щичекачестве сервера какой-нибудь телефон.
Причем здесь сравнение файловых систем? Вы видели диск на 50TB? Я нет.

Andy_OLAP, "нормального вертикального масштабирования" - вы не дадите ссылочку? Я с темой не сталкивался, поэтому вертикальное масштабирование мне незнакомо.

skyANA, спасибо, похоже на то что нужно.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715125
Sergei.Agalakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вообще непонятно, почему этот вопрос в проектировании баз данных, это вопрос по системам хранения. Недостаточно данных для подробного совета. Сколько одновременных читателей, прирастание данных постепенное или сразу много добавляют, и, самое главное, бюджет. Необходимо обеспечить избыточность хранения данных и бэкапы, опционально кэширование. Можно сразу купить железку с софтом, которая всё это умеет из коробки, типа NetApp, можно купить сервер с хорошим железным RAID, можно поставить софтовый RAID или использовать файловые системы типа ZFS. Можно даже на облако все это выбросить. Терабайты сейчас не пугают, если их все сразу не надо читать. Распределенное хранилище самому делать смысла нет никакого, разве что оно в компании уже есть, и можно присоседиться. Если есть деньги, то звоните в NetApp, HP или IBM, опишите им задачу, и они подберут вам железо.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715139
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Sergei.AgalakovВообще непонятно, почему этот вопрос в проектировании баз данных, это вопрос по системам хранения. Недостаточно данных для подробного совета. Сколько одновременных читателей, прирастание данных постепенное или сразу много добавляют, и, самое главное, бюджет. Необходимо обеспечить избыточность хранения данных и бэкапы, опционально кэширование. Можно сразу купить железку с софтом, которая всё это умеет из коробки, типа NetApp, можно купить сервер с хорошим железным RAID, можно поставить софтовый RAID или использовать файловые системы типа ZFS. Можно даже на облако все это выбросить. Терабайты сейчас не пугают, если их все сразу не надо читать. Распределенное хранилище самому делать смысла нет никакого, разве что оно в компании уже есть, и можно присоседиться. Если есть деньги, то звоните в NetApp, HP или IBM, опишите им задачу, и они подберут вам железо.

Мне не надо решать задачу полностью. Мне уже четко сказали - Hadoop (HDFS). Просто у меня большие сомнения в оправданности подхода. Хочу знать какие лучше. Только для самообразования, не более.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715163
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеВ конкурентном доступе головка будет метаться как бешеная.

У-у-у, как всё запущенно...

Не майтесь дурью. Приказали хадуп - делайте хадуп и не используйте мозг.
А то ведь можете ненароком узнать о гибридных СХД.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715205
Злой Бобр
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovНе майтесь дурью. Приказали хадуп - делайте хадуп ...

Все правильно. Дуракам доказывать что они дураки - себе дороже выйдет. Тем более когда версионность документов решается на уровне отдельных файлов, а не специально для этого предназначенных систем. Поверьте, есть начальник - пусть у него голова пухнет.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715224
Alibek B
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеНе поверю. :) В конкурентном доступе головка будет метаться как бешеная.
Это представления примерно 15-летней давности.
У меня вот уже почти 5 лет каждый день записывается 5-8 ТБ.
И как-то головка справляется.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715252
Andy_OLAP
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеSergei.AgalakovВообще непонятно, почему этот вопрос в проектировании баз данных, это вопрос по системам хранения. Недостаточно данных для подробного совета. Сколько одновременных читателей, прирастание данных постепенное или сразу много добавляют, и, самое главное, бюджет. Необходимо обеспечить избыточность хранения данных и бэкапы, опционально кэширование. Можно сразу купить железку с софтом, которая всё это умеет из коробки, типа NetApp, можно купить сервер с хорошим железным RAID, можно поставить софтовый RAID или использовать файловые системы типа ZFS. Можно даже на облако все это выбросить. Терабайты сейчас не пугают, если их все сразу не надо читать. Распределенное хранилище самому делать смысла нет никакого, разве что оно в компании уже есть, и можно присоседиться. Если есть деньги, то звоните в NetApp, HP или IBM, опишите им задачу, и они подберут вам железо.

Мне не надо решать задачу полностью. Мне уже четко сказали - Hadoop (HDFS). Просто у меня большие сомнения в оправданности подхода. Хочу знать какие лучше. Только для самообразования, не более.

"Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами " и The current namespace limit is 100 million files . Давайте посчитаем. Файл 100 кбайт - в 1 Гбайт получается 10 000 таких файлов. В 1 Тбайт получается 10 миллионов таких файлов. 100 миллионов файлов - это 10 Тбайт.

Вывод - скоро Ваш хадуп таки встанет. Напишитее Вашему начальнику докладную записку по электронной почте и распечатайте себе бумажную копию. Как говорили в Союзе - чем больше бумаги, тем чище задница.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715286
PizzaPizza
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я тогда тоже для саморазвития спрошу.

Ткнулся я в вики по поводу HDFS и вот что там пишут:
"HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров "

учитывая задачу ЩичеОгромное количество мелких (< 1мб) файлов почему именно HDFS?

Может быть стоит посмотреть в сторону ФС с маленькой стоимостью хранения (видимо возможность настройки блока и минимальные метаданные)?

Если у вас ЩичеWrite-OnceЩичереляционный Oracle справится со всем этим замечательно то в чем подводный камень простого многодискового массива? Вроде доставлять серверов можно пока денег хватает, ссылки на файлы лежат в базе - ничего искать не надо.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715312
Фотография Relic Hunter
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Щиче,

Windows Storage Server 2016.

Какие тут могут быть варианты?

https://blogs.technet.microsoft.com/storageserver/2016/10/14/announcing-windows-storage-server-2016/
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715316
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Andy_OLAPЩичепропущено...

Мне не надо решать задачу полностью. Мне уже четко сказали - Hadoop (HDFS). Просто у меня большие сомнения в оправданности подхода. Хочу знать какие лучше. Только для самообразования, не более.

"Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами " и The current namespace limit is 100 million files . Давайте посчитаем. Файл 100 кбайт - в 1 Гбайт получается 10 000 таких файлов. В 1 Тбайт получается 10 миллионов таких файлов. 100 миллионов файлов - это 10 Тбайт.

Вывод - скоро Ваш хадуп таки встанет. Напишите Вашему начальнику докладную записку по электронной почте и распечатайте себе бумажную копию. Как говорили в Союзе - чем больше бумаги, тем чище задница.

Наши мысли сходятся. Мало того, они сходятся у всей рабочей группы. Это ТРЕБОВАНИЕ банка, не наше решение. Потому я и задал вопрос, что их требование показалось неадекватным задаче.

PizzaPizzaЯ тогда тоже для саморазвития спрошу.

Может быть стоит посмотреть в сторону ФС с маленькой стоимостью хранения (видимо возможность настройки блока и минимальные метаданные)?

Если у вас ЩичеWrite-OnceЩичереляционный Oracle справится со всем этим замечательно то в чем подводный камень простого многодискового массива? Вроде доставлять серверов можно пока денег хватает, ссылки на файлы лежат в базе - ничего искать не надо.

Реляционный Oracle предназначается только для хранения метаданных. Здесь 100-500млн. записей должен выдержать. Большинство будут просто лежать годами без доступа, можно делить по разным устройствам. Боюсь, простой многодисковый не выдержит. Здесь ведь и требования к объему велики и к надежности, к скорости доступа. Есть какие-то примеры решений на такой объем?
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715352
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alibek B.ЩичеНе поверю. :) В конкурентном доступе головка будет метаться как бешеная.
Это представления примерно 15-летней давности.
У меня вот уже почти 5 лет каждый день записывается 5-8 ТБ.
И как-то головка справляется.

Речь идет о чтении. Запись понятно, идет последовательно. А как быть, когда версии одного файла размазаны по диску? Или доступ идет доступ тысячи пользователей к разным документам. Вы меня обмануть хотите, однако. Физику никто не отменял.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715388
Alibek B
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеРечь идет о чтении. Запись понятно, идет последовательно.
Ну-ну. Вам виднее.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715469
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alibek B.ЩичеРечь идет о чтении. Запись понятно, идет последовательно.
Ну-ну. Вам виднее.

Да, вы правы.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715510
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеФизику никто не отменял.

Вы не поверите, но таки да, физику "летающих головок" уже давно отменили.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715516
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovЩичеФизику никто не отменял.

Вы не поверите, но таки да, физику "летающих головок" уже давно отменили.


Таки пруф? Я не верю. Вот мой http://blog.vadmin.ru/2011/08/blog-post.html. Если вы считаете, что флеш отменяет головки, то таки да. А диск устроен также как и ранее.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715520
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеЕсли вы считаете, что флеш отменяет головки, то таки да. А диск устроен также как и ранее.

Увы, но не так же.
1) Ещё в прошлом веке придумали кэширование, которое уменьшило поток запросов к диску на
1-2 порядка.
2) Потом придумали префетч.
3) Потом диску разрешили самостоятельно менять порядок запросов, решая для своих головок
задачу коммивояжера.
4) Потом пришли дисковые массивы и там, где одной головке надо было слетать 10 раз, десяти
головкам хватит и одного.
5) И таки да, в конце пришли диски совсем без головок.

На данный момент вершиной развития являются уже названные гибридные СХД, сочетающие
безумную скорость доступа с фантастическими объёмами. Но партизаны могут пилить свой хадуп.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715529
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry SibiryakovЩичеЕсли вы считаете, что флеш отменяет головки, то таки да. А диск устроен также как и ранее.

Увы, но не так же.
1) Ещё в прошлом веке придумали кэширование, которое уменьшило поток запросов к диску на
1-2 порядка.
2) Потом придумали префетч.
3) Потом диску разрешили самостоятельно менять порядок запросов, решая для своих головок
задачу коммивояжера.
4) Потом пришли дисковые массивы и там, где одной головке надо было слетать 10 раз, десяти
головкам хватит и одного.
5) И таки да, в конце пришли диски совсем без головок.

На данный момент вершиной развития являются уже названные гибридные СХД, сочетающие
безумную скорость доступа с фантастическими объёмами. Но партизаны могут пилить свой хадуп.


О, перечисление всем известных фактов не отменяет необходимость позиционирования в больших, больших количествах. Кстати, дорогой дедушка, ты так и не привел пруфов. Наверное, у тебя их просто нет? Ты что-то много стал говорить про партизан, вспоминаешь как они тебя гоняли?
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715549
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakovпилить свой хадуп.


Я не пойму дедуля, почему ты не вкуриваешь прямую речь? В самом начале было сказано, что мне Hadoop не нравится. Но старый, так сказать, человек почему-то напрочь забывает этот факт. Раз мы не можем понять высказывания доступные детскому саду, то стоит ли на вас обращать внимание в более серьезных вещах? Не стоит.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715660
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Щиче, разговор ни о чем

Хранилищь данных на рынке - десятки и сотни от кучи именитых вендоров
Плачь про терабайты и головки - это какой-то детский лепит

Находите вендора, который больше нравится (хоть HP, хоть MS), идете со своей задачей и нагрузкой, просите порекомендовать решение/железо. Т.к. дорогое, то перед покупкой можно договориться о тестирование, пишите тест под Ваш характер нагрузки, смотрите... решаете...

IMHO & AFAIK
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715908
Фотография Щиче
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leonid KudryavtsevЩиче, разговор ни о чем

Хранилищь данных на рынке - десятки и сотни от кучи именитых вендоров
Плачь про терабайты и головки - это какой-то детский лепит

Вы упрощаете. Меня интересует комплексно: какой софт, какая аппаратура, какая организация дела - чему примерно соответствует. Не кусочно, в стиле Сибирякова: грамм знаний, тонна говна, центнер бреда. Ссылочку дайте, признателен буду.
Пока ничего такого, чего не знают обычные студенты он ухитрился не сказать. Гибридные СХД :) И какие же подходят под какие задачи, какие ОС, технологии при этом используются? Надергал умных фраз и корчит из себя всезнайку.

Leonid Kudryavtsevпросите порекомендовать решение/железо


Персонально для вас повторю: я не принимаю решения, не имею денег в распоряжении, кроме как зарплату. Мне просто интересно как такие вещи делаются грамотно. Про NAS и SAN в вике написано. Но мне неясно что чему адекватно.
...
Рейтинг: 0 / 0
Хранение множества мелких файлов
    #39715921
Alibek B
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ЩичеВы упрощаете.
Упрощать это: «Взрослые дяди, покажите крутую железку»
Если это простое любопытство, то вектор для поиска уже указали.
Если хочется конкретики, то подбор решения и демонстрацию осуществляют пресейлы крупных вендоров, если вы под это решение заготовите бюджет.
Показывать на пальцах или приводить спецификации конкретной СХД — практически бессмысленно и бесполезно. СХД это не то устройство, которое имеет самостоятельную ценность, оно всегда работает в комплексе с другими продуктами.
...
Рейтинг: 0 / 0
33 сообщений из 33, показаны все 2 страниц
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Хранение множества мелких файлов
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]