Хранение множества мелких файлов / Проектирование БД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Хранение множества мелких файлов

25 сообщений из 33, страница 1 из 2

все

Хранение множества мелких файлов

#39715056

Щиче

Участник

Откуда: Чебоксары

Сообщения: 582

Рейтинг: 0 / 0

Дано:
Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами. Вопрос, какое хранилище лучше использовать? Hadoop, объединенная на несколько машин файловая система и т.д. Как это вообще делается правильно?

...

Рейтинг:

0 / 0

09.10.2018, 17:40

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715081

Serguei

Участник

Откуда: Papua New Guinea

Сообщения: 682

Рейтинг: 0 / 0

ЩичеДано:
Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами. Вопрос, какое хранилище лучше использовать? Hadoop, объединенная на несколько машин файловая система и т.д. Как это вообще делается правильно?

Просто кладбище файлов или есть все таки какие то задачи?

...

Рейтинг:

0 / 0

09.10.2018, 18:09

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715084

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

ЩичеДано:
Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами. Вопрос, какое хранилище лучше использовать? Hadoop, объединенная на несколько машин файловая система и т.д. Как это вообще делается правильно?
Почитайте доклад Даниила Подольского .

...

Рейтинг:

0 / 0

09.10.2018, 18:13

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715089

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

Andy_OLAPПочитайте доклад Даниила Подольского.

Читать после
Смотрите: если вы хотите поддерживать, например, 100 тыс. одновременных соединений
(это не так уж много) и отдаете вы файлы размером в 1 Мб. Это означает, что если вы хотите
обращаться с файлом как с одним куском информации, вы вынуждены загрузить все 100 тыс.
файлов по 1 Мб в память, это 100 Гб памяти.
очень сложно: рука от лица не отлепляется. Это из серии широко распространённого в разделе
Дельфи говнокода, когда между BLOB и диском вводится прокладка из TMemoryStream.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

09.10.2018, 18:27

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715092

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

Dimitry Sibiryakovрука от лица не отлепляется
Таки да, а что делать? Человек честно выложил про грабли, на которые наступил. Логично прочитать, чтобы не прыгать на них повторно.

...

Рейтинг:

0 / 0

09.10.2018, 18:33

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715098

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

Andy_OLAPЧеловек честно выложил про грабли, на которые наступил.

Человек честно признался, что программировать не умеет. Это повод тыкать в него пальцем и
говорить "смотрите и никогда так не делайте".
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

09.10.2018, 18:39

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715100

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

Dimitry SibiryakovAndy_OLAPЧеловек честно выложил про грабли, на которые наступил.

Человек честно признался, что программировать не умеет. Это повод тыкать в него пальцем и
говорить "смотрите и никогда так не делайте".

Просто тут не ошибки в программировании, а ошибки в системном администрировании.
По факту нужно вертикальное масштабирование.
ZFS + нормальная ОС, которая поддерживает эту ФС не в режиме FUSE. Как вариант - что-нибудь из Solaris .

...

Рейтинг:

0 / 0

09.10.2018, 18:44

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715102

Щиче

Участник

Откуда: Чебоксары

Сообщения: 582

Рейтинг: 0 / 0

Serguei, это склад документов банка с версиями этих документов. Write-Once, Read Many. Есть база данных, которая ведет учет этих версий. Здесь все ясно, реляционный Oracle справится со всем этим замечательно.
А вот сами файлы. Понятно, что десятки терабайт складывать на один раздел просто не выйдет. Да и доступ по скорости будет ужасный. Значит, нужен кластер или что-то вроде.

...

Рейтинг:

0 / 0

09.10.2018, 18:48

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715105

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

ЩичеПонятно, что десятки терабайт складывать на один раздел просто не выйдет. Да и доступ по
скорости будет ужасный.

И вот собрат выше ткнутого Даниила по разуму, которому сразу всё "понятно". На уровне
классового чутья, очевидно.

Ты не поверишь, но и террабайты на один раздел складываются без проблем и доступ к ним по
скорости ничем не отличается.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

09.10.2018, 18:53

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715106

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

ЩичеЗначит, нужен кластер или что-то вроде.
Еще раз - не нужен кластер. Нужен сервер с возможностью нормального вертикального масштабирования. И с возможностью делать бэкапы на соседний сервер через снапшоты.

...

Рейтинг:

0 / 0

09.10.2018, 18:58

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715116

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

ЩичеПонятно, что десятки терабайт складывать на один раздел просто не выйдет.

https://ru.wikipedia.org/wiki/Сравнение_файловых_систем

Да, не выйдет если у тебя в качестве сервера какой-нибудь телефон.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

09.10.2018, 19:22

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715117

skyANA

Участник

Откуда: Зеленоград

Сообщения: 22 795

Рейтинг: 0 / 0

Щиче,

MongoDB GridFS?

...

Рейтинг:

0 / 0

09.10.2018, 19:24

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715124

Щиче

Участник

Откуда: Чебоксары

Сообщения: 582

Рейтинг: 0 / 0

Dimitry SibiryakovЩичеПонятно, что десятки терабайт складывать на один раздел просто не выйдет. Да и доступ по
скорости будет ужасный.

И вот собрат выше ткнутого Даниила по разуму, которому сразу всё "понятно". На уровне
классового чутья, очевидно.

Ты не поверишь, но и террабайты на один раздел складываются без проблем и доступ к ним по
скорости ничем не отличается.

Не поверю. :) В конкурентном доступе головка будет метаться как бешеная. С предсказуемым исходом. Может быть RAID решил бы проблему, но вы не уточняли. Меня как раз и интересует то, что вы держите в себе.

Щичекачестве сервера какой-нибудь телефон.
Причем здесь сравнение файловых систем? Вы видели диск на 50TB? Я нет.

Andy_OLAP, "нормального вертикального масштабирования" - вы не дадите ссылочку? Я с темой не сталкивался, поэтому вертикальное масштабирование мне незнакомо.

skyANA, спасибо, похоже на то что нужно.

...

Рейтинг:

0 / 0

09.10.2018, 19:32

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715125

Sergei.Agalakov

Участник

Сообщения: 575

Рейтинг: 0 / 0

Вообще непонятно, почему этот вопрос в проектировании баз данных, это вопрос по системам хранения. Недостаточно данных для подробного совета. Сколько одновременных читателей, прирастание данных постепенное или сразу много добавляют, и, самое главное, бюджет. Необходимо обеспечить избыточность хранения данных и бэкапы, опционально кэширование. Можно сразу купить железку с софтом, которая всё это умеет из коробки, типа NetApp, можно купить сервер с хорошим железным RAID, можно поставить софтовый RAID или использовать файловые системы типа ZFS. Можно даже на облако все это выбросить. Терабайты сейчас не пугают, если их все сразу не надо читать. Распределенное хранилище самому делать смысла нет никакого, разве что оно в компании уже есть, и можно присоседиться. Если есть деньги, то звоните в NetApp, HP или IBM, опишите им задачу, и они подберут вам железо.

...

Рейтинг:

0 / 0

09.10.2018, 19:32

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715139

Щиче

Участник

Откуда: Чебоксары

Сообщения: 582

Рейтинг: 0 / 0

Sergei.AgalakovВообще непонятно, почему этот вопрос в проектировании баз данных, это вопрос по системам хранения. Недостаточно данных для подробного совета. Сколько одновременных читателей, прирастание данных постепенное или сразу много добавляют, и, самое главное, бюджет. Необходимо обеспечить избыточность хранения данных и бэкапы, опционально кэширование. Можно сразу купить железку с софтом, которая всё это умеет из коробки, типа NetApp, можно купить сервер с хорошим железным RAID, можно поставить софтовый RAID или использовать файловые системы типа ZFS. Можно даже на облако все это выбросить. Терабайты сейчас не пугают, если их все сразу не надо читать. Распределенное хранилище самому делать смысла нет никакого, разве что оно в компании уже есть, и можно присоседиться. Если есть деньги, то звоните в NetApp, HP или IBM, опишите им задачу, и они подберут вам железо.

Мне не надо решать задачу полностью. Мне уже четко сказали - Hadoop (HDFS). Просто у меня большие сомнения в оправданности подхода. Хочу знать какие лучше. Только для самообразования, не более.

...

Рейтинг:

0 / 0

09.10.2018, 20:02

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715163

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

ЩичеВ конкурентном доступе головка будет метаться как бешеная.

У-у-у, как всё запущенно...

Не майтесь дурью. Приказали хадуп - делайте хадуп и не используйте мозг.
А то ведь можете ненароком узнать о гибридных СХД.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

09.10.2018, 21:04

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715205

Злой Бобр

Участник

Откуда: Украина, Кривой Рог

Сообщения: 2 025

Рейтинг: 0 / 0

Dimitry SibiryakovНе майтесь дурью. Приказали хадуп - делайте хадуп ...

Все правильно. Дуракам доказывать что они дураки - себе дороже выйдет. Тем более когда версионность документов решается на уровне отдельных файлов, а не специально для этого предназначенных систем. Поверьте, есть начальник - пусть у него голова пухнет.

...

Рейтинг:

0 / 0

09.10.2018, 22:33

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715224

Alibek B

Участник

Сообщения: 3 881

Рейтинг: 0 / 0

ЩичеНе поверю. :) В конкурентном доступе головка будет метаться как бешеная.
Это представления примерно 15-летней давности.
У меня вот уже почти 5 лет каждый день записывается 5-8 ТБ.
И как-то головка справляется.

...

Рейтинг:

0 / 0

09.10.2018, 23:17

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715252

Andy_OLAP

Участник

Откуда: я знаю, что Хапоэль Беэр-Шева - чемпион

Сообщения: 2 080

Рейтинг: 0 / 0

ЩичеSergei.AgalakovВообще непонятно, почему этот вопрос в проектировании баз данных, это вопрос по системам хранения. Недостаточно данных для подробного совета. Сколько одновременных читателей, прирастание данных постепенное или сразу много добавляют, и, самое главное, бюджет. Необходимо обеспечить избыточность хранения данных и бэкапы, опционально кэширование. Можно сразу купить железку с софтом, которая всё это умеет из коробки, типа NetApp, можно купить сервер с хорошим железным RAID, можно поставить софтовый RAID или использовать файловые системы типа ZFS. Можно даже на облако все это выбросить. Терабайты сейчас не пугают, если их все сразу не надо читать. Распределенное хранилище самому делать смысла нет никакого, разве что оно в компании уже есть, и можно присоседиться. Если есть деньги, то звоните в NetApp, HP или IBM, опишите им задачу, и они подберут вам железо.

Мне не надо решать задачу полностью. Мне уже четко сказали - Hadoop (HDFS). Просто у меня большие сомнения в оправданности подхода. Хочу знать какие лучше. Только для самообразования, не более.

"Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами " и The current namespace limit is 100 million files . Давайте посчитаем. Файл 100 кбайт - в 1 Гбайт получается 10 000 таких файлов. В 1 Тбайт получается 10 миллионов таких файлов. 100 миллионов файлов - это 10 Тбайт.

Вывод - скоро Ваш хадуп таки встанет. Напишитее Вашему начальнику докладную записку по электронной почте и распечатайте себе бумажную копию. Как говорили в Союзе - чем больше бумаги, тем чище задница.

...

Рейтинг:

0 / 0

10.10.2018, 00:01

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715286

PizzaPizza

Участник

Сообщения: 499

Рейтинг: 0 / 0

Я тогда тоже для саморазвития спрошу.

Ткнулся я в вики по поводу HDFS и вот что там пишут:
"HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров "

учитывая задачу ЩичеОгромное количество мелких (< 1мб) файлов почему именно HDFS?

Может быть стоит посмотреть в сторону ФС с маленькой стоимостью хранения (видимо возможность настройки блока и минимальные метаданные)?

Если у вас ЩичеWrite-OnceЩичереляционный Oracle справится со всем этим замечательно то в чем подводный камень простого многодискового массива? Вроде доставлять серверов можно пока денег хватает, ссылки на файлы лежат в базе - ничего искать не надо.

...

Рейтинг:

0 / 0

10.10.2018, 02:27

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715312

Relic Hunter

Участник

Откуда: AB

Сообщения: 7 268

Рейтинг: 0 / 0

Щиче,

Windows Storage Server 2016.

Какие тут могут быть варианты?

https://blogs.technet.microsoft.com/storageserver/2016/10/14/announcing-windows-storage-server-2016/

...

Рейтинг:

0 / 0

10.10.2018, 04:15

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715316

Щиче

Участник

Откуда: Чебоксары

Сообщения: 582

Рейтинг: 0 / 0

Andy_OLAPЩичепропущено...

Мне не надо решать задачу полностью. Мне уже четко сказали - Hadoop (HDFS). Просто у меня большие сомнения в оправданности подхода. Хочу знать какие лучше. Только для самообразования, не более.

"Огромное количество мелких (< 1мб) файлов вроде *.doc, *pdf. Общий объем терабайты и будет прирастать терабайтами " и The current namespace limit is 100 million files . Давайте посчитаем. Файл 100 кбайт - в 1 Гбайт получается 10 000 таких файлов. В 1 Тбайт получается 10 миллионов таких файлов. 100 миллионов файлов - это 10 Тбайт.

Вывод - скоро Ваш хадуп таки встанет. Напишите Вашему начальнику докладную записку по электронной почте и распечатайте себе бумажную копию. Как говорили в Союзе - чем больше бумаги, тем чище задница.

Наши мысли сходятся. Мало того, они сходятся у всей рабочей группы. Это ТРЕБОВАНИЕ банка, не наше решение. Потому я и задал вопрос, что их требование показалось неадекватным задаче.

PizzaPizzaЯ тогда тоже для саморазвития спрошу.

Может быть стоит посмотреть в сторону ФС с маленькой стоимостью хранения (видимо возможность настройки блока и минимальные метаданные)?

Если у вас ЩичеWrite-OnceЩичереляционный Oracle справится со всем этим замечательно то в чем подводный камень простого многодискового массива? Вроде доставлять серверов можно пока денег хватает, ссылки на файлы лежат в базе - ничего искать не надо.

Реляционный Oracle предназначается только для хранения метаданных. Здесь 100-500млн. записей должен выдержать. Большинство будут просто лежать годами без доступа, можно делить по разным устройствам. Боюсь, простой многодисковый не выдержит. Здесь ведь и требования к объему велики и к надежности, к скорости доступа. Есть какие-то примеры решений на такой объем?

...

Рейтинг:

0 / 0

10.10.2018, 06:13

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715352

Щиче

Участник

Откуда: Чебоксары

Сообщения: 582

Рейтинг: 0 / 0

Alibek B.ЩичеНе поверю. :) В конкурентном доступе головка будет метаться как бешеная.
Это представления примерно 15-летней давности.
У меня вот уже почти 5 лет каждый день записывается 5-8 ТБ.
И как-то головка справляется.

Речь идет о чтении. Запись понятно, идет последовательно. А как быть, когда версии одного файла размазаны по диску? Или доступ идет доступ тысячи пользователей к разным документам. Вы меня обмануть хотите, однако. Физику никто не отменял.

...

Рейтинг:

0 / 0

10.10.2018, 08:28

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715388

Alibek B

Участник

Сообщения: 3 881

Рейтинг: 0 / 0

ЩичеРечь идет о чтении. Запись понятно, идет последовательно.
Ну-ну. Вам виднее.

...

Рейтинг:

0 / 0

10.10.2018, 09:41

| Ответить | Цитировать | Написать

Хранение множества мелких файлов

#39715469

Щиче

Участник

Откуда: Чебоксары

Сообщения: 582

Рейтинг: 0 / 0

Alibek B.ЩичеРечь идет о чтении. Запись понятно, идет последовательно.
Ну-ну. Вам виднее.

Да, вы правы.

...

Рейтинг:

0 / 0

10.10.2018, 11:41

| Ответить | Цитировать | Написать

25 сообщений из 33, страница 1 из 2

все

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Хранение множества мелких файлов

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=32&fpage=7&tid=1539995]:	0ms
get settings:	10ms
get forum list:	14ms
check forum access:	4ms
check topic access:	4ms
track hit:	39ms
get topic data:	12ms
get forum data:	2ms
get page messages:	128ms
get tp. blocked users:	2ms
others:	242ms

total:	457ms