Эффективная работа с большими файлами (под windows) / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Эффективная работа с большими файлами (под windows)

17 сообщений из 17, страница 1 из 1

Эффективная работа с большими файлами (под windows)

#35266803

Dian

Гость

Возникла необходимость работать с файлами больших размеров (~20Gb)

Файл представляет собой таблицу небольших записей, каждая новая запись должна быть внесена в строго определенное место. Проблема в том, что записи поступают в таком порядке, что их размещение в файле очень близко к равмномерному распределению. NTFS в такой ситуации работает дико неэффективно - 5000 записей пишутся от 6 до 14 секунд.

Как можно оптимизировать данный процесс?
В конечном итоге файл должен быть именно таким, в случае введения промежуточных этапов в них можно делать что угодно. В распоряжении процесса имеется 32х разрядное адресное простанство и примерно гиг оперативки.

...

Рейтинг:

0 / 0

20.04.2008, 12:17

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35267096

Lelikk

Участник

Откуда: Москва

Сообщения: 1 542

Рейтинг: 0 / 0

Наиболее эффективное решение проблемы - изменить саму архитектуру.
1) Зачем вам писать записи в определенное место - может быть лучше снабдить их номерами.
2) Отсюда сразу следует, что применять надо базу данных, так как там все ваши проблемы решили за вас, причем гарантированно лучше, чем вы когда-нибудь напишете (если конечно не станете год трудиться над этим, да и то...).

3) Ну если религиозные соображения не позволяют использовать БД, то делаем буффер, сливаем в него новые записи просто по порядку - а фоновый процесс будет их распихивать в большом файле - но это все равно жутко криво и просто примитивнейшая копия работы менеджера кеша БД.

________________________________________________________
Глюк - это высокоорганизованная система не поддающихся определению частиц

...

Рейтинг:

0 / 0

20.04.2008, 17:57

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35267352

Frenzy

Участник

Откуда: Донецк, Украина

Сообщения: 1 163

Рейтинг: 0 / 0

> Как можно оптимизировать данный процесс?

как-то люди задумались над тем же вопросом что мучает сейчас вас. так появились субд

...

Рейтинг:

0 / 0

20.04.2008, 23:45

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35267393

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Я так понимаю, что "расфасовка" записей по номерам имеет цель - индексировать записи по целочисленному ключу. Других мотивов как-бы и не придумаешь.

Я-бы предложил взять какую-нибудь простенькую бесплатную СУБД с упреждающим журналом транзакций типа (Oracle Berkeley) и применить её в данной задаче.

...

Рейтинг:

0 / 0

21.04.2008, 00:35

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35267436

Dian

Гость

Наиболее эффективное решение проблемы - изменить саму архитектуру.
1) Зачем вам писать записи в определенное место - может быть лучше снабдить их номерами.
Боюсь поиск будет неэффективен уже при 2 миллиардах записей. К тому же это дополнительный расход дискового пространства - последнего катастрофически нехватает :(

Отсюда сразу следует, что применять надо базу данных, так как там все ваши проблемы решили за вас, причем гарантированно лучше, чем вы когда-нибудь напишете
Пробовал MSSQL Express. Пишет действительно довольно быстро (bulk insert). Поиск тоже работал довольно шустро (Хотя не факт, что это сохранится на больших объемах данных). Однако, на 5 млн записей база разрослась до 250 метров, при максимально допустимом для них объёме в 100 мегабайт.
Так что задачу там конечно решили хорошо, но в данном случае качество неприемлемо.

Ну если религиозные соображения не позволяют использовать БД, то делаем буффер, сливаем в него новые записи просто по порядку - а фоновый процесс будет их распихивать в большом файле
Примерно такой была самая ранняя реализация. Это, к сожалению, ни коим образом не решает упомянутую проблему.
Религиозные соображения - цель оправдывает средства :)

mayton
всё верно. Не знаю Oracle Berkeley, но справится ли он там, где не хватило MSSQL Express?

...

Рейтинг:

0 / 0

21.04.2008, 03:22

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35267470

Серж

Участник

Сообщения: 750

Рейтинг: 0 / 0

DianНе знаю Oracle BerkeleyЭто не совсем сервер БД, в том смысле, в котором все привыкли это понимать. Он только предоставляет необходимый механизм для хранения данных, остальное за программистом. Хранит данные в виде ключ/значение. Посмотреть стоит. Очень вероятно, что подойдет.

...

Рейтинг:

0 / 0

21.04.2008, 06:14

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35267974

МихаилР

Участник

Откуда: Ижевск

Сообщения: 331

Рейтинг: 0 / 0

Возможно (увы, не могу сказать с точностью, ибо у самого так и не дошли руки поработать), вас может устроить стандартный механизм Windows - "Extensible Storage Engine", ранее известный как "Jet Blue" (это не тот же самый Jet, который является движком Access!).

Из документации я для себя понял, что это реализация индексно-последовательных файлов, с некоторыми дополнительными "вкусностями" (типа поддержки транзакций).

Посмотрите.

...

Рейтинг:

0 / 0

21.04.2008, 11:48

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35268202

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Dianвсё верно. Не знаю Oracle Berkeley, но справится ли он там, где не хватило MSSQL Express?

Это очень странное заявление. Насколько я знаю, Express ограничен по вычислительной мощности в 1 камень и еще есть какие-то квоты на размер дата-файлов. Пусть спецы меня поправят если ошибся. Но в целом-то СУБД очень хорошая. Есть и partitions. Вы говорите что "не хватило". Не хватило на чём? На inserts? Или на выборках? Что тормозило? В любом случае, я-бы сначала выжал все возможности по перформансу из СУБД а потом уже доделывал велосипед.

P.S. А здесь задавали вопрос?

...

Рейтинг:

0 / 0

21.04.2008, 12:56

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35268419

Dian

Гость

Это очень странное заявление. Насколько я знаю, Express ограничен по вычислительной мощности в 1 камень и еще есть какие-то квоты на размер дата-файлов. Пусть спецы меня поправят если ошибся. Но в целом-то СУБД очень хорошая. Есть и partitions. Вы говорите что "не хватило". Не хватило на чём? На inserts? Или на выборках? Что тормозило? В любом случае, я-бы сначала выжал все возможности по перформансу из СУБД а потом уже доделывал велосипед.
Уж Standard Edition то под это могут купить. См выше - проблема не в перформансе, а в эффективности использования дискового простанства. Если использовать MS только для индекса, велосипеды остаются на месте. Если использовать его для всех данных, увеличение в 2.5 раза скушает на диске лишние ~6Тб.

...

Рейтинг:

0 / 0

21.04.2008, 14:10

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35268558

Gatman

Участник

Откуда: Донецк

Сообщения: 3 326

Рейтинг: 0 / 0

Если есть желание попрограммировать, то можно попробовать хранить данные в виде BPlusTree . Даёт приличный перформанс, при этом на индексы тратится мало места.
Кстати, есть бесплатные обьектные базы данных, которые работают на этом принципе, можно попробовать их заюзать

...

Рейтинг:

0 / 0

21.04.2008, 14:45

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35268582

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

GatmanЕсли есть желание попрограммировать, то можно попробовать хранить данные в виде BPlusTree
Все СУБД (и Berkeley в т.ч) стоят на 3 китах: B+Tree, Hashtables, LRU-list. Они могут использоватся явно или скрытно, могут иметь различные модификации но суть от этого не меняется.

...

Рейтинг:

0 / 0

21.04.2008, 14:51

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35268599

Gatman

Участник

Откуда: Донецк

Сообщения: 3 326

Рейтинг: 0 / 0

mayton[quot Gatman]
Все СУБД (и Berkeley в т.ч) стоят на 3 китах: B+Tree, Hashtables, LRU-list.
Утверждать точно не могу, но в книжке по MS SQL 2005 Пирогова читал что индексы там строятся на BTree, а не B+Tree

...

Рейтинг:

0 / 0

21.04.2008, 14:54

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35268614

Dian

Гость

Дело в том, что в моей системе кит другой - индексирование идет так, что требуемый объем уменьшается

...

Рейтинг:

0 / 0

21.04.2008, 14:58

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35269654

Lelikk

Участник

Откуда: Москва

Сообщения: 1 542

Рейтинг: 0 / 0

Если данные не хитроспецифические (каков кстати у вас размер одной записи?), то индексирование всегда требует лишего места и лишнего времени на добавление, но экономит его при поиске.
Сесть на оба стула нельзя:
1) Может быть вам пожертвовать при таких объемах лишними гигабайтами, они дешево стоят. И тогда использовать готовую СУБД.
2) В принципе как-то переформулировать задачу - она достаточно специфическая вероятно и можно попробовать кардинально переиграть метод.
________________________________________________________
Глюк - это высокоорганизованная система не поддающихся определению частиц

...

Рейтинг:

0 / 0

21.04.2008, 19:17

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35269715

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

DianNTFS в такой ситуации работает дико неэффективно - 5000 записей пишутся от 6 до 14 секунд.Имхо, файловая система не виновата (даже неважно, NTFS это или нет).
Сами представьте, что вы от нее просите - спозиционировать головки диска, прочитать блок (кластер в терминологии FAT) данных, изменить его, спозиционировать головки диска (если их кто-то успел увести), записать обратно. И так непрерывно. Т.е. у вас основной упор не в ФС, а в диски.

Насколько оперативно все это должно работать? Т.е от момента прихода данных, до окончательного их расположения в файле?
Каковы требования/допуски по потерям данных?

...

Рейтинг:

0 / 0

21.04.2008, 20:04

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35270032

Dian

Гость

Lelikk
Сейчас как раз прорабатываю второй вариант. Здесь дело идет на террабайты, а они, увы, дороже.

miksoft
Всё верно, это и понималось под "процессом" в первом посте. Пока наиболее адекватное предложение, которое я услышал - сортировать блоки входных данные по их разположению и отправлять на запись по порядку (в идеале - блоками соседних записей)

Потери данных недопустимы, что ж касается скорости/объйма - это направления, чем быстрее/компактнее - тем лучше

...

Рейтинг:

0 / 0

22.04.2008, 02:25

| Ответить | Цитировать | Написать

Эффективная работа с большими файлами (под windows)

#35271133

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

DianДело в том, что в моей системе кит другой - индексирование идет так, что требуемый объем уменьшается

Ага. Это называется compressed index.

DianПока наиболее адекватное предложение, которое я услышал - сортировать блоки входных данные по их разположению и отправлять на запись по порядку (в идеале - блоками соседних записей)

Верно. Любая СУБД с упреждающим журналом транзакций это делает автоматически.

Еще можно собрать диск в RAID0 c величиной stripe кратной размеру вашего блока. Технически, должно увеличить скорость seeking.

...

Рейтинг:

0 / 0

22.04.2008, 13:24

| Ответить | Цитировать | Написать

17 сообщений из 17, страница 1 из 1

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&msg=35268614&tid=1345343]:	0ms
get settings:	10ms
get forum list:	15ms
check forum access:	2ms
check topic access:	3ms
track hit:	156ms
get topic data:	11ms
get forum data:	3ms
get page messages:	71ms
get tp. blocked users:	1ms
others:	244ms

total:	516ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы