Как лучше хранить сырые данные / WinForms, .Net Framework

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Как лучше хранить сырые данные

33 сообщений из 33, показаны все 2 страниц

все

Как лучше хранить сырые данные

#38612310

darlov

Гость

Доброго времени суток. Сразу скажу новичок... Подскажите пожалуйста с реализацией.
Пишу проект, который собирает технологические данные с серверов, агрегирует и вставляет в БД.
Сырые данные которые еще не подверглись агрегации в чем лучше хранить, в оперативной памяти, в Protocol Buffers, в XML?
Если отталкиваться от количества данных, то ежесекундно будут приходить около 3000 данных, вида double(64) | double(64) | double(64) т.е. 24 байта за информационную единицу, умножив на 3000 получаю 72000 байт в секунду, умножив на 10 минут (столько планирую хранить данные) получаю 41,200 МБ цифра не большая, если что то не упустил. Но я не знаю как это отразится на производительности.
Надеюсь понятно объяснил...

...

Рейтинг:

0 / 0

11.04.2014, 13:47:47

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38612686

darlov

Гость

Видимо не понятно объяснил

...

Рейтинг:

0 / 0

11.04.2014, 17:38:53

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38612696

Shocker.Pro

Участник

Откуда: ->|<- :адуктО

Сообщения: 23 134

Рейтинг: 0 / 0

Та понятно,
Что смущает? возможность затыка SQL-сервера при таком потоке?
Проведите нагрузочный тест, проверьте загрузку сети, диска и процессора SQL-сервера при этом потоке

...

Рейтинг:

0 / 0

11.04.2014, 17:43:04

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38612702

Antonariy

Участник

Откуда: ☭

Сообщения: 80 221

Рейтинг: 0 / 0

Да все понятно.

Точно не в XML.

Я бы вообще не заморачивался с хранением данных в памяти, а отправлял в бд по факту получения, и аггрегацией в ней же занимался.

...

Рейтинг:

0 / 0

11.04.2014, 17:45:53

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38612704

dvim

Участник

Откуда: Санкт Петербург

Сообщения: 618

Рейтинг: 0 / 0

darlov,

А в чем проблема в хранении 42 МБ в оперативной памяти?
Зачем сложности.

...

Рейтинг:

0 / 0

11.04.2014, 17:46:30

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38612705

Shocker.Pro

Участник

Откуда: ->|<- :адуктО

Сообщения: 23 134

Рейтинг: 0 / 0

а, или опасаетесь за само приложение? 42 Мб - это немного, даже если еще столько же служебной информации. Больше вопрос, как эти данные обрабатываются, от этого будет зависеть принцип хранения.

...

Рейтинг:

0 / 0

11.04.2014, 17:47:04

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613428

darlov

Гость

Antonariy, я тесты не делал, но в статьях и советах на форумах, пишут что не выдержит БД такой поток данных, единовременно если вставлять, проблем якобы не будет, а постоянный инсерт не выдержит. Собираюсь использовать Postgresql.

...

Рейтинг:

0 / 0

13.04.2014, 11:18:18

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613431

darlov

Гость

Ну ок, раз это небольшой объем. Тогда более высоко производительней будет в оперативке хранить, единствено, можно потерять данные при падения приложения.

...

Рейтинг:

0 / 0

13.04.2014, 11:23:33

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613472

Сон Веры Павловны

Участник

Сообщения: 6 318

Рейтинг: 0 / 0

darlovпишут что не выдержит БД такой поток данных, единовременно если вставлять, проблем якобы не будет, а постоянный инсерт не выдержит
А пацаны-разработчики биллинга об этом и не знали.

...

Рейтинг:

0 / 0

13.04.2014, 12:38:38

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613512

Arm79

Участник

Откуда: МО, Раменское

Сообщения: 3 205

Рейтинг: 0 / 0

darlovежесекундно будут приходить около 3000 данных, вида double(64) | double(64) | double(64)
Таки да, не каждая СУБД выдержит, если будет поток 3000 транзакций в секунду.

С другой стороны для такого небольшого объема данных нет проблем делать ежесекундную вставку данных одной операцией.

Что за СУБД? И какое под ней железо?

...

Рейтинг:

0 / 0

13.04.2014, 13:53:39

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613655

darlov

Гость

Arm79, СУБД: PostgreSQL, железо пока CPU: Intel i3, RAM: 4ГБ, при продакшн железо скорей всего изменится в лучшую сторону.

...

Рейтинг:

0 / 0

13.04.2014, 17:25:13

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613672

Где-то в степи

Участник

Откуда: Под Таганрогом

Сообщения: 4 453

Рейтинг: 0 / 0

darlov,
А вот если немного изменить вопрос, объем данных пару гигабайт, ускорить частоту приема на 4, в случае смерти приложения
сохранять данные, делать различные срезы из полученной информации... без за базы ?????

...

Рейтинг:

0 / 0

13.04.2014, 17:50:29

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613704

Arm79

Участник

Откуда: МО, Раменское

Сообщения: 3 205

Рейтинг: 0 / 0

darlovжелезо пока CPU: Intel i3, RAM: 4ГБ, при продакшн железо скорей всего изменится в лучшую сторону
У меня ноут мощнее :-)

Ну смотрите, ежесекундно 3000 * 24 байта = 70 килобайт. В общем, ничтожно мало.

Есть варианты. Например, генерить multiple инсерты типа:
PostgreeSQL DocsINSERT INTO products (product_no, name, price) VALUES
(1, 'Cheese', 9.99),
(2, 'Bread', 1.99),
(3, 'Milk', 2.99);

Или сохранять в файл и buill insert через Copy

Насколько критично, если какие-то данные пропадут, не попадут в БД? Например, минутный интервал?

...

Рейтинг:

0 / 0

13.04.2014, 18:54:08

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613773

darlov

Гость

Arm79, Спасибо за COPY? не знал.
Ну если будут пропадать данные раз в полгода, это еще не критично, а если периодически , то это критично. А почему это cпросили, то что команда COPY может не отработать из за ошибки в файле?
Еще вопросик, команда COPY может брать данные с RAM?

...

Рейтинг:

0 / 0

13.04.2014, 21:05:06

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613784

Arm79

Участник

Откуда: МО, Раменское

Сообщения: 3 205

Рейтинг: 0 / 0

darlov,

1) Создание файла и запись в него килобайтов/мегабайтов ныне не составляет проблем по скорости. Диски быстрые, кэш большой. Поэтому можно спокойно сначала записать в файл, а потом перекинуть в БД
2) Если уж совсем критично по времени, можно файл создавать на RAM-диске.

Но у меня все равно чувство, что вы переусложняете.

...

Рейтинг:

0 / 0

13.04.2014, 21:29:09

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613787

darlov

Гость

Arm79,
Спасибо, буду пробовать.

...

Рейтинг:

0 / 0

13.04.2014, 21:45:36

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613809

Где-то в степи

Участник

Откуда: Под Таганрогом

Сообщения: 4 453

Рейтинг: 0 / 0

darlov,
в четвертом появился MemoryMappedFile можно работать с привязкой к диску можно чисто с памятью ( быстрее)
при мелких размерах, система ставит по дефолту размер кластера диска,
делаем рентабельную очередь, с конца пишем данные из разных потоков, с морды заливаем в файл, если есть желании
через дельту или как флешем проталкиваем данные на жесткий диск, можно заталкивать структуры (имхо не забывать про смещение), таки получать их из файла, и тд......

...

Рейтинг:

0 / 0

13.04.2014, 23:24:25

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613816

Где-то в степи

Участник

Откуда: Под Таганрогом

Сообщения: 4 453

Рейтинг: 0 / 0

наверно лучше вместо - ставит по дефолту размер кластера диска,
выравнивает до размера клястера..

...

Рейтинг:

0 / 0

13.04.2014, 23:41:22

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613900

Alex Kuznetsov

Участник

Откуда: Ростов-на-Дону

Сообщения: 1 795

Рейтинг: 0 / 0

Коллеги, а что мешает собирать данные в одном потоке, а записывать в базу в разных потоках?
Разнести задачу записи в очередь из нескольких потоков и пусть пишут.
Хоть через файл, хоть напрямую...

Тут вопрос в другом: ежели за 10 минут набегает ~41 Mb данных, то за сутки получим ~5 Gb, за год более 2 Tb без учёта служебных данных и т.д., и т.п.
Какова должны быть ретроспективная глубина хранения данных?

...

Рейтинг:

0 / 0

14.04.2014, 08:07:53

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613928

Shocker.Pro

Участник

Откуда: ->|<- :адуктО

Сообщения: 23 134

Рейтинг: 0 / 0

darlov10 минут (столько планирую хранить данные)

...

Рейтинг:

0 / 0

14.04.2014, 09:15:11

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38613997

Alex Kuznetsov

Участник

Откуда: Ростов-на-Дону

Сообщения: 1 795

Рейтинг: 0 / 0

Shocker.Prodarlov10 минут (столько планирую хранить данные)Shocker.Pro, я помню про 10 минут.
Просто меня смутила фраза:
автор...Ну если будут пропадать данные раз в полгода, это еще не критично, а если периодически , то это критично... Не сразу понял что речь идёт именно о 10-ти минутном "куске" сырых данных.
Видимо, сказывается то, что голова побаливает...

...

Рейтинг:

0 / 0

14.04.2014, 11:00:14

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614009

darlov

Гость

Alex Kuznetsov,
Я так и планирую разделить по потокам, как раз для промежуточного хранения массива данных я и интересуюсь что использовать.

...

Рейтинг:

0 / 0

14.04.2014, 11:14:17

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614011

darlov

Гость

Где-то в степи, Спасибо за MemoryMappedFile, беру на заметку.

...

Рейтинг:

0 / 0

14.04.2014, 11:15:57

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614059

Alex Kuznetsov

Участник

Откуда: Ростов-на-Дону

Сообщения: 1 795

Рейтинг: 0 / 0

darlovAlex Kuznetsov,
Я так и планирую разделить по потокам, как раз для промежуточного хранения массива данных я и интересуюсь что использовать.Тогда действительно можно посмотреть в сторону MMF. Только учтите один немаловажный момент про размер блоков .
MSDN... One advantage to using MMF I/O is that the system performs all data transfers for it in 4K pages of data. ...
Правда это было актуально для 1998 года. Сейчас ситуация изменилась и размер страницы зависит от системы.

ММF можно использовать для "скидывания" сырых данных на диск, а затем уже в отдельных потоках(после 10-ти минутного скидывания) спокойно сливать данные в базу.
Слил в базу - грохнул файл.
Таким образом может быть два потока на запись в MMF(не думаю, что для записи секундных данных нужно будет более одного потока), и сколько нужно для передачи файла в базу.

...

Рейтинг:

0 / 0

14.04.2014, 12:00:35

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614144

Где-то в степи

Участник

Откуда: Под Таганрогом

Сообщения: 4 453

Рейтинг: 0 / 0

Alex Kuznetsov,
да забудь те вы о много поточном инсерте в базу....
если вытесняющую многозадачность можно победить для такой невьебенной задачи дополнительным клястером
то база ну никак не будет писать в таблицу разными потоками..

...

Рейтинг:

0 / 0

14.04.2014, 13:19:07

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614160

Alex Kuznetsov

Участник

Откуда: Ростов-на-Дону

Сообщения: 1 795

Рейтинг: 0 / 0

Где-то в степиAlex Kuznetsov,
да забудь те вы о много поточном инсерте в базу....
если вытесняющую многозадачность можно победить для такой невьебенной задачи дополнительным клястером
то база ну никак не будет писать в таблицу разными потоками..Коллеги, извините, если ввёл в заблуждение своей фразой "... сколько нужно для передачи файла в базу.".
Я имел в виду по одному потоку на файл, а никак не пучок потоков на один файл.
Понятно, что один такой файл можно будет слить в базу менее чем за 10 минут.

Просто идея в том, чтобы отделить заливку в базу от получения данных.

...

Рейтинг:

0 / 0

14.04.2014, 13:32:35

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614755

darlov

Гость

A есть ли выгода в многопоточности? На много увеличится производительность? Где то попадалось что в каждый момент времени выполняется только один поток и бывает проигрыш из за постоянного переключения потоков.
К примеру, 5 серверов с которых сливаются данные по TCPIP для каждого создаю поток т.е. 5 потоков, каждый поток пишет свой файл и производит выборку с сервера. Много ли выиграю?

...

Рейтинг:

0 / 0

14.04.2014, 20:49:14

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614761

Alex Kuznetsov

Участник

Откуда: Ростов-на-Дону

Сообщения: 1 795

Рейтинг: 0 / 0

darlovA есть ли выгода в многопоточности? На много увеличится производительность? Где то попадалось что в каждый момент времени выполняется только один поток и бывает проигрыш из за постоянного переключения потоков.
К примеру, 5 серверов с которых сливаются данные по TCPIP для каждого создаю поток т.е. 5 потоков, каждый поток пишет свой файл и производит выборку с сервера. Много ли выиграю?Зависит от количества ядер процессоров. При наличии к примеру четырёх ядер можно распределить к четыре потока каждый на отдельное ядро. Как Вы думаете, при этом будет выигрыш по производительности?

А кстати, сервер БД, куда потом будут сливаться обработанные данные, он на отдельной машине или на той-же?

...

Рейтинг:

0 / 0

14.04.2014, 21:03:29

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614769

darlov

Гость

Alex Kuznetsov, А если 5 потоков 4 ядра, как будет выполняться?
БД на той же машине.

...

Рейтинг:

0 / 0

14.04.2014, 21:10:20

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614810

Alex Kuznetsov

Участник

Откуда: Ростов-на-Дону

Сообщения: 1 795

Рейтинг: 0 / 0

darlovAlex Kuznetsov, А если 5 потоков 4 ядра, как будет выполняться?
БД на той же машине.Вы меня проверяете что-ли?
Будет выполнять ровно так, как Вы нарисуете. Сможете запустить потоки на разных ядрах, значит три будет работать "отдельно" каждый в отдельном ядре, а два будут "разделять" одно ядро.
В какой момент какой именно из этих двух потоков быстрее завершит свою работу, этого Вам даже дядюшка билли не скажет, ибо в винде вытесняющая многозадачность, "кончил, не кончил - три минуты"...

В .Net, кстати, не так уж просто заставить поток Thread исполняться на каком-то определённом ядре, тем не менее возможно .

БД на той-же машине... хм... "и мы ещё боремся за звание образцовой культуры быта" ...
Сливать данные туда-же где будет и так нагружена дисковая подсистема...
Я бы подумал над тем, чтобы вынести БД на отдельный сервер...

...

Рейтинг:

0 / 0

14.04.2014, 22:08:01

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614820

darlov

Гость

Alex KuznetsovВы меня проверяете что-ли?

Нет, просто вытесняю недопонимание.
Alex KuznetsovЯ бы подумал над тем, чтобы вынести БД на отдельный сервер...

Пока на одной машине, при продакшене и понижении производительности буду думать насчет второй машины.
Спасибо.

...

Рейтинг:

0 / 0

14.04.2014, 22:24:05

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38614973

Кифирчик

Участник

Откуда: СПб

Сообщения: 930

Рейтинг: 0 / 0

darlov,
что-то вы усложняете, 40мб за 10 мин (70кб/сек) - это "ни о чем" даже для не очень мощного компа.
копите в памяти, и то что собрали - раз в минуту другим потоком, как вам уже подсказали, формируете групповой Insert.
Комп все успеет.
Делал схожую систему, и когда симуляцией нагружал диким потоком UDP пакетов - даже на не очень мощном компе все работало с загрузкой проца не более 60%.
При таком потоке данных, не уверен что стоит кэшировать все в файл перед заливкой в БД.
5 TCP - мне кажется, если делаете асинхронный прием данных, то принципиальной разницы между одним потоком и пятью не будет.
Возможно стоит для каждого TCP просто делать свою очередь (очередь А).
Поток заливающий в БД, должен лочить А, быстренько выгружать данные в свою очередь (Б) и отпускать очередь А чтоб туда мог продолжить писать TCP, и уже после из очереди Б формировать данные для загрузки.
Симулируйте нагрузку, и там поймете как часто надо в БД писать, и на сколько большими порциями. Также разделите во времени очистку в базе старых данных, с заливкой новых.

...

Рейтинг:

0 / 0

15.04.2014, 09:02:06

| Ответить | Цитировать | Написать

Как лучше хранить сырые данные

#38616023

LameUser

Участник

Сообщения: 2 407

Рейтинг: 0 / 0

Я бы предложил вам протестировать самый быстрый (и самый надежный вариант) если заработает.
Тупо инсертить данные по приходу в том виде, в котором приходят без выгрузки их в XML.

В крайнем случае - можно их аггрегировать например минуту - и потом одним запросом инсертить.

Скорее всего проблемы не возникнет, т.к. данных не так много.

...

Рейтинг:

0 / 0

16.04.2014, 07:54:47

| Ответить | Цитировать | Написать

33 сообщений из 33, показаны все 2 страниц

все

Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Как лучше хранить сырые данные

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?all=1&fid=20&tid=1403029]:	0ms
get settings:	12ms
get forum list:	18ms
check forum access:	3ms
check topic access:	3ms
track hit:	195ms
get topic data:	11ms
get forum data:	2ms
get page messages:	61ms
get tp. blocked users:	1ms
others:	240ms

total:	546ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы