Работа с большими данными / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Работа с большими данными

25 сообщений из 112, страница 4 из 5

все

Работа с большими данными

#39508125

azsx

Участник

Сообщения: 523

Рейтинг: 0 / 0

авторА что это за база "Пастухова"?
Оффлайн база кеев для сеошников. Полезна для некоторых тематик.
авторКто этот замечательный человек?
Программист. ИНН 920156526734, он ИП https://egrul.nalog.ru/

...

Рейтинг:

0 / 0

20.08.2017, 20:05

| Ответить | Цитировать | Написать

Работа с большими данными

#39508127

azsx

Участник

Сообщения: 523

Рейтинг: 0 / 0

авторНапротив, из его слов можно предположить, что у него есть некие тексты на языках народов мира.
Тогда я сдаюсь. Чо то шибко много тб для всех слов в мире.

...

Рейтинг:

0 / 0

20.08.2017, 20:06

| Ответить | Цитировать | Написать

Работа с большими данными

#39508128

Aleksandr Sharahov

Участник

Откуда: Москва

Сообщения: 2 167

Рейтинг: 0 / 0

mikronAleksandr Sharahovпропущено...
Всю остальную хрень не читаем из файла, для отбора дубликатов она не требуется.

Интересный поворот мысли. Другими словами в моём примере вы удалите все строчки за исключением первой как дубликаты?
Вас ничего не смущяет?

Нет, не смущает. Была задача удалить дубликаты - я удаляю.
Будет задача объединить - объединю.
Что не так? :-)

...

Рейтинг:

0 / 0

20.08.2017, 20:07

| Ответить | Цитировать | Написать

Работа с большими данными

#39508129

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

maytonИ никакой сортировки. Как вам?
Зачтено.
Вопрос в том, умеют ли DBMS такие и подобные методы? Я думаю что нет, и это мой аргумент против DBMS для этой задачи.

...

Рейтинг:

0 / 0

20.08.2017, 20:10

| Ответить | Цитировать | Написать

Работа с большими данными

#39508130

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

maytonИ никакой сортировки. Как вам?
Может и заработает, только 38 неправильная цифра, больше надо, учитывай служебную инфу и размер страницы 4 кб, т.к. при нехватке памяти все что касается чанка должно постоянно быть памяти, т.е. не должно быть свопа пока в хэш-таблицу грузится один чанк.

...

Рейтинг:

0 / 0

20.08.2017, 20:13

| Ответить | Цитировать | Написать

Работа с большими данными

#39508133

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

Aleksandr SharahovБыла задача удалить дубликаты - я удаляю.
Что не так? :-)
Вобще-то вопрос был риторический но если вам не непонятно: вы удалили оригинальные данные а не дубликаты

allow;ru;разрешать
и не одно и то же что
allow;ru;позволять
и уж совсем не дубликат
allow;de;erlauben

...

Рейтинг:

0 / 0

20.08.2017, 20:23

| Ответить | Цитировать | Написать

Работа с большими данными

#39508134

Aleksandr Sharahov

Участник

Откуда: Москва

Сообщения: 2 167

Рейтинг: 0 / 0

mikronAleksandr SharahovБыла задача удалить дубликаты - я удаляю.
Что не так? :-)
Вобще-то вопрос был риторический но если вам не непонятно: вы удалили оригинальные данные а не дубликаты

allow;ru;разрешать
и не одно и то же что
allow;ru;позволять
и уж совсем не дубликат
allow;de;erlauben

Вобще-то, и ответ был риторический, но если вам не непонятно,
то без четкого определения дубликата спорить абсолютно бессмысленно.

...

Рейтинг:

0 / 0

20.08.2017, 20:25

| Ответить | Цитировать | Написать

Работа с большими данными

#39508138

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

mikronmaytonИ никакой сортировки. Как вам?
Зачтено.
Вопрос в том, умеют ли DBMS такие и подобные методы? Я думаю что нет, и это мой аргумент против DBMS для этой задачи.
DBMS умеет по другому. Он бъет сложным и универсальным ударом который
называется B+Tree. Это дерево. Но особое. Оптимизированное для дисковых
блочных операций. И разумеется оно нелетает без прослойки LRU-подобного
кеша блоков.

По сути табличка с индексом решает эту задачу универсально и квази-линейно
масштабируется до 150 Гиг и до петабайт. Зависит от нашей жадности.

...

Рейтинг:

0 / 0

20.08.2017, 20:43

| Ответить | Цитировать | Написать

Работа с большими данными

#39508139

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

Aleksandr Sharahovmikronпропущено...

Вобще-то вопрос был риторический но если вам не непонятно: вы удалили оригинальные данные а не дубликаты

allow;ru;разрешать
и не одно и то же что
allow;ru;позволять
и уж совсем не дубликат
allow;de;erlauben

Вобще-то, и ответ был риторический, но если вам не непонятно,
то без четкого определения дубликата спорить абсолютно бессмысленно.
Ну и чудесно, теперь надеюсь вам понятно, что ваше утверждение что хеш-таблица прекрасно справится беспочвенно.
Как некоторые уже писал, зависит от количества уникальных ключей.

...

Рейтинг:

0 / 0

20.08.2017, 20:45

| Ответить | Цитировать | Написать

Работа с большими данными

#39508140

Aleksandr Sharahov

Участник

Откуда: Москва

Сообщения: 2 167

Рейтинг: 0 / 0

mikronAleksandr Sharahovпропущено...
Вобще-то, и ответ был риторический, но если вам не непонятно,
то без четкого определения дубликата спорить абсолютно бессмысленно.
Ну и чудесно, теперь надеюсь вам понятно, что ваше утверждение что хеш-таблица прекрасно справится беспочвенно.
Как некоторые уже писал, зависит от количества уникальных ключей.

Я и не утверждал, что хеш-таблица справится со всеми задачами, которые вы придумаете.

Я лишь считаю, что с задачей автора, как я ее понимаю, хеш-таблица справится.

...

Рейтинг:

0 / 0

20.08.2017, 20:51

| Ответить | Цитировать | Написать

Работа с большими данными

#39508141

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Dima TmaytonИ никакой сортировки. Как вам?
Может и заработает, только 38 неправильная цифра, больше надо, учитывай служебную инфу и размер страницы 4 кб, т.к. при нехватке памяти все что касается чанка должно постоянно быть памяти, т.е. не должно быть свопа пока в хэш-таблицу грузится один чанк.
Заработает! Не сомневайся! Ученье Маркса правильно, потому что оно - верно!

Принципиально-то алгоритм рабочий?

А по сабжу... то что ты говоришь - это тонкая настройка структур данных. Я там по тексту упомянул
что на 4Г ключей (по суммарной длине) я резервирую аж 2Г служебной инфы. По моему
это более чем достаточно для всех "гранулярных" структур данных.

...

Рейтинг:

0 / 0

20.08.2017, 20:54

| Ответить | Цитировать | Написать

Работа с большими данными

#39508142

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

mayton4Г ключей (по суммарной длине)
Ну откуда вы эти предположения берете? ТС ничего не сказал по этому поводу. Исходи из худшего: все значения уникальны.

...

Рейтинг:

0 / 0

20.08.2017, 20:59

| Ответить | Цитировать | Написать

Работа с большими данными

#39508144

ПЕНСИОНЕРКА

Участник

Откуда: Владимирская обл

Сообщения: 4 809

Рейтинг: 0 / 0

Андрей Александрович.,
в словарях практически нет повторений статей по слову(помогала как-то форматировать в ворде 2 словаря)
все строки разные(длина статьи доходила до 9кб, причем заносилось сие в одну ячейку)

привожу пример --это может быть в одной записи
case сущcase [keɪs] сущ fact • matter • argument • reality • thing • affair • deedслучайм, делоср, примермinstance • example • precedent • case in point(instance, affair, example)event • occasion • occurrenceкорпусм, кожухмbox • housing • enclosure • body • cabinet • chassis • corps • pencil case(housing)causeчехолм, футлярм, ящикм, чемоданм, коробкаж, кейсм, сумкаж, крышкажlawsuit • court case • legal case(cover, box, bag, briefcase)обстоятельствоср, фактм(circumstance, fact)больной, пациентм(patient)историяж, история болезни(history)заболеваниеср(disease)регистрм(register)вариантм(option)шкафм(cabinet)прецедентм(precedent)витринаж(window)падежм(mortality)доводымположениеср(situation)контейнерм(container)кассетаж(magazine)
так что для начала надо видимо создать индексные файлы(150гб будет много меньше )
при этом получим статистику --а сколько слов в словаре, средняя длина стать
--имя словаря
--язык
--порядковый номер в справочнике
--ключевое слово статьи

ведь может потребоваться пересобирать источники в другом порядке, можно сначала собрать мелочь,
получив единый(ничего не удаляя),а только потом сливать с базовым

...

Рейтинг:

0 / 0

20.08.2017, 21:02

| Ответить | Цитировать | Написать

Работа с большими данными

#39508148

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

maytonПринципиально-то алгоритм рабочий?
Рабочий. При большом количестве ключей надо будет допилить распределение по чанкам.

...

Рейтинг:

0 / 0

20.08.2017, 21:05

| Ответить | Цитировать | Написать

Работа с большими данными

#39508149

ПЕНСИОНЕРКА

Участник

Откуда: Владимирская обл

Сообщения: 4 809

Рейтинг: 0 / 0

maytonВам дан текстовый файл. 150Gb. В формате csv.
их хотя и не без проблем можно разбить на 15 по 1 гб, хотя если статьи длинные --- частей может быть и меньше

150гб --это не показатель
сколько это записей

...

Рейтинг:

0 / 0

20.08.2017, 21:05

| Ответить | Цитировать | Написать

Работа с большими данными

#39508150

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Aleksandr Sharahovmikronпропущено...

Ну и чудесно, теперь надеюсь вам понятно, что ваше утверждение что хеш-таблица прекрасно справится беспочвенно.
Как некоторые уже писал, зависит от количества уникальных ключей.

Я и не утверждал, что хеш-таблица справится со всеми задачами, которые вы придумаете.

Я лишь считаю, что с задачей автора, как я ее понимаю, хеш-таблица справится.
Нет сомнений что справится. Есть просто разные оценки времени. Алгоритм который
я предложил делает минимум 2 full scan по 150 Гб пространству ключей (построение
38 чанков и работа с каждым из них отдельно).

Сортировка о которой говорили выше в такой постановке не то чтобы не возможна.
Она возможна. Но вангую что под капотом у утилит sort, unique, e.t.c лежит
знаметитая "дисковая сортировка слиянием" (она -же ленточная, она-же merge)
которая перелопатит наши 150 Гиг не один и не два а логарифм ... хер там от какого
числа итераций, количество которых будет определяться эффетивностью первой
фазы.

Поэтому когда мне говорят о сортировке 150 Гиг - я улыбаюсь.

Попробуйте...

...

Рейтинг:

0 / 0

20.08.2017, 21:07

| Ответить | Цитировать | Написать

Работа с большими данными

#39508151

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Dima Tmayton4Г ключей (по суммарной длине)
Ну откуда вы эти предположения берете? ТС ничего не сказал по этому поводу. Исходи из худшего: все значения уникальны.
Дима так все чики-пики. Я беру worst-scenario!
Я беспокоюсь о том чтобы вы не получили out of memory error.
Все 4 Гига уникальны? Отлично. Они все лягут нормик в хеш-табличку.
Будет 50% дублей? Отлично. Они свернуться на 2-й фазе когда мы отработаем
всех 38 попугаев.

...

Рейтинг:

0 / 0

20.08.2017, 21:10

| Ответить | Цитировать | Написать

Работа с большими данными

#39508152

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

ПЕНСИОНЕРКАmaytonВам дан текстовый файл. 150Gb. В формате csv.
их хотя и не без проблем можно разбить на 15 по 1 гб, хотя если статьи длинные --- частей может быть и меньше

150гб --это не показатель
сколько это записей
+1

Ваш поинт про сколько записей очень верный! И я его коснусь в моем втором алгоритме.
Который я опишу чуть позже если топик еще будет актуален.

Выше вы пишете про 15 по 1Гб? Вы хотели сказать 15 по 10Гб?

...

Рейтинг:

0 / 0

20.08.2017, 21:13

| Ответить | Цитировать | Написать

Работа с большими данными

#39508155

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

maytonmikronпропущено...

Зачтено.
Вопрос в том, умеют ли DBMS такие и подобные методы? Я думаю что нет, и это мой аргумент против DBMS для этой задачи.
DBMS умеет по другому. Он бъет сложным и универсальным ударом который
называется B+Tree.
Это детали реализации но суть останется - сортировка всех данных. это точно не лучше того что вы предложили.
Интересно что могут предложить монстры оптимизации от DBMS.

...

Рейтинг:

0 / 0

20.08.2017, 21:18

| Ответить | Цитировать | Написать

Работа с большими данными

#39508157

Dima T

Участник

Сообщения: 15 530

Рейтинг: 0 / 0

maytonВсе 4 Гига уникальны? Отлично. Они все лягут нормик в хеш-табличку.
Будет 50% дублей? Отлично. Они свернуться на 2-й фазе когда мы отработаем
всех 38 попугаев.
Изначально озвучено 2 Тб, считай что они все уникальны, ну или упрости до 50%, т.е. 1 Тб уникальных. Какие 4 Гб?

хэш-таблица на 2 Тб имеет право на жизнь, только надо ОС оповестить чтобы она не убила прогу запросившую столько памяти и память с умом использовать, т.е. чтобы не постоянный своп, а нужное в большинстве случаев оказывалось уже отраженным в физическую память.

...

Рейтинг:

0 / 0

20.08.2017, 21:25

| Ответить | Цитировать | Написать

Работа с большими данными

#39508158

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

mikronmaytonпропущено...

DBMS умеет по другому. Он бъет сложным и универсальным ударом который
называется B+Tree.
Это детали реализации но суть останется - сортировка всех данных. это точно не лучше того что вы предложили.
Интересно что могут предложить монстры оптимизации от DBMS.
Они не сортируют. Они - строют дерево. Согласись - постановка
звучит как-то по другому.

А если ты сделаешь

Код: sql

SQL> SELECT dictinct word FROM fucken150GigTableDictionary

и при этом word будет не проиндексирован - то оптимизатор DBMS (Oracle - к примеру)
автоматически сольет всю выборку в табличное пространство TEMP. Потом отсортирует
теми-же алгоритмами что и мы обсуждали и потом выдаст курсор из этого TEMP
пространства временных упорядоченных данных.

Ничто не ново!

Поэтому безсмысленно спрашивать что дескыть DBMS-вендор предложит. Мы - разрабатываем
задачу. И мы отвечаем за эффективность ее решения.

...

Рейтинг:

0 / 0

20.08.2017, 21:28

| Ответить | Цитировать | Написать

Работа с большими данными

#39508160

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Dima TmaytonВсе 4 Гига уникальны? Отлично. Они все лягут нормик в хеш-табличку.
Будет 50% дублей? Отлично. Они свернуться на 2-й фазе когда мы отработаем
всех 38 попугаев.
Изначально озвучено 2 Тб, считай что они все уникальны, ну или упрости до 50%, т.е. 1 Тб уникальных. Какие 4 Гб?

хэш-таблица на 2 Тб имеет право на жизнь, только надо ОС оповестить чтобы она не убила прогу запросившую столько памяти и память с умом использовать, т.е. чтобы не постоянный своп, а нужное в большинстве случаев оказывалось уже отраженным в физическую память.
Ну... здесь без автора трудно что-то спорить и доказывать. Но насколько я понял его первый пост.
2 Тб - это все справочники всех языков. А 150Гб - это просто один из самых толстых справочников.

Нужно-ли гарантировать кросс-уникальность между справочниками? Я не знаю. Скорее всего нет.
Это должно быть гарантировано кодовой страницей. Финские слова не пересекаются со шведскими.

Если я ошибаюсь - то пускай ТС - откомментарит.

...

Рейтинг:

0 / 0

20.08.2017, 21:31

| Ответить | Цитировать | Написать

Работа с большими данными

#39508164

Aleksandr Sharahov

Участник

Откуда: Москва

Сообщения: 2 167

Рейтинг: 0 / 0

Автор говорил о "списках слов на разных языках" и все.

...

Рейтинг:

0 / 0

20.08.2017, 21:39

| Ответить | Цитировать | Написать

Работа с большими данными

#39508165

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Делим на чанки 2Терабайта...

...

Рейтинг:

0 / 0

20.08.2017, 21:40

| Ответить | Цитировать | Написать

Работа с большими данными

#39508167

schi

Участник

Откуда: Москва

Сообщения: 2 274

Рейтинг: 0 / 0

maytonDBMS умеет по другому. Он бъет сложным и универсальным ударом который
называется B+Tree. Это дерево. Но особое. Оптимизированное для дисковых
блочных операций. И разумеется оно нелетает без прослойки LRU-подобного
кеша блоков.

Первый раз такую трактовку слышу, про оптимизацию с дисками. Не поделитесь источником ?

...

Рейтинг:

0 / 0

20.08.2017, 21:41

| Ответить | Цитировать | Написать

25 сообщений из 112, страница 4 из 5

все

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Работа с большими данными

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&msg=39508139&tid=1340295]:	0ms
get settings:	10ms
get forum list:	12ms
check forum access:	3ms
check topic access:	3ms
track hit:	181ms
get topic data:	11ms
get forum data:	3ms
get page messages:	65ms
get tp. blocked users:	1ms
others:	13ms

total:	302ms