Загрузка 170 000 000 записей / Microsoft SQL Server

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Microsoft SQL Server [игнор отключен] [закрыт для гостей] / Загрузка 170 000 000 записей

37 сообщений из 37, показаны все 2 страниц

все

Загрузка 170 000 000 записей

#39987709

vah

Участник

Сообщения: 2 702

Рейтинг: 0 / 0

Скажите пожалуйста,

каким алгоритмом можно наиболее быстро можно загрузить 170 000 000 строк из Oracle в MSSQL при помощи SSIS пакета?

Заранее благодарен.

...

Рейтинг:

0 / 0

08.08.2020, 02:01

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987714

aleks222

Участник

Сообщения: 2 564

Рейтинг: 0 / 0

Загрузить - BCP.exe. Быстрее не бывает.

А вот выгрузить - проблема. Это у оракелистов надо спрашивать.

...

Рейтинг:

0 / 0

08.08.2020, 06:58

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987717

PizzaPizza

Участник

Сообщения: 499

Рейтинг: 0 / 0

170 000 000 строк я бы упомянул если речь идет о выборке или поиске
Переливаете же вы все 170 000 000 строк, поэтому скорее важен размер данных.

...

Рейтинг:

0 / 0

08.08.2020, 07:14

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987731

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Тут возможно узким местом будет сеть между серверами.

Поэтому искать перфекционизма а не стоит. А стоит просто посмотреть каким маршрутом польется информация и как этот маршрут можно выпрямить.

...

Рейтинг:

0 / 0

08.08.2020, 12:16

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987733

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

vah,

Быстро можно загрузить многопоточной загрузкой в пустую таблицу без индексов. Увеличивайте количество потоков, пока скорость загрузки не прекратит расти. Как только прекратит - значит вы уперлись в, скорее всего, сеть, диски приемника, диски источника

...

Рейтинг:

0 / 0

08.08.2020, 12:36

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987734

.Евгений

Участник

Сообщения: 385

Рейтинг: 0 / 0

vah,

Using SSIS to load 1TB data into SQL Server in 30 mins, with simplified settings
Основное: настроить правильный размер буфера во избежание дискового обмена, секционировать таблицы и загружать секции параллельно.

...

Рейтинг:

0 / 0

08.08.2020, 12:42

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987735

aleks222

Участник

Сообщения: 2 564

Рейтинг: 0 / 0

.Евгений

Дык, фся эта возня с настройками, секционированием и т.д. и т.п. займет больше времени, чем однопоточная вставка в простую таблицу.

...

Рейтинг:

0 / 0

08.08.2020, 12:51

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987740

.Евгений

Участник

Сообщения: 385

Рейтинг: 0 / 0

aleks222

Может быть. Но на простой вопрос - простой ответ. Не вижу смысла гадать по юзерпику, какую задачу на самом деле ему надо решить. Или, тем более - внушать, что задачу нужно решать не эту, а совсем другую.

...

Рейтинг:

0 / 0

08.08.2020, 13:24

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987743

SIMPLicity_

Участник

Откуда: (((@)))

Сообщения: 8 932

Рейтинг: 0 / 0

vah

Если это разовое действие , то согласен с

aleks222

.Евгений

Если это периодически, то прежде всего оценивайте объём данных: Вам написали :

PizzaPizza

Ибо если у Вас одна таблица в пару столбцов int , то это всего 700 МБ данных (примерно), и вопросов нет.

Но если записи по 1К (и выше) на запись, то уже да,- тут стоит смотреть и сеть, и систему хранения... И алгоритм заливки...

PS Кстати, если система хранения одна (без разницы - это "полка" или RAID), то с точки зрения самой системы хранения,- абсолютно пофиг на секционирование - т.к. "физически" данные польются через один канал на один набор дисков (если они сконфигурированы в общий набор , который потом порезан на логические юниты). Но это моё мнение. Но вопрос о конфигурации системы хранения НЕ стоит игнорировать.

...

Рейтинг:

0 / 0

08.08.2020, 13:28

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987768

vah

Участник

Сообщения: 2 702

Рейтинг: 0 / 0

PizzaPizza,

выборка, без условий, около 20ти столбцов, есть varchar-ы (

...

Рейтинг:

0 / 0

08.08.2020, 15:23

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987811

Нестандартное мышление

Участник

Сообщения: 42

Рейтинг: 0 / 0

vah,

BULK INSERT чем не устраивает?

...

Рейтинг:

0 / 0

08.08.2020, 18:27

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987821

PizzaPizza

Участник

Сообщения: 499

Рейтинг: 0 / 0

с одной стороны конечно varcharы хорошо бы нативно перекинуть SSISом, а не балком через файл
с другой стороны, раз они из оракла, то я бы все равно подумал бы о кодировках и прочем даже при использовании SSIS

...

Рейтинг:

0 / 0

08.08.2020, 20:01

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39987828

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

vah

PizzaPizza,

выборка, без условий, около 20ти столбцов, есть varchar-ы (

Если твоя задача - одноразовая то сделай любым способом экспорт в CSV и потом импорт в другую БД.

Если будешь делать на постоянной основе - тогда расскажи форуму о статистике. Тоесть какая
будет длина этого CSV файла. Какая средняя длина строки в байтах.

...

Рейтинг:

0 / 0

08.08.2020, 20:24

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988001

andreymx

Участник

Откуда: Запорожье

Сообщения: 56 486

Рейтинг: 0 / 0

vah

PizzaPizza,

выборка, без условий, около 20ти столбцов, есть varchar-ы (

на время экспорта данные в оригинальной БД не меняются?

...

Рейтинг:

0 / 0

09.08.2020, 22:59

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988059

env

Участник

Откуда: Россия, Москва

Сообщения: 6 692

Рейтинг: 0 / 0

vah,

0. Разово или постоянно?
1. Есть ли секционирование на источнике или иная возможность быстро получить в параллель непересекающиеся множества?
2. В каком виде предоставлен доступ к источнику данных?

...

Рейтинг:

0 / 0

10.08.2020, 09:55

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988062

env

Участник

Откуда: Россия, Москва

Сообщения: 6 692

Рейтинг: 0 / 0

andreymx,

Там же версионник, главное на snapshot too old при select .. as of timestamp не влететь

...

Рейтинг:

0 / 0

10.08.2020, 09:55

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988070

andreymx

Участник

Откуда: Запорожье

Сообщения: 56 486

Рейтинг: 0 / 0

env

andreymx,

Там же версионник, главное на snapshot too old при select .. as of timestamp не влететь

на таком объёме влетит обязательно

хотя вдруг там экзадата со всем фаршем?

...

Рейтинг:

0 / 0

10.08.2020, 10:15

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988118

a_voronin

Участник

Откуда: Москва

Сообщения: 4 636

Рейтинг: 0 / 0

andreymx,

Обычный DataFlow из источника в назначение. Поставить опции fastload и размер порции не менее 100000. Можно 500000. Драйвера на Oracle OLEDB , на MSSQL SQL Native Client или тоже OLE DB.

...

Рейтинг:

0 / 0

10.08.2020, 12:21

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988145

andreymx

Участник

Откуда: Запорожье

Сообщения: 56 486

Рейтинг: 0 / 0

на самом деле 170 млн строк не так уж и много

тут еще вопрос уже поднимали насчет пропускной способности сети
и еще могут быть тормоза, если сервер оракл на земле, а сервер мсскл в ажуре (или наоборот)

...

Рейтинг:

0 / 0

10.08.2020, 12:56

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988157

Гулин Федор

Участник

Откуда: МИНСК

Сообщения: 1 332

Рейтинг: 0 / 0

для SSIS был драйвер Attunity для оракла
но там надо версии смореть - последний раз я юзал его для 2014 - по моему версия 3.0
выигрыш по скорости был и приличный.

если грузить через что-то - я бы грузил через csv файлы (скажем по месячно)
с трудом представляю себе один CSV файл такого размера (не утверждая что это не возможно)
опять же возможно вставлка по месячными партициями - если они есть на такой таблице

посмотрел еще раз SSIS
ну так загрузили 1 день (1 неделю) (1 месяц) - проверили данные - кодировку
и пустили потом в цикле запросы и запись
(либо сразу в таргет таблицу либо во временные промежуточные )
надеюсь что индекс по дате (последнего апдейта )в оракле есть (иначе сложно)
если вдруг нет - посмотрел бы можно заюзать другой индекс - но это хуже

ну и путем экспериментов нашли оптимальное решение под себя.

зы можно еще линк-сервер - но это точно медленней - хотя я грузил приличные объемы данных ночью кусочками по 2-3 дня
удобней что можно в t-sql написать цикл и просто гнать
но тогда нагрузки на оракл-сервер другой не было

...

Рейтинг:

0 / 0

10.08.2020, 13:24

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988218

a_voronin

Участник

Откуда: Москва

Сообщения: 4 636

Рейтинг: 0 / 0

andreymx

Надо сразу писать инкрементальную загрузку. Чтобы она продолжала с того места, где закончила. Надеяться, что 170 лямов пройдут за один заход не стоит.

...

Рейтинг:

0 / 0

10.08.2020, 14:36

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988257

env

Участник

Откуда: Россия, Москва

Сообщения: 6 692

Рейтинг: 0 / 0

a_voronin

Чтобы она продолжала с того места, где закончила

Что, к сожалению, возможно далеко не всегда. Особенно, если источник не предполагает сообщать об обновлениях и, что ещё хуже, удалениях.

...

Рейтинг:

0 / 0

10.08.2020, 15:53

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988264

andreymx

Участник

Откуда: Запорожье

Сообщения: 56 486

Рейтинг: 0 / 0

env

a_voronin

Чтобы она продолжала с того места, где закончила

у ТС слишком общая задача
гадать не перегадать

...

Рейтинг:

0 / 0

10.08.2020, 16:00

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988274

a_voronin

Участник

Откуда: Москва

Сообщения: 4 636

Рейтинг: 0 / 0

env

a_voronin

Чтобы она продолжала с того места, где закончила

При любом раскладе есть решение через доп таблицу и триггер на источнике. На Oracle они не так сильно тупят как на MSSQL.

...

Рейтинг:

0 / 0

10.08.2020, 16:06

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988293

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

a_voronin

Ага, поставьте триггер на таблицу в первичной банковской системе...
Часто проще грузить по 200 млн ежедневно.

...

Рейтинг:

0 / 0

10.08.2020, 16:51

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988300

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

a_voronin

andreymx

Я бил по хешу от первичного ключа выгрузки на порции. На 2,4,8,16 по выбору. И тогда даже терабайтные таблички
нормально грузятся за 1 транзакцию.

...

Рейтинг:

0 / 0

10.08.2020, 17:01

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988501

a_voronin

Участник

Откуда: Москва

Сообщения: 4 636

Рейтинг: 0 / 0

Критик

a_voronin

Ага, поставьте триггер на таблицу в первичной банковской системе...
Часто проще грузить по 200 млн ежедневно.

Расклады бывают разные. Я такое проворачивал именно в банке.

Есть различные способы инкриментальной выгрузки. Можно по хешу с партиционированием по диапазону ключей или по дате.

...

Рейтинг:

0 / 0

11.08.2020, 09:32

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988703

andreymx

Участник

Откуда: Запорожье

Сообщения: 56 486

Рейтинг: 0 / 0

mayton

a_voronin

пропущено...

Надо сразу писать инкрементальную загрузку. Чтобы она продолжала с того места, где закончила. Надеяться, что 170 лямов пройдут за один заход не стоит.

а зачем по хешу?

...

Рейтинг:

0 / 0

11.08.2020, 16:37

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988704

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

andreymx

mayton

пропущено...

Я бил по хешу от первичного ключа выгрузки на порции. На 2,4,8,16 по выбору. И тогда даже терабайтные таблички
нормально грузятся за 1 транзакцию.

а зачем по хешу?

Мне нравится. А у тебя есть другая функция которая терабайт побъёт на ровные фрагменты?

...

Рейтинг:

0 / 0

11.08.2020, 16:40

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988727

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

mayton,

например, по остатку от деления на количество потоков,
или в свежем SSIS есть блок, который сам делит входящий поток на несколько потоков вставки

...

Рейтинг:

0 / 0

11.08.2020, 18:05

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988738

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Критик

А ты про это....

Извини я вообще не специалист в SSIS. Я это применял для Oracle/Java стека технологий.
Щас я вот озабочен экспортом из Oracle/PG в колончатый формат.
https://www.sql.ru/forum/1323925/ponedelnichnye-razgovory-ob-eksporte-i-column-oriented-files
Это фоновая задача которой я занимают время-от времени. Моя попытка вывести часть
облачных технологий в повседневное не-облачное использование. Тоесть дать админам
и девопсам колончатый экспорт утилиту в руки. Я думаю там я и реализую партишеннинг
по разным формулам. И снапшоты чтоб консистентно было.

...

Рейтинг:

0 / 0

11.08.2020, 19:07

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988758

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

mayton,

Мм, а разве в самом Oracle нет такого архивирования?
А то для MSSQL я поступал просто - сливал старые данные в таблицу с кластерным колоночным индексом с архивным видом сжатия.

...

Рейтинг:

0 / 0

11.08.2020, 20:11

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988784

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

В оракле есть exp/expdp. Но они - строчно-ориентированные.
Яже делаю - колоночно.

...

Рейтинг:

0 / 0

11.08.2020, 22:24

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988799

SIMPLicity_

Участник

Откуда: (((@)))

Сообщения: 8 932

Рейтинг: 0 / 0

тема отделилась от своего создателя

...

Рейтинг:

0 / 0

12.08.2020, 00:12

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39988858

a_voronin

Участник

Откуда: Москва

Сообщения: 4 636

Рейтинг: 0 / 0

Критик

Что за блок и в какой версии?

...

Рейтинг:

0 / 0

12.08.2020, 08:04

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39989031

Критик

Участник

Откуда: Москва / Калуга

Сообщения: 35 963

Рейтинг: 0 / 0

a_voronin,

вот на картинке, добавлен вроде бы с 2016
только, в ru-версию не осилили сделать, поэтому он не вытаскивается, т.к. название формируется неправильное

...

Рейтинг:

0 / 0

12.08.2020, 14:18

| Ответить | Цитировать | Написать

Загрузка 170 000 000 записей

#39989036

a_voronin

Участник

Откуда: Москва

Сообщения: 4 636

Рейтинг: 0 / 0

Критик

https://www.sqlshack.com/ssis-balanced-data-distributor-overview/

Судя по описанию, такое через conditional split можно было и раньше делать.

...

Рейтинг:

0 / 0

12.08.2020, 14:36

| Ответить | Цитировать | Написать

37 сообщений из 37, показаны все 2 страниц

все

Форумы / Microsoft SQL Server [игнор отключен] [закрыт для гостей] / Загрузка 170 000 000 записей

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?all=1&fid=46&tid=1685779]:	0ms
get settings:	9ms
get forum list:	13ms
check forum access:	4ms
check topic access:	4ms
track hit:	58ms
get topic data:	13ms
get forum data:	3ms
get page messages:	76ms
get tp. blocked users:	2ms
others:	261ms

total:	443ms