Опять про varchar(n) / Firebird, InterBase

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Firebird, InterBase [игнор отключен] [закрыт для гостей] / Опять про varchar(n)

25 сообщений из 173, страница 4 из 7

все

Опять про varchar(n)

#38719174

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

Симонов ДенисЕМНИП, ты ведь пытался что там с сортировкой сделать.
Нет, никогда я ничего такого не пытался, просто как-то предлагал простой хак для
использования имеющихся процедур сортировки для HASH GROUP.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

13.08.2014, 12:02

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38719180

Мимопроходящий

Участник

Откуда: бурятский тундрюк, эсквайр

Сообщения: 33 443

Рейтинг: 0 / 0

гоните его нахер.
это мудозвон пустопорожний.
ибо сказано в писании: "один дурак может задать столько вопросов,
что и 100 мудрецов не ответят"
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

13.08.2014, 12:06

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38719245

Симонов Денис

Участник

Откуда: Рязань

Сообщения: 11 624

Рейтинг: 0 / 0

Dimitry Sibiryakov,
вот здесь это было. Там про уменьшение размеров сортировочных файлов разговор шёл.

...

Рейтинг:

0 / 0

13.08.2014, 12:54

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38719380

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

Симонов Денисвот здесь это было.
Экий ты археолог... В плане "сделать" я там никакой активности не проявлял, только
"занести хотелку в трекер". Потом хотелка отсохла.
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

13.08.2014, 14:18

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723703

NickDee

Участник

Сообщения: 1 395

Рейтинг: 0 / 0

А всё-таки. Вот есть у нас таблица T(ID integer, S1 varchar(32000), S2 varchar(32000)).
Есть в ней одна запись: insert into T(ID, S1, S2) values(1, 'S1', 'S2').
Вопросы:
1. В чём профит от того, что в БД на эту запись лежат примерно 64000 байт, упакованных RLE?
Почему бы не записать всего пару десятков байт, закоденых RLE?
2. В чём профит от того, что при доставании записи из БД нужно будет выделить примерно 64000 байт, потом распаковать в них RLE-блок?
Почему бы не выделить пару десятков байт и не распаковать туда столько, сколько там реально данных?

Зачем сначала запаковывать, а потом распаковывать пустоту? Ведь при этом перерасходуется память (т.е. в итоге в кэш входит меньше полезных данных) + перерасходуется место на диске (а это лишний ввод-вывод) + впустую тратятся ресурсы процессора на работу с тем, что никогда не будет использоваться.
В чём профит такого подхода? Или это нужно Джима спрашивать почему он так заархитектурил тридцать лет назад? :)

...

Рейтинг:

0 / 0

19.08.2014, 17:36

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723718

Dimitry Sibiryakov

Участник

Сообщения: 54 521

Рейтинг: 0 / 0

NickDee1. В чём профит от того, что в БД на эту запись лежат примерно 64000 байт,
упакованных RLE?
Почему бы не записать всего пару десятков байт, закоденых RLE?
С какого перепугу ты решил, что в БД лежит 64000 байт? Подикося, слышал об RLE только
название...
Posted via ActualForum NNTP Server 1.5

...

Рейтинг:

0 / 0

19.08.2014, 17:43

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723722

dimitr

Участник

Откуда: PNZ

Сообщения: 7 059

Рейтинг: 0 / 0

NickDeeА всё-таки. Вот есть у нас таблица T(ID integer, S1 varchar(32000), S2 varchar(32000)).
Есть в ней одна запись: insert into T(ID, S1, S2) values(1, 'S1', 'S2').
Вопросы:
1. В чём профит от того, что в БД на эту запись лежат примерно 64000 байт, упакованных RLE?
Почему бы не записать всего пару десятков байт, закоденых RLE?
2. В чём профит от того, что при доставании записи из БД нужно будет выделить примерно 64000 байт, потом распаковать в них RLE-блок?
Почему бы не выделить пару десятков байт и не распаковать туда столько, сколько там реально данных?
1. Потому что запись пакуется целиком, а не по отдельным полям. Одно "длинное" сжатие тупо быстрее десятка "коротких".
2. Чтобы не переаллокировать буфер каждый раз когда последующая запись окажется длиннее.

NickDeeВедь при этом перерасходуется память (т.е. в итоге в кэш входит меньше полезных данных) + перерасходуется место на диске (а это лишний ввод-вывод)
кеш тут вообще не причем, в нем лежат страницы со сжатыми данными. А для экономии места можно сжимать чуть хитрее.

...

Рейтинг:

0 / 0

19.08.2014, 17:44

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723750

Симонов Денис

Участник

Откуда: Рязань

Сообщения: 11 624

Рейтинг: 0 / 0

dimitrА для экономии места можно сжимать чуть хитрее.
ты про это CORE-4401 говоришь?

...

Рейтинг:

0 / 0

19.08.2014, 18:07

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723758

dimitr

Участник

Откуда: PNZ

Сообщения: 7 059

Рейтинг: 0 / 0

Симонов Денис,

так точно

...

Рейтинг:

0 / 0

19.08.2014, 18:13

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723811

NickDee

Участник

Сообщения: 1 395

Рейтинг: 0 / 0

dimitr1. Потому что запись пакуется целиком, а не по отдельным полям. Одно "длинное" сжатие тупо быстрее десятка "коротких".

Запись пакуется целиком и так и так, она же в памяти непрерывно лежит. Просто я предлагаю не хранить хвостовые пробелы варчаров.
dimitr2. Чтобы не переаллокировать буфер каждый раз когда последующая запись окажется длиннее.Вот тесты переаллокации:

Код: sql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.

max alloc size: 128
1000000 reallocs: 13 ms
1000000 reallocs: 9 ms
1000000 reallocs: 8 ms
1000000 reallocs: 9 ms
1000000 reallocs: 8 ms
max alloc size: 256
1000000 reallocs: 25 ms
1000000 reallocs: 24 ms
1000000 reallocs: 24 ms
1000000 reallocs: 24 ms
1000000 reallocs: 23 ms
max alloc size: 512
1000000 reallocs: 33 ms
1000000 reallocs: 32 ms
1000000 reallocs: 32 ms
1000000 reallocs: 32 ms
1000000 reallocs: 33 ms
max alloc size: 1024
1000000 reallocs: 44 ms
1000000 reallocs: 43 ms
1000000 reallocs: 42 ms
1000000 reallocs: 42 ms
1000000 reallocs: 45 ms
max alloc size: 2048
1000000 reallocs: 67 ms
1000000 reallocs: 68 ms
1000000 reallocs: 66 ms
1000000 reallocs: 65 ms
1000000 reallocs: 66 ms
max alloc size: 4096
1000000 reallocs: 118 ms
1000000 reallocs: 119 ms
1000000 reallocs: 117 ms
1000000 reallocs: 118 ms
1000000 reallocs: 116 ms
max alloc size: 8192
1000000 reallocs: 253 ms
1000000 reallocs: 253 ms
1000000 reallocs: 255 ms
1000000 reallocs: 252 ms
1000000 reallocs: 252 ms
max alloc size: 16384
1000000 reallocs: 472 ms
1000000 reallocs: 470 ms
1000000 reallocs: 474 ms
1000000 reallocs: 469 ms
1000000 reallocs: 472 ms
max alloc size: 32768
1000000 reallocs: 845 ms
1000000 reallocs: 845 ms
1000000 reallocs: 845 ms
1000000 reallocs: 851 ms
1000000 reallocs: 845 ms
max alloc size: 65536
1000000 reallocs: 1578 ms
1000000 reallocs: 1570 ms
1000000 reallocs: 1572 ms
1000000 reallocs: 1567 ms
1000000 reallocs: 1572 ms
max alloc size: 131072
1000000 reallocs: 2976 ms
1000000 reallocs: 2968 ms
1000000 reallocs: 2958 ms
1000000 reallocs: 2961 ms
1000000 reallocs: 2960 ms

Вот код:

Код: pascal

program Project4;

{$APPTYPE CONSOLE}

uses
  System.SysUtils, Diagnostics;

var
  // будем переаллоцировать этот буфер из 1000 записей N раз (при N = 1000 получается 1 миллион переаллокаций),
  // с увеличивающимися MaxAllocSize(начиная с MaxAllocSize = 128 байт)
  Recs: array[0..1000-1] of Pointer; //

procedure ReallocRecs(MaxAllocSize: Integer);
var
  I: Integer;
begin
  for I := 0 to High(Recs) do
  begin
    Recs[I] := ReallocMemory(Recs[I], 20 + Random(MaxAllocSize-20));
  end;
end;

procedure ReallocNTimes(N: Integer; MaxAllocSize: Integer);
var
  I: Integer;
begin
  for I := 1 to N do
    ReallocRecs(MaxAllocSize);
end;

var
  I: Integer;
  SW: TStopWatch;
  N: Integer;
  MaxAllocSize: Integer;
begin
  Randomize;
  MaxAllocSize := 128;
  // first fill
  for I := 0 to High(Recs) do
    Recs[I] := GetMemory(20 + Random(MaxAllocSize-20));

  N := 1000;
  while True do
  begin
    Writeln(Format('max alloc size: %d', [MaxAllocSize]));
    for I := 1 to 5 do
    begin
      SW := TStopWatch.StartNew;
      ReallocNTimes(N, MaxAllocSize);
      Writeln(Format('%d reallocs: %d ms', [Length(Recs) * N, SW.ElapsedMilliseconds]));
    end;
    MaxAllocSize := MaxAllocSize * 2;
    if MaxAllocSize > 128 * 1024 then
      Break;
  end;
  Readln;
end.

Возможно в плюсах будет лучше.
dimitrNickDeeВедь при этом перерасходуется память (т.е. в итоге в кэш входит меньше полезных данных) + перерасходуется место на диске (а это лишний ввод-вывод)
кеш тут вообще не причем, в нем лежат страницы со сжатыми данными. А для экономии места можно сжимать чуть хитрее.
Или держать в памяти без хвостовых пробелов и не сжимать лишнего :)

...

Рейтинг:

0 / 0

19.08.2014, 19:19

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723863

dimitr

Участник

Откуда: PNZ

Сообщения: 7 059

Рейтинг: 0 / 0

NickDeeВот тесты переаллокации
это сферический конь в вакууме. Реально будет потери времени выполнения процентов 10-20. Ты уверен, что их сэкономишь за счет сжатия "без хвостов"?

...

Рейтинг:

0 / 0

19.08.2014, 20:30

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723881

NickDee

Участник

Сообщения: 1 395

Рейтинг: 0 / 0

dimitrNickDeeВот тесты переаллокации
это сферический конь в вакууме. Реально будет потери времени выполнения процентов 10-20. Ты уверен, что их сэкономишь за счет сжатия "без хвостов"?
Не только сжатия, но и копирования. Одно дело копировать миллион блоков по 1000 байт, и совсем другое - миллион по 100.
Выделить миллион по 100 - это примерно 10 ms. Скопировать 100M - это в несколько раз быстрей чем скопировать 1000M. И даже +10 ms к "скопировать 100M" не будут существенны.
Возможно что выделить миллион по 900 + скопировать их будет уже где-то равным по скорости копированию миллиона по 1000.
Ещё нужно учесть что realloc нужно будет делать только если запись больше чем размер блока под неё.
Т.е. при фетче миллиона записей при максимальном размере записи N (что определяется в метаданных) в memory-buffer вмещающий лишь одну запись, мы получим много меньше чем N реаллоков (т.е. совсем даже не миллион).
Итого, нужно реаллоцировать только увеличивая размер буфера под одну запись (не уменьшая если следующая запись меньше), и копировать туда-оттуда только реально используемые байты, без хвоста. И имхо будет профит :)

...

Рейтинг:

0 / 0

19.08.2014, 21:13

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723894

Симонов Денис

Участник

Откуда: Рязань

Сообщения: 11 624

Рейтинг: 0 / 0

NickDee,

твои умозаключения основываются на какой-то абстрактной фигне. Исходники FB открыты возьми да и проведи эксперимент. Если удастся получить приличный выигрыш тогда можно что-о смело утверждать.

...

Рейтинг:

0 / 0

19.08.2014, 21:33

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723903

dimitr

Участник

Откуда: PNZ

Сообщения: 7 059

Рейтинг: 0 / 0

NickDeeнужно реаллоцировать только увеличивая размер буфера под одну запись (не уменьшая если следующая запись меньше), и копировать туда-оттуда только реально используемые байты, без хвоста
тебе осталось додумать, как обращаться к полям, расположенным после урезанного варчара. Сейчас у них фиксированное смещение относительно начала записи. Станет плавающее. Менять еще и дескрипторы формата каждый раз когда читаем запись и когда меняем ее апдейтом в NEW-контексте? Уверен, что еще куча интересных вопросов вылезет, если копнуть поглубже.

...

Рейтинг:

0 / 0

19.08.2014, 21:51

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723920

NickDee

Участник

Сообщения: 1 395

Рейтинг: 0 / 0

dimitrNickDeeнужно реаллоцировать только увеличивая размер буфера под одну запись (не уменьшая если следующая запись меньше), и копировать туда-оттуда только реально используемые байты, без хвоста
тебе осталось додумать, как обращаться к полям, расположенным после урезанного варчара. Сейчас у них фиксированное смещение относительно начала записи.
Фиксированное смещение... Ну а по этому фиксированному смещению что расположено? Прям весь варчар? Если да, то предлагаю вместо этого разместить там четыре байта: первые два байта - длина варчара, вторые два - поинтер на его данные.
Так обращение будет быстрым.

...

Рейтинг:

0 / 0

19.08.2014, 22:21

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723921

NickDee

Участник

Сообщения: 1 395

Рейтинг: 0 / 0

NickDeeТак обращение будет быстрым. И эти четырёхбайтовые описатели будут идти один за другим, т.е. доступ к ним будет индексный.

...

Рейтинг:

0 / 0

19.08.2014, 22:23

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723925

dimitr

Участник

Откуда: PNZ

Сообщения: 7 059

Рейтинг: 0 / 0

NickDee,

вернулись к сжатию кучки маленьких буферов вместо одного большого

...

Рейтинг:

0 / 0

19.08.2014, 22:38

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38723987

NickDee

Участник

Сообщения: 1 395

Рейтинг: 0 / 0

dimitr,

запись у нас расположена непрервыно.
Например есть табличка: int1, int2, int3, varchar1(1000), varchar2(1000), varchar3(1000), int4, varchar4(1000)
Запись в несжатом виде будет иметь вид:
[Header], [int, int, int, int, int, int, int, int], [данные varchar1(5 байт), данные varchar2(10 байт), данные varchar3(20 байт), данные varchar4(3 байта)].
В первых трёх int второго блока лежат значения int1, int2 int3.
В четвёртом int второго блока будет лежать "длина varchar1" и смещение по которому лежат данные этого varchar1(например относительно начала второго блока).
В пятом int второго блока лежит такая же информация про varchar2.
В шестом int второго блока лежит такая же информация про varchar3.
В седьмом int второго блока лежит значение int4.
В восьмом int второго блока лежит такая информация про varchar4.
Все три блока непрерывны внутри и лежат последовательно друг за другом, без разрывов.
Таким образом у нас будет один буфер для сжатия и разжатия.

...

Рейтинг:

0 / 0

20.08.2014, 02:31

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38724043

dimitr

Участник

Откуда: PNZ

Сообщения: 7 059

Рейтинг: 0 / 0

NickDee,

и чем все это (включая переаллокации буфера записи) лучше, чем просто более эффективно сжимать хвосты? Не со степенью 64, а всегда в три-пять байт, например.

...

Рейтинг:

0 / 0

20.08.2014, 08:56

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38724558

NickDee

Участник

Сообщения: 1 395

Рейтинг: 0 / 0

dimitrNickDee,

и чем все это (включая переаллокации буфера записи) лучше, чем просто более эффективно сжимать хвосты? Не со степенью 64, а всегда в три-пять байт, например.
Эффективность сжатия влияет на размер данных в страничном кэше и в БД. А когда запись распаковывается для работы, например для сортировок, то там перерасход памяти: 16433678 .
Есть зависимость скорости создания индекса от объявленной длины поля, при одних и тех же данных (varchar(1) vs varchar(2048)): миллион записей, 1 секунда vs 18 секунд.
Засада везде :)

...

Рейтинг:

0 / 0

20.08.2014, 14:38

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38724585

Симонов Денис

Участник

Откуда: Рязань

Сообщения: 11 624

Рейтинг: 0 / 0

NickDee,

объясни две вещи:

1. На фига индекс по длинной предлинной строке
2. На фига сортировать по длинной предлинной строке

Другое дело что при сортировке сам резалтсет может получится широким даже при сортировки по небольшому ключу.

...

Рейтинг:

0 / 0

20.08.2014, 14:56

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38724598

Таблоид

Участник

Сообщения: 9 702

Рейтинг: 0 / 0

Симонов Дениспри сортировке сам резалтсет может получится широким даже при сортировки по небольшому ключу.Ога. И dimitr пару лет взад давал возможность потестировать некую спецсборку, где сортируются только ключики, а с итоговыми кортежами идёт их соединение по rdb$db_key.
Кому было интересно - тот попробовал, и теперь периодически спамит dimitr'a просьбой втыкнуть это в ФБ-3.х :-)

...

Рейтинг:

0 / 0

20.08.2014, 15:01

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38724601

Симонов Денис

Участник

Откуда: Рязань

Сообщения: 11 624

Рейтинг: 0 / 0

Таблоид,

я тоже её пробовал. Но тогда она во многих случаях промахивалась и весьма сильно. Будем надеется ДЕ доведёт оценку стоимости до ума, чтобы оптимизатор выбирал лучший алгоритм сорировки.

...

Рейтинг:

0 / 0

20.08.2014, 15:04

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38724659

dimitr

Участник

Откуда: PNZ

Сообщения: 7 059

Рейтинг: 0 / 0

NickDeeЭффективность сжатия влияет на размер данных в страничном кэше и в БД.
и она примерно одинакова в обоих случаях

NickDeeА когда запись распаковывается для работы, например для сортировок, то там перерасход памяти
это вопрос к сортировщику, обсуждалось уже

...

Рейтинг:

0 / 0

20.08.2014, 15:32

| Ответить | Цитировать | Написать

Опять про varchar(n)

#38724666

dimitr

Участник

Откуда: PNZ

Сообщения: 7 059

Рейтинг: 0 / 0

Симонов Денися тоже её пробовал. Но тогда она во многих случаях промахивалась и весьма сильно.
что значит "промахивалась"? Она в той сборке безусловно работала, насколько я помню.

...

Рейтинг:

0 / 0

20.08.2014, 15:34

| Ответить | Цитировать | Написать

25 сообщений из 173, страница 4 из 7

все

Форумы / Firebird, InterBase [игнор отключен] [закрыт для гостей] / Опять про varchar(n)

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=40&msg=38723921&tid=1563372]:	0ms
get settings:	9ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	182ms
get topic data:	11ms
get forum data:	3ms
get page messages:	85ms
get tp. blocked users:	2ms
others:	199ms

total:	511ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы