Неколько вопросов по типам данных. / Проектирование БД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Неколько вопросов по типам данных.

25 сообщений из 39, страница 1 из 2

все

Неколько вопросов по типам данных.

#38608202

Im_Max

Гость

Здравствуйте. Помогите разобраться по некоторым вопросам.
1) Есть параметр, который может принимать 2 положения. Например ТОП товар. Товар может быть ТОПом или нет. Для этого напрашивается тип данных Bit. Можно также использовать TinyInt. Первое весит 1 бит, второе 1 байт. Над вторым можно совершать арифметические операции, над первым нет. Второе можно расширить, если например введут признак например ПремиуиТОП и нужно будет что бы столбец принимал одно из трех значений. Вопрос: Сильно ли будет заметно различие по скорости работы базы данных использование Bit или TinyInt в таких случаях если в базе таблицы с товарами по 10-30 млн данных?
2) Есть товары. Для ключа использую тип данных Int. Вес ячейки 4 байта. Как повлияет на производительность БД если вместо Int будет использоваться Char, Varchar, Nchar, Nvarchar? 1 символ в Char весит 1 байт. Соответственно если тип данных я укажу Char(4) то каждое значение будет весить по 4 байта? Даже если введу единицу? Если ввести в Varchar(4) единицу, она будет весить 4 байта или 1? Как повлияет на скорость работы БД использование Int или Varchar, если тип данных используется для обозначения шестизначного кода? Получается идет сравнение Int и Varchar(6). Как повлияет на скорость работы БД использование Int или Varchar, если тип данных используется для обозначения трехзначного кода? Получается идет сравнение Int и Varchar(3).

...

Рейтинг:

0 / 0

08.04.2014, 11:47:05

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608212

Im_Max

Гость

3) Как повлияет на производительность БД использование в качестве ключа типа данных Int в сравнении c Uniqueidentifier?
В базе данных около 1ТБ данных. Выполняются различные Selectы. Таблицы по 10-100 млн данных.

...

Рейтинг:

0 / 0

08.04.2014, 11:51:09

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608228

Im_Max

Гость

4) Вообще справедливо ли предложение: Чем меньше вес данных, тем быстрее будут происходить вычисления над ними? Или современным компьютерам без разницы 1 байт весит данное или 8?

...

Рейтинг:

0 / 0

08.04.2014, 12:00:19

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608258

АнатоЛой

Участник

Откуда: Киев, Украина

Сообщения: 2 910

Рейтинг: 0 / 0

Im_Max, "пол-зёрнышка в день - мало, 183 в год - много" (с) м/ф "Дюймовочка".
Встречный вопрос: это реальные проблемы или вопросы от преподавателя? :)

...

Рейтинг:

0 / 0

08.04.2014, 12:19:41

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608281

Mikle83

Участник

Откуда: Санкт-Петербург

Сообщения: 576

Рейтинг: 0 / 0

Im_Max,
Начну не по-порядку:
2. моя практика показала, что разницы между идентификатором целочисленным и varchar - практически нет по производительности.
При этом если идентификаторы большие - то еще и можно получить профит в хранении данных, т.к. [/b]varchar[/b] использует только то количество байт, которое необходимо для хранения данных. Т.е. двузначное число займет два байта, в то время, как тоже самое число в INT все равно 4 байта. Но с точки зрения производительности выборок - прогонял оба варианта, никакой ощутимой разницы не заметил.

НО! Необходимо учитывать, что INT - "это не только ценный мех" - как минимум это гарантия того, что данные содержат исключительно цифры/это возможность использования инкремента средствами сервера.

Так же сортировка по INT и по varchar - это две разные вещи (первая: "1,2,19" во втором случае "1,19,2"). Не знаю нужно ли это вам в ваших кейсах, но сталкивался с такой проблемой - идентификатор varchar а нужна сортировка по возрастанию => потребовалось преобразование в INT, т.к. в данных никто маской не озаботился.

Соответственно, мое мнение - под идентификаторы более приемлемо пользовать именно INT. Меньше будет проблем с верификацией и т.п.

1. Имхо заложите TinyInt если есть перспектива роста. Null никто не отменял. TinyInt - позволит в том числе комбинировать различные признаки (битовой маской) при необходимости.

...

Рейтинг:

0 / 0

08.04.2014, 12:30:37

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608284

LSV

Участник

Откуда: Киев

Сообщения: 30 850

Рейтинг: 0 / 0

Первое весит 1 бит , второе 1 байт.1. Только в случае, когда их есть 8полей (по биту на поле). И то все равно не нужно будет сначала выделить бит из этого байта.

Строчные типы будут выполняться медленее числовых. Хотя бы потому, что у строк есть понятие сортировка согласно своей кодовой страницы. А Варчары вообще хранятся в отдельной структуре, а не теле записи (в теле ссылка на эту структуру).

...

Рейтинг:

0 / 0

08.04.2014, 12:31:31

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608289

Im_Max

Гость

Реальные, это для меня.
Есть базы данных на сервере. У всех данных есть Uniqueidentifier. У спецификаций, у товаров, у магазинов, договоров и т.д. Так же параллельно есть числовые кода. Я выполняю сначала преобразование данных. (В заказах у Пепси код 111, в заказах 489657, в договорах 7891cfc3-8e42-475e-a854-0019253f8510, я привожу все данные к одним кодам) А затем создаю отчетность из этих данных.
Например есть список магазинов. Он обозначается либо 36-ти значным Uniqueidentifier либо Nvarchar(100). Но это числа от 1 до 600. Можно преобразовать в SmallInt, так как встряли подразделений будет больше 32000. За счет это я хочу увеличить скорость обработки запросов. Вот и интересно, приведет ли это к увеличению быстродействия.

...

Рейтинг:

0 / 0

08.04.2014, 12:33:45

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608300

Кот Матроскин

Участник

Откуда: Москва

Сообщения: 2 329

Рейтинг: 0 / 0

Im_Max,

1. Bit от tinyint по скорости не будет отличаться никак.
2,3 - Int и Varchar, Int и UID - несколько лет назад афаир прям на этом форуме кто-то выкладывал тесты. Вкратце - выигрыш у Int есть, но небольшой (единицы процентов). И это платформозависимо, так что для полной уверенности лучше померяйте сами.
Но в целом Вы зря имхо заморачиваетесь на такой оптимизации, тормоза в 99% случаются не из-за этого.
Что важно - ВСЕГДА первичный ключ и соответствующие внешние делать одного типа, Int так Int, UID так UID.

...

Рейтинг:

0 / 0

08.04.2014, 12:40:40

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608313

АнатоЛой

Участник

Откуда: Киев, Украина

Сообщения: 2 910

Рейтинг: 0 / 0

Im_Max4) Вообще справедливо ли предложение: Чем меньше вес данных, тем быстрее будут происходить вычисления над ними?

Правильно говорить не "вес", а "объём".
Это утверждение в целом не справедливо, поскольку скорость обработки зависит не только от объёма данных. Есть даже раздел в информатике и теории алгоритмов: "Теория сложности вычислений".

1) скорость обработки также зависит от алгоритмов обработки (вычислений);
2) скорость обработки также зависит от аппаратных и программных средств, реализующих алгоритм обработки;

3) при одинаковом алгоритме b]обычно[/b], но не всегда!, чем меньше объём обрабатываемых данных, тем быстрее завершается выполнение этого алгоритма над данными.

Бытовой пример:
1) бытовая мясорубка у меня дома выдавливает за один оборот ручки максимум 15 граммов мяса;
2) кроме того, для любой порции мяса нужно 2 оборота, пока мясо от раструба дойдёт до ножа.

Порция 1) 45 граммов. понадобятся 2 + 3 = 5 оборотов.
Порция 2) 5 граммов. понадобятся 2 + 1 = 3 оборота. (ура)
Порция 3) 15 граммов. понадобятся 2 + 1 = 3 оборота (странно?!:)

Im_MaxИли современным компьютерам без разницы 1 байт весит данное или 8?

Современным компьютерам пока всё без разницы, разницу замечают пользователи. Данное утверждение в целом неверно.

...

Рейтинг:

0 / 0

08.04.2014, 12:45:39

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608336

АнатоЛой

Участник

Откуда: Киев, Украина

Сообщения: 2 910

Рейтинг: 0 / 0

Кот МатроскинIm_Max,
...
Но в целом Вы зря имхо заморачиваетесь на такой оптимизации, тормоза в 99% случаются не из-за этого.
...

О! Вопрос таки практический, пропустил первый ответ от ТС :).
+100500 к Матроскину.

Если вопрос в оптимизации конкретной работающей системы, то нужно идти с практической стороны:
1) какой конкретно функционал "тормозит" больше всего (опередлится с критериями, организовать замеры);
2) в чём его узкое место;
3) как его можно устранить;
4) устранить;
5) проверить, что помогло;
6) подумать, где ещё могут быть схожие узкие места, проверить функционал, при необходимости устранить и в этих местах;
6) удовлетворены ли юзеры? если нет, на шаг (1).

К замечаниям выше дополню к перечню потенциальных узких мест:
- места сравнения Int с [x]Char, где приходится организовывать преобразования для приведения к одному типу данных.

...

Рейтинг:

0 / 0

08.04.2014, 13:00:31

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608345

Im_Max

Гость

Всем большое спасибо.

Просто поставщик ПО выбрал тип данных Nvarchar из-за того что он предоставляет это ПО разным компаниям. И каждый может по разному присваивать кода. У нас просто используются только цифры. Думал что перейду на Int и будет мне счастье.
В итоге прироста производительности не получу, только бонус в виде свободного места. Плюс с числами легче работать, это к вопросу про упорядочивание.

...

Рейтинг:

0 / 0

08.04.2014, 13:03:04

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608359

Naf

Участник

Откуда: Москва

Сообщения: 2 597

Рейтинг: 0 / 0

Имхо, первичные ключи должны быть суррогатными и присваиваться "внутри" системы

...

Рейтинг:

0 / 0

08.04.2014, 13:07:25

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608597

АнатоЛой

Участник

Откуда: Киев, Украина

Сообщения: 2 910

Рейтинг: 0 / 0

NafИмхо, первичные ключи должны быть суррогатными и присваиваться "внутри" системы
+1
Im_Max, проверь, может ты где-то провтыкал суррогатные ключи в таблицах поставщика ПО?

...

Рейтинг:

0 / 0

08.04.2014, 14:53:54

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608673

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

Im_Max3) Как повлияет на производительность БД использование в качестве ключа типа данных Int в сравнении c Uniqueidentifier?
В базе данных около 1ТБ данных. Выполняются различные Selectы. Таблицы по 10-100 млн данных.
Uniqueidentifier не монотонно возрастающий - это сильно плохо для индексов. А для кластреного вообще убийственно.

...

Рейтинг:

0 / 0

08.04.2014, 15:36:24

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608677

Ivan Durak

Участник

Откуда: Minsk!!!

Сообщения: 2 602

Рейтинг: 0 / 0

...

Рейтинг:

0 / 0

08.04.2014, 15:37:15

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608860

SERG1257

Участник

Сообщения: 2 932

Рейтинг: 0 / 0

Ivan Durak Меньше места занимает - меньше чтений, уже плюс Добавлю меньше места занимает в памяти, меньше места занимает в логе и т.д.

Я встречался с проблемой в SQL Server при использовании char в качестве идентификатора - разработчик этого не осознавал и делал запрос типа
select * from mytable where mykey=123456789
А сервер нет чтобы вернуть ошибку, проводил неявное преобразование типов и делал nonclustered index scan вместо index seek. Ошибку исправили на
select * from mytable where mykey='123456789'
но осадочек остался

...

Рейтинг:

0 / 0

08.04.2014, 17:36:33

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608866

Infernal V. Raven

Участник

Откуда: St.Petersburg

Сообщения: 1 717

Рейтинг: 0 / 0

SERG1257Ошибку исправили на
select * from mytable where mykey='123456789'
но осадочек осталсяа Оракл что делает?

...

Рейтинг:

0 / 0

08.04.2014, 17:41:37

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608877

LSV

Участник

Откуда: Киев

Сообщения: 30 850

Рейтинг: 0 / 0

NvarcharУжос. Там могут быть уникодные значения ключей ?????

...

Рейтинг:

0 / 0

08.04.2014, 17:48:49

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608879

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

1) Есть параметр, который может принимать 2 положения. Например ТОП товар. Товар может быть ТОПом или нет. Для этого напрашивается тип данных Bit. Можно также использовать TinyInt. Первое весит 1 бит, второе 1 байт. Над вторым можно совершать арифметические операции, над первым нет. Второе можно расширить, если например введут признак например ПремиуиТОП и нужно будет что бы столбец принимал одно из трех значений.

Вопрос: Сильно ли будет заметно различие по скорости работы базы данных использование Bit или TinyInt в таких случаях если в базе таблицы с товарами по 10-30 млн данных?

Различий в скорости скорее всего не будет вообще. bit всё равно будет скорее всего занимать один байт хранения (только если несколько битовых полей у тебя будет в таблице, тогда 2, 3 и т.д до 8 полей смогут занять только один байт).

Но надо использовать бит. Или boolean или его аналоги.

2) Есть товары. Для ключа использую тип данных Int. Вес ячейки 4 байта. Как повлияет на производительность БД если вместо Int будет использоваться Char, Varchar, Nchar, Nvarchar? 1 символ в Char весит 1 байт. Соответственно если тип данных я укажу Char(4) то каждое значение будет весить по 4 байта?

Никак практически. Длины не будут значительно различаться. Значительно -- это на один или несколько порядков.

Даже если введу единицу? Если ввести в Varchar(4) единицу, она будет весить 4 байта или 1? Как повлияет на скорость работы БД использование Int или Varchar, если тип данных используется для обозначения шестизначного кода? Получается идет сравнение Int и Varchar(6).

Ты не там ищешь поводы для борьбы за производительность.
При проектировании БД о производительности вообще думать не нужно.
А о доменной целостности поля.
Если это бит, булева величина -- надо брать бит.
Если это символьный код -- надо брать char/varchar.
Если это идентификатор-число -- брать int/long.
Если дата -- дату. Время -- время. И так далее.

...

Рейтинг:

0 / 0

08.04.2014, 17:49:10

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608886

MasterZiv

Участник

Откуда: Питер

Сообщения: 32 427

Рейтинг: 0 / 0

Im_Max4) Вообще справедливо ли предложение: Чем меньше вес данных, тем быстрее будут происходить вычисления над ними? Или современным компьютерам без разницы 1 байт весит данное или 8?

Справедливо. Но тебе надо при этом разницу в длине данных иметь существенную. int/GUID -- разница в 2 или 4 раза только лишь.
Т.е. в твоём случае разницу ты можешь и заметить, но она не будет такой уж существенной.

Тип данных надо выбирать исходя из требований к ПО. Нужна глобальная уникальность -- GUID. Не нужна --- int.
Естественно, тип данных должен быть минимально большим для представления данного поля. Но это не из соображений производительности, а просто из соображений экономии места и здравой логики.

P.S. Кстати, вот: http://www.sql.ru/forum/1019530/chislovoy-id-ili-guid

...

Рейтинг:

0 / 0

08.04.2014, 17:55:41

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38608892

Кот Матроскин

Участник

Откуда: Москва

Сообщения: 2 329

Рейтинг: 0 / 0

Ivan DurakIm_Max3) Как повлияет на производительность БД использование в качестве ключа типа данных Int в сравнении c Uniqueidentifier?
В базе данных около 1ТБ данных. Выполняются различные Selectы. Таблицы по 10-100 млн данных.
Uniqueidentifier не монотонно возрастающий - это сильно плохо для индексов. А для кластреного вообще убийственно.
Тип данных Uniqueidentifier не может быть или не быть мототонно возрастающим. Не монотонно возрастающей может быть
функция, вызывающая определенный API операционки - но это несколько другой вопрос, к типу данных имеющий косвенное отношение.

...

Рейтинг:

0 / 0

08.04.2014, 17:59:18

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38609101

Pulsar_p

Участник

Откуда: Потому, что я с севера, что ли...

Сообщения: 447

Рейтинг: 0 / 0

Ivan DurakUniqueidentifier не монотонно возрастающий - это сильно плохо для индексов. А для кластреного вообще убийственно.

Почему?
Просто я не знаю, что мне лучше использовать для суррогатного ключа: Uniqueidentifier или SEQUENCE?

...

Рейтинг:

0 / 0

08.04.2014, 23:12:01

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38609189

NetObserver

Участник

Сообщения: 533

Рейтинг: 0 / 0

Im_Max1) Есть параметр, который может принимать 2 положения. Например ТОП товар. Товар может быть ТОПом или нет. Для этого напрашивается тип данных Bit. Можно также использовать TinyInt. Первое весит 1 бит, второе 1 байт.
Никогда не понимал людей "экономящих" на битах
Не приходило в голову, что на диске 1 бит будет хранится как 1 байт как минимум?
А про выравнивание памяти слышали? В оперативной памяти даже байт будет хранится как 4 байта. Ну и где выигрыш?

PS Сейчас работаю с базой живущей с 2009 года. Тогда разработчики тоже "экономили", некоторые справочники(их ID) имеют размер TyniInt. И уже переросли свой размер. Могу сказать, что это знатный гемморой - во всех SP искать поле и менять тип.

...

Рейтинг:

0 / 0

09.04.2014, 01:22:32

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38609194

SERG1257

Участник

Сообщения: 2 932

Рейтинг: 0 / 0

[offtopic]
NetObserver Могу сказать, что это знатный гемморой - во всех SP искать поле и менять типВ свое время занимаясь тем же, я нашел
http://www.red-gate.com/products/sql-development/sql-search/
[/offtopic]

...

Рейтинг:

0 / 0

09.04.2014, 01:36:06

| Ответить | Цитировать | Написать

Неколько вопросов по типам данных.

#38609203

ChA

Участник

Откуда: Москва

Сообщения: 10 913

Рейтинг: 0 / 0

Im_MaxЗдравствуйте. Помогите разобраться по некоторым вопросам.
1) Есть параметр, который может принимать 2 положения. Например ТОП товар. Товар может быть ТОПом или нет. Для этого напрашивается тип данных Bit. Можно также использовать TinyInt. Первое весит 1 бит, второе 1 байт. Над вторым можно совершать арифметические операции, над первым нет. Второе можно расширить, если например введут признак например ПремиуиТОП и нужно будет что бы столбец принимал одно из трех значений. Вопрос: Сильно ли будет заметно различие по скорости работы базы данных использование Bit или TinyInt в таких случаях если в базе таблицы с товарами по 10-30 млн данных?

2) Есть товары. Для ключа использую тип данных Int. Вес ячейки 4 байта. Как повлияет на производительность БД если вместо Int будет использоваться Char, Varchar, Nchar, Nvarchar? 1 символ в Char весит 1 байт. Соответственно если тип данных я укажу Char(4) то каждое значение будет весить по 4 байта? Даже если введу единицу? Если ввести в Varchar(4) единицу, она будет весить 4 байта или 1? Как повлияет на скорость работы БД использование Int или Varchar, если тип данных используется для обозначения шестизначного кода? Получается идет сравнение Int и Varchar(6). Как повлияет на скорость работы БД использование Int или Varchar, если тип данных используется для обозначения трехзначного кода? Получается идет сравнение Int и Varchar(3).
1. Индекс по полю типа бит вещь очень неизбирательная, поэтому при выборке сканировать придется всю таблицу. Возможно, более удачный вариант завести отдельную таблицу что-то вроде Top(GoodsID int PK), в которую складывать идентификаторы топовых товаров, если их не очень много, зависит от нескольких причин. С потолка можно сказать про не более 30%, зависит от количества операций чтения данных.
2. Символьные данные при сравнении в операциях поиска и фильтрации обычно используют правила сортировки, что в целом эти операции замедляет. Кроме того, строки, как правило, разной длины, что тоже сказывается на сравнении из-за способа хранения, так как фиксированое поле и переменное хранятся по-разному, обычно это описывается в документации к серверу. Лучше хранить в фиксированом, но тогда может быть неоптимальный объём хранения таковых данных. Поэтому, если уж решили использовать, то при многих оперциях полезно указывать опцией, что при сравнение использовать бинарную сортировку. А вообще правильно сказали выше, тип поля должен зависеть не от того, что меньше, а от того, каким он должен быть. Если в качестве кода использутся только цифры, то разумно использовать целочисленный тип, если же могут быть любые другие символы, то символьный, а если ещё и диапазон символов превышает ASCII, то от Unicode никуда не денешься. В общем, нюансов много. В любом случае, типы должны совпадать, чтобы серверу не приходилось "на лету" выполнять конвертацию данных, это, как правило, катастрофически сказывается на производительности.
Есть очень неплохая книга для практиков, рекомендуется к прочтению. Авторы сделали много разных интересных экспериментов на ряде самых известных RDBMS.

...

Рейтинг:

0 / 0

09.04.2014, 02:43:08

| Ответить | Цитировать | Написать

25 сообщений из 39, страница 1 из 2

все

Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Неколько вопросов по типам данных.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=32&msg=38608284&tid=1540909]:	0ms
get settings:	9ms
get forum list:	16ms
check forum access:	3ms
check topic access:	3ms
track hit:	40ms
get topic data:	14ms
get forum data:	2ms
get page messages:	57ms
get tp. blocked users:	1ms
others:	198ms

total:	343ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы