|
База 3 млн. штрихкодов
|
|||
---|---|---|---|
#18+
Тут выложили базу штрихкодов в CSV В аттаче небольшой скрипт, который перегоняет ее в базу sqlite и нормализует в 3 таблицы: Код: sql 1. 2. 3.
ПолеОписаниеEAN.eanштрихкодEAN.tovarнаименование товараBrand.brandбрэндCategory.categoryкатегория Текущий размер 508 Мб: ТаблицаЗаписейBrand36 009Category2 275EAN2 922 766 Инструкция по применению ean2sqlite.cmd внутри. Может кому пригодится по прямому назначению или просто потестить производительность sqlite. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.09.2018, 10:15 |
|
База 3 млн. штрихкодов
|
|||
---|---|---|---|
#18+
Dima T, Ругается на строках где в конце есть табуляция. C:\77777777777>ean2sqlite.cmd Could Not Find C:\77777777777\ean.db off import uhtt_barcode_ref_all.csv ... uhtt_barcode_ref_all.csv:1643688: expected 7 columns but found 3 - filling the rest with NULL uhtt_barcode_ref_all.csv:1643689: expected 7 columns but found 5 - filling the rest with NULL uhtt_barcode_ref_all.csv:1870051: expected 7 columns but found 3 - filling the rest with NULL uhtt_barcode_ref_all.csv:1870052: expected 7 columns but found 5 - filling the rest with NULL uhtt_barcode_ref_all.csv:2050294: expected 7 columns but found 3 - filling the rest with NULL uhtt_barcode_ref_all.csv:2050295: expected 7 columns but found 5 - filling the rest with NULL uhtt_barcode_ref_all.csv:2050311: expected 7 columns but found 3 - filling the rest with NULL uhtt_barcode_ref_all.csv:2050312: expected 7 columns but found 5 - filling the rest with NULL uhtt_barcode_ref_all.csv:2050339: expected 7 columns but found 3 - filling the rest with NULL uhtt_barcode_ref_all.csv:2050340: expected 7 columns but found 5 - filling the rest with NULL uhtt_barcode_ref_all.csv:2050342: expected 7 columns but found 3 - filling the rest with NULL uhtt_barcode_ref_all.csv:2050343: expected 7 columns but found 5 - filling the rest with NULL uhtt_barcode_ref_all.csv:2423876: expected 7 columns but found 3 - filling the rest with NULL uhtt_barcode_ref_all.csv:2423877: expected 7 columns but found 5 - filling the rest with NULL uhtt_barcode_ref_all.csv:2897445: expected 7 columns but found 3 - filling the rest with NULL uhtt_barcode_ref_all.csv:2897446: expected 7 columns but found 5 - filling the rest with NULL delete wrong set NULL create Category rows 2275 create Brand rows 36009 create EAN rows 2922766 vacuum ... |
|||
:
Нравится:
Не нравится:
|
|||
20.09.2018, 15:52 |
|
База 3 млн. штрихкодов
|
|||
---|---|---|---|
#18+
PPAРугается на строках где в конце есть табуляция. Исходные данные немного кривоваты. В некоторых наименованиях есть перевод строки, который одну строку рвет на две. Хорошо что они игнорируются. Думаю что сотня-другая пропущенных строк ничего не поменяет. Иначе из-за них надо полноценный парсер писать. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.09.2018, 16:08 |
|
База 3 млн. штрихкодов
|
|||
---|---|---|---|
#18+
Dima T, тут уникальные индексы должны быть echo create unique index category_category_idx ON category(category); >> create.sql echo create unique index brand_brand_idx ON brand(brand); >> create.sql а этот можно выкинуть echo create index ean_tovar_idx ON ean(tovar); >> create.sql ведь искать будут like '%бла-бла-бла%'? и размер становится 335 Мб. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.09.2018, 16:37 |
|
База 3 млн. штрихкодов
|
|||
---|---|---|---|
#18+
PPADima T, тут уникальные индексы должны быть echo create unique index category_category_idx ON category(category); >> create.sql echo create unique index brand_brand_idx ON brand(brand); >> create.sql Для полноценной БД - должны, а тут дефакто readonly БД, поэтому без разницы. PPAа этот можно выкинуть echo create index ean_tovar_idx ON ean(tovar); >> create.sql ведь искать будут like '%бла-бла-бла%'? и размер становится 335 Мб. это пофиг, не потребуется - только место на диске будет занимать. 180 мб на диске это незначительная мелочь. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.09.2018, 19:13 |
|
|
start [/forum/topic.php?fid=54&msg=39705733&tid=2008429]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
42ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
46ms |
get tp. blocked users: |
1ms |
others: | 16ms |
total: | 149ms |
0 / 0 |