|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
Есть каталог, в котором 14 млн. XML-файлов Все файлы разной наполненности неопределенного типа (без описания). Как оределить совокупную структуру тегов всех файлов для подъема их в одну таблицу MS SQL ... |
|||
:
Нравится:
Не нравится:
|
|||
23.03.2021, 22:43 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
Спросите у того архитектора, который придумал, что для этого нужна именно одна таблица, отличная от структуры Код: sql 1.
... |
|||
:
Нравится:
Не нравится:
|
|||
23.03.2021, 23:48 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
m830, судя по формулировке, вам нужна какая-нибудь noSQL СУБД для хранения. "неопределенного типа" и "совокупную структуру" - взаимоисключающие понятия. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.03.2021, 11:34 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
Все XML-ки про один тип объектов, но почти во всех разная наполненность тегами, определяющими те или иные их свойства. Мне нужны все варианты тегов. Они будут определять названия полей единой SQL-таблицы, в которые будут записываться значения из тегов. В SQL-таблице будет 14 млн. записей, в которой будут и заполненные поля, и поля с Null ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2021, 11:15 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
m830 Все XML-ки про один тип объектов, но почти во всех разная наполненность тегами, определяющими те или иные их свойства. Мне нужны все варианты тегов. Они будут определять названия полей единой SQL-таблицы, в которые будут записываться значения из тегов. В SQL-таблице будет 14 млн. записей, в которой будут и заполненные поля, и поля с Null А каждый раз когда в очередной XML появиться новый тег, вы будете добавлять поле в свою таблицу? Это тот вариант, когда вариация на тему EAV может быть не самым плохим решением ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2021, 11:27 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
msLex А каждый раз когда в очередной XML появиться новый тег, вы будете добавлять поле в свою таблицу? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2021, 11:56 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
m830, неправильное понимание реляционной структуры, названия тэгов должны быть перечислены в атрибуте таблицы, а не сами становиться атрибутами. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2021, 12:42 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
msLex А каждый раз когда в очередной XML появиться новый тег, вы будете добавлять поле в свою таблицу? Веселее будет, когда все файлы будут содержать, например, element-centric разметку, а в появившемся новом разметка будет attribute-centric, или наоборот. Или новый элемент будет сложным типом с последовательностью внутри. Так-то чисто теоретически можно из каждого XML заинферрить схему (на да, на 14 миллионах это будет долгая операция), но вот как потом эти схемы сравнивать? Например, для одного и того же числового атрибута/элемента в зависимости от совокупности значений в одном отдельно взятом документе может быть выведен и xs:short, и xs:integer, и xs:long - практически любой числовой тип. Как угадать, какой должен быть на самом деле? Ставить xs:decimal на все случаи жизни? С какой точностью его прописывать для таблицы? И таких нюансов может быть очень много. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2021, 14:04 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
m830, создайте таблицу для объективного анализа: XML_File_NameXML_Tag_Name............ или для ещё более объективного анализа XML_File_NameXML_Tag_NameDataRowsCount.................. и далее пройдитесь по всем файлам и залейте информацию для анализа в эту таблицу теперь появилась возможность для всевозможных аналитических SQL-запросов что бы ответить на свои вопросы ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2021, 14:54 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
Велика вероятность что среди 14 млн появится одна паршивая овца. Тестовый документ. Или созданный вручную и этот документ сильно сломает классификацию. И что с ним делать? Заводить новый подтип? А если таковых будет 100 штук? Или 5% от всего объема? Сколько вообще классов документов ожидается? Парадоксальная постановка может породить парадоксальный результат, который будет очевиден и столь же бесполезен. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2021, 16:24 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
Имхо, не с той стороны решаете задачу. Вы же откуда-то получаете эти документы? Просто запросите там структуру... ... |
|||
:
Нравится:
Не нравится:
|
|||
25.03.2021, 17:55 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
msLex, 14 млн. записей - свершившийся факт. Больше добавляться не будет. Если только не появится новая совокупность из >14 млн ... |
|||
:
Нравится:
Не нравится:
|
|||
29.03.2021, 21:27 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
m830 Как оределить совокупную структуру тегов всех файлов для подъема их в одну таблицу MS SQL Сделать это можно хоть на сиквеле https://docs.microsoft.com/ru-RU/sql/relational-databases/xml/use-raw-mode-with-for-xml?view=sql-server-2017 , хоть на xslt https://stackoverflow.com/questions/4051987/list-every-node-in-an-xml-file , или на каком ни будь C# ... |
|||
:
Нравится:
Не нравится:
|
|||
29.03.2021, 21:35 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
Критик, Все просто. Привезли диск, сказали, хотите берите, и все. Дальше наши проблемы. А данные очень нужны. Хотелось бы ничего не пропустить. Пока закачал то, что смог распознать глазками. Но может что пропустил. Вот этого и боюсь ... |
|||
:
Нравится:
Не нравится:
|
|||
29.03.2021, 21:37 |
|
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
|
|||
---|---|---|---|
#18+
m830 Критик, Все просто. Привезли диск, сказали, хотите берите, и все. Дальше наши проблемы. А данные очень нужны. Хотелось бы ничего не пропустить. Пока закачал то, что смог распознать глазками. Но может что пропустил. Вот этого и боюсь 1) Находишь генератор XML-Schema. Их в онлайне полно. Скармливаешь ему 1-й документ. 2) Пишешь софт который валидирует все документы этой схемой. 3) Если попался док который не проходит валидацию - корректируеш схему вручную. 4) Profit. ... |
|||
:
Нравится:
Не нравится:
|
|||
29.03.2021, 21:49 |
|
|
start [/forum/topic.php?fid=46&fpage=29&tid=1684889]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
35ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
44ms |
get tp. blocked users: |
2ms |
others: | 10ms |
total: | 132ms |
0 / 0 |