powered by simpleCommunicator - 2.0.51     © 2025 Programmizd 02
Форумы / Microsoft SQL Server [игнор отключен] [закрыт для гостей] / как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
15 сообщений из 15, страница 1 из 1
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056473
m830
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Есть каталог, в котором 14 млн. XML-файлов
Все файлы разной наполненности неопределенного типа (без описания).
Как оределить совокупную структуру тегов всех файлов для подъема их в одну таблицу MS SQL
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056496
Гавриленко Сергей Алексеевич
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Спросите у того архитектора, который придумал, что для этого нужна именно одна таблица, отличная от структуры
Код: sql
1.
create table xxx ( [xml-файл без описания] xml not null)
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056597
Владислав Колосов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
m830,

судя по формулировке, вам нужна какая-нибудь noSQL СУБД для хранения.

"неопределенного типа" и "совокупную структуру" - взаимоисключающие понятия.
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056827
m830
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Все XML-ки про один тип объектов, но почти во всех разная наполненность тегами, определяющими те или иные их свойства.
Мне нужны все варианты тегов. Они будут определять названия полей единой SQL-таблицы, в которые будут записываться значения из тегов. В SQL-таблице будет 14 млн. записей, в которой будут и заполненные поля, и поля с Null
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056832
msLex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
m830
Все XML-ки про один тип объектов, но почти во всех разная наполненность тегами, определяющими те или иные их свойства.
Мне нужны все варианты тегов. Они будут определять названия полей единой SQL-таблицы, в которые будут записываться значения из тегов. В SQL-таблице будет 14 млн. записей, в которой будут и заполненные поля, и поля с Null

А каждый раз когда в очередной XML появиться новый тег, вы будете добавлять поле в свою таблицу?

Это тот вариант, когда вариация на тему EAV может быть не самым плохим решением
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056841
Гавриленко Сергей Алексеевич
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
msLex
А каждый раз когда в очередной XML появиться новый тег, вы будете добавлять поле в свою таблицу?
А когда кол-во уникальных комбинаций тегов превысит 1000, то и новую таблицу.
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056861
Владислав Колосов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
m830,

неправильное понимание реляционной структуры, названия тэгов должны быть перечислены в атрибуте таблицы, а не сами становиться атрибутами.
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056872
Сон Веры Павловны
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
msLex
А каждый раз когда в очередной XML появиться новый тег, вы будете добавлять поле в свою таблицу?

Веселее будет, когда все файлы будут содержать, например, element-centric разметку, а в появившемся новом разметка будет attribute-centric, или наоборот. Или новый элемент будет сложным типом с последовательностью внутри.
Так-то чисто теоретически можно из каждого XML заинферрить схему (на да, на 14 миллионах это будет долгая операция), но вот как потом эти схемы сравнивать? Например, для одного и того же числового атрибута/элемента в зависимости от совокупности значений в одном отдельно взятом документе может быть выведен и xs:short, и xs:integer, и xs:long - практически любой числовой тип. Как угадать, какой должен быть на самом деле? Ставить xs:decimal на все случаи жизни? С какой точностью его прописывать для таблицы? И таких нюансов может быть очень много.
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056887
Фотография Кроик Семён
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
m830,

создайте таблицу для объективного анализа:
XML_File_NameXML_Tag_Name............

или для ещё более объективного анализа
XML_File_NameXML_Tag_NameDataRowsCount..................

и далее пройдитесь по всем файлам и залейте информацию для анализа в эту таблицу

теперь появилась возможность для всевозможных аналитических SQL-запросов что бы ответить на свои вопросы
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056921
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Велика вероятность что среди 14 млн появится одна паршивая овца. Тестовый документ. Или созданный вручную и этот документ сильно сломает классификацию.

И что с ним делать? Заводить новый подтип?

А если таковых будет 100 штук? Или 5% от всего объема?

Сколько вообще классов документов ожидается?

Парадоксальная постановка может породить парадоксальный результат, который будет очевиден и столь же бесполезен.
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40056967
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Имхо, не с той стороны решаете задачу.
Вы же откуда-то получаете эти документы?
Просто запросите там структуру...
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40057991
m830
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
msLex,
14 млн. записей - свершившийся факт. Больше добавляться не будет. Если только не появится новая совокупность из >14 млн
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40057993
Фотография alexeyvg
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
m830
Как оределить совокупную структуру тегов всех файлов для подъема их в одну таблицу MS SQL
Какие могут быть варианты, кроме как циклом пройтись по файлам, и определить совокупную структуру всех тегов?
Сделать это можно хоть на сиквеле https://docs.microsoft.com/ru-RU/sql/relational-databases/xml/use-raw-mode-with-for-xml?view=sql-server-2017 , хоть на xslt https://stackoverflow.com/questions/4051987/list-every-node-in-an-xml-file , или на каком ни будь C#
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40057994
m830
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Критик,
Все просто. Привезли диск, сказали, хотите берите, и все. Дальше наши проблемы. А данные очень нужны. Хотелось бы ничего не пропустить. Пока закачал то, что смог распознать глазками. Но может что пропустил. Вот этого и боюсь
...
Рейтинг: 0 / 0
как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
    #40057996
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
m830
Критик,
Все просто. Привезли диск, сказали, хотите берите, и все. Дальше наши проблемы. А данные очень нужны. Хотелось бы ничего не пропустить. Пока закачал то, что смог распознать глазками. Но может что пропустил. Вот этого и боюсь

1) Находишь генератор XML-Schema. Их в онлайне полно. Скармливаешь ему 1-й документ.
2) Пишешь софт который валидирует все документы этой схемой.
3) Если попался док который не проходит валидацию - корректируеш схему вручную.
4) Profit.
...
Рейтинг: 0 / 0
15 сообщений из 15, страница 1 из 1
Форумы / Microsoft SQL Server [игнор отключен] [закрыт для гостей] / как в каталоге из 14 млн. XML-файлов определить структуру тегов,охватывающую все эти файлы
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]