powered by simpleCommunicator - 2.0.51     © 2025 Programmizd 02
Форумы / MySQL [игнор отключен] [закрыт для гостей] / по архитектуре
5 сообщений из 5, страница 1 из 1
по архитектуре
    #39775602
robotnic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Здравствуйте,
У меня есть данные, которые собирает скрипт с разных сайтов.
Данные представляют из себя папки в каждой из которых лежит файл, несколько фото, текстовый файл и несколько файлов с различными ссылками.
Для того, чтобы не было повторов и двойных скачиваний у меня есть тестовый файл со списком уже посещенных ссылок на эти данные. Каждый раз при запуске скрипта из этого файле берутся все ссылки и сверяются с рабочей ссылкой. Если таковая уже есть, то скрипт останавливается.

Долго такая жизнь продолжаться не может. Файл с посещенными ссылками растет и, рано или поздно, будет невозможно большим.
Я хочу построить базу данных, чтобы обращаться не к файлу, а к таблице. Есть вопрос по архитектуре.
Для ускорения индексинга, надо ли мне все свойства данных из папок иметь в одной большой таблице или правильно будет иметь отдельную таблицу со списком посещенных ссылок и связанные с этим другие таблицы с другими свойствами данных?
Еще вопрос. Текстовую информацию правильнее держать в самой базе или в виде ссылки на файл?
Заранее спасибо за ответ.
...
Рейтинг: 0 / 0
по архитектуре
    #39775633
Фотография Akina
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
robotnicЕсть вопрос по архитектуре.
Для ускорения индексингаОй, да сколько у тебя там тех папок-то? сто? двести? тысяча? тьфу, и растереть. До того, чтобы думать про ускорения, тебе ещё рость и рость... ну хотя бы до сотни тысяч папок.

robotnicнадо ли мне все свойства данных из папок иметь в одной большой таблице или правильно будет иметь отдельную таблицу со списком посещенных ссылок и связанные с этим другие таблицы с другими свойствами данных?С точки зрения нормализации - проанализировать да построить сразу нормальную структуру.

robotnicТекстовую информацию правильнее держать в самой базе или в виде ссылки на файл?Сколько там того текста-то? если несколько килобайт на файл - в базу, в базу...
...
Рейтинг: 0 / 0
по архитектуре
    #39775655
robotnic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Akina,

Спасибо за ответ. Сегодня папок 2000. Это я собрал данные с одной локации, скрипт только что написан. Через пару недель папок будет полсотни тысяч. Через полгода планируются миллион+ папок.
Текстовые файлы - не большие. 95% меньше 150 Кб. Файлы с данными планируется привязывать еще и к отдельной таблице с чексуммами для того, чтобы удалять дубликаты (возможно правильнее иметь чексуммы в виде столбца, а не отдельной таблицы. Я не знаю, потому и спрашиваю.)

А что означает "проанализировать да построить сразу нормальную структуру." ?
...
Рейтинг: 0 / 0
по архитектуре
    #39775713
Фотография Akina
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
robotnicА что означает "проанализировать да построить сразу нормальную структуру." ?Путь к БД, если вкратце, выглядит приблизительно так: анализ предметной области - выделение сущностей и атрибутов, связей, процессов - построение ER-диаграммы - формирование структуры БД. А если полностью - то слишком длинно, так что это уж Вы как-нибудь самостоятельно...
...
Рейтинг: 0 / 0
по архитектуре
    #39775717
Фотография Akina
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
robotnicЧерез полгода планируются миллион+ папок.И Вы хотите индексировать такой объём приложением, собранным на коленке? При даже минимальной оценке объёма данных - явно за терабайт? Я сильно сомневаюсь в возможности успешно реализовать эту задумку.
...
Рейтинг: 0 / 0
5 сообщений из 5, страница 1 из 1
Форумы / MySQL [игнор отключен] [закрыт для гостей] / по архитектуре
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]