|
по архитектуре
|
|||
---|---|---|---|
#18+
Здравствуйте, У меня есть данные, которые собирает скрипт с разных сайтов. Данные представляют из себя папки в каждой из которых лежит файл, несколько фото, текстовый файл и несколько файлов с различными ссылками. Для того, чтобы не было повторов и двойных скачиваний у меня есть тестовый файл со списком уже посещенных ссылок на эти данные. Каждый раз при запуске скрипта из этого файле берутся все ссылки и сверяются с рабочей ссылкой. Если таковая уже есть, то скрипт останавливается. Долго такая жизнь продолжаться не может. Файл с посещенными ссылками растет и, рано или поздно, будет невозможно большим. Я хочу построить базу данных, чтобы обращаться не к файлу, а к таблице. Есть вопрос по архитектуре. Для ускорения индексинга, надо ли мне все свойства данных из папок иметь в одной большой таблице или правильно будет иметь отдельную таблицу со списком посещенных ссылок и связанные с этим другие таблицы с другими свойствами данных? Еще вопрос. Текстовую информацию правильнее держать в самой базе или в виде ссылки на файл? Заранее спасибо за ответ. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2019, 14:58 |
|
по архитектуре
|
|||
---|---|---|---|
#18+
robotnicЕсть вопрос по архитектуре. Для ускорения индексингаОй, да сколько у тебя там тех папок-то? сто? двести? тысяча? тьфу, и растереть. До того, чтобы думать про ускорения, тебе ещё рость и рость... ну хотя бы до сотни тысяч папок. robotnicнадо ли мне все свойства данных из папок иметь в одной большой таблице или правильно будет иметь отдельную таблицу со списком посещенных ссылок и связанные с этим другие таблицы с другими свойствами данных?С точки зрения нормализации - проанализировать да построить сразу нормальную структуру. robotnicТекстовую информацию правильнее держать в самой базе или в виде ссылки на файл?Сколько там того текста-то? если несколько килобайт на файл - в базу, в базу... ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2019, 15:26 |
|
по архитектуре
|
|||
---|---|---|---|
#18+
Akina, Спасибо за ответ. Сегодня папок 2000. Это я собрал данные с одной локации, скрипт только что написан. Через пару недель папок будет полсотни тысяч. Через полгода планируются миллион+ папок. Текстовые файлы - не большие. 95% меньше 150 Кб. Файлы с данными планируется привязывать еще и к отдельной таблице с чексуммами для того, чтобы удалять дубликаты (возможно правильнее иметь чексуммы в виде столбца, а не отдельной таблицы. Я не знаю, потому и спрашиваю.) А что означает "проанализировать да построить сразу нормальную структуру." ? ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2019, 15:46 |
|
по архитектуре
|
|||
---|---|---|---|
#18+
robotnicА что означает "проанализировать да построить сразу нормальную структуру." ?Путь к БД, если вкратце, выглядит приблизительно так: анализ предметной области - выделение сущностей и атрибутов, связей, процессов - построение ER-диаграммы - формирование структуры БД. А если полностью - то слишком длинно, так что это уж Вы как-нибудь самостоятельно... ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2019, 16:32 |
|
по архитектуре
|
|||
---|---|---|---|
#18+
robotnicЧерез полгода планируются миллион+ папок.И Вы хотите индексировать такой объём приложением, собранным на коленке? При даже минимальной оценке объёма данных - явно за терабайт? Я сильно сомневаюсь в возможности успешно реализовать эту задумку. ... |
|||
:
Нравится:
Не нравится:
|
|||
18.02.2019, 16:37 |
|
|
start [/forum/topic.php?fid=47&fpage=39&tid=1829299]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
38ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
45ms |
get tp. blocked users: |
2ms |
others: | 13ms |
total: | 144ms |
0 / 0 |