по архитектуре / MySQL

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / MySQL [игнор отключен] [закрыт для гостей] / по архитектуре

5 сообщений из 5, страница 1 из 1

по архитектуре

#39775602

robotnic

Гость

Здравствуйте,
У меня есть данные, которые собирает скрипт с разных сайтов.
Данные представляют из себя папки в каждой из которых лежит файл, несколько фото, текстовый файл и несколько файлов с различными ссылками.
Для того, чтобы не было повторов и двойных скачиваний у меня есть тестовый файл со списком уже посещенных ссылок на эти данные. Каждый раз при запуске скрипта из этого файле берутся все ссылки и сверяются с рабочей ссылкой. Если таковая уже есть, то скрипт останавливается.

Долго такая жизнь продолжаться не может. Файл с посещенными ссылками растет и, рано или поздно, будет невозможно большим.
Я хочу построить базу данных, чтобы обращаться не к файлу, а к таблице. Есть вопрос по архитектуре.
Для ускорения индексинга, надо ли мне все свойства данных из папок иметь в одной большой таблице или правильно будет иметь отдельную таблицу со списком посещенных ссылок и связанные с этим другие таблицы с другими свойствами данных?
Еще вопрос. Текстовую информацию правильнее держать в самой базе или в виде ссылки на файл?
Заранее спасибо за ответ.

...

Рейтинг:

0 / 0

18.02.2019, 14:58

| Ответить | Цитировать | Написать

по архитектуре

#39775633

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

robotnicЕсть вопрос по архитектуре.
Для ускорения индексингаОй, да сколько у тебя там тех папок-то? сто? двести? тысяча? тьфу, и растереть. До того, чтобы думать про ускорения, тебе ещё рость и рость... ну хотя бы до сотни тысяч папок.

robotnicнадо ли мне все свойства данных из папок иметь в одной большой таблице или правильно будет иметь отдельную таблицу со списком посещенных ссылок и связанные с этим другие таблицы с другими свойствами данных?С точки зрения нормализации - проанализировать да построить сразу нормальную структуру.

robotnicТекстовую информацию правильнее держать в самой базе или в виде ссылки на файл?Сколько там того текста-то? если несколько килобайт на файл - в базу, в базу...

...

Рейтинг:

0 / 0

18.02.2019, 15:26

| Ответить | Цитировать | Написать

по архитектуре

#39775655

robotnic

Гость

Akina,

Спасибо за ответ. Сегодня папок 2000. Это я собрал данные с одной локации, скрипт только что написан. Через пару недель папок будет полсотни тысяч. Через полгода планируются миллион+ папок.
Текстовые файлы - не большие. 95% меньше 150 Кб. Файлы с данными планируется привязывать еще и к отдельной таблице с чексуммами для того, чтобы удалять дубликаты (возможно правильнее иметь чексуммы в виде столбца, а не отдельной таблицы. Я не знаю, потому и спрашиваю.)

А что означает "проанализировать да построить сразу нормальную структуру." ?

...

Рейтинг:

0 / 0

18.02.2019, 15:46

| Ответить | Цитировать | Написать

по архитектуре

#39775713

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

robotnicА что означает "проанализировать да построить сразу нормальную структуру." ?Путь к БД, если вкратце, выглядит приблизительно так: анализ предметной области - выделение сущностей и атрибутов, связей, процессов - построение ER-диаграммы - формирование структуры БД. А если полностью - то слишком длинно, так что это уж Вы как-нибудь самостоятельно...

...

Рейтинг:

0 / 0

18.02.2019, 16:32

| Ответить | Цитировать | Написать

по архитектуре

#39775717

Akina

Участник

Откуда: Зеленоград, Москва, Россия

Сообщения: 20 644

Рейтинг: 0 / 0

robotnicЧерез полгода планируются миллион+ папок.И Вы хотите индексировать такой объём приложением, собранным на коленке? При даже минимальной оценке объёма данных - явно за терабайт? Я сильно сомневаюсь в возможности успешно реализовать эту задумку.

...

Рейтинг:

0 / 0

18.02.2019, 16:37

| Ответить | Цитировать | Написать

5 сообщений из 5, страница 1 из 1

Форумы / MySQL [игнор отключен] [закрыт для гостей] / по архитектуре

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=47&fpage=39&tid=1829299]:	0ms
get settings:	6ms
get forum list:	9ms
check forum access:	2ms
check topic access:	2ms
track hit:	34ms
get topic data:	7ms
get forum data:	2ms
get page messages:	24ms
get tp. blocked users:	1ms
others:	203ms

total:	290ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы