Удалить дубликаты по Description / MySQL

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Удалить дубликаты по Description

12 сообщений из 12, страница 1 из 1

Удалить дубликаты по Description

#38866065

sqlbot

Гость

Здравствуйте дорогие форумчане.
Хочу к вам обратится за помощью.
У меня есть сайт, а в нем есть база данных, а в ней есть таблицы,

- id
- Title
- Description

Я могу удалить дубликаты, по полю, Title таким образом.

ALTER IGNORE TABLE xzclf_ads ADD UNIQUE INDEX(title);

Но вот когда я требую удалить, дубликат из поля Description

Программа отвечает мне, вот что : BLOB/TEXT column 'description' used in key specification without a key length

Вопрос, как вы посоветуете удалить все дубликаты записей из поля Description

Я вас предупреждаю, в базе, 50 тысяч записей.

Спасибо вам друзья.

...

Рейтинг:

0 / 0

28.01.2015, 23:51:38

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866207

Alex_Ustinov

Участник

Откуда: Nickel

Сообщения: 3 965

Рейтинг: 0 / 0

ваши случаи уже обсуждались, воспользуйтесь поиском, например - Уникальное поле типа TEXT и добавление констрейнтов

...

Рейтинг:

0 / 0

29.01.2015, 08:51:08

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866381

alex564657498765453

Участник

Сообщения: 1 942

Рейтинг: 0 / 0

тебе дубликаты надо удалить, или простой запрос написать????

Код: sql

1.
2.
3.
4.
5.
6.
7.

delete t2

from

mytable t1 left join mytable t2 on(t1.description = t2.description)

where t1.id < t2.id and t2.id IS NOT NULL

...

Рейтинг:

0 / 0

29.01.2015, 11:03:48

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866387

sqlbot

Гость

Это не помогает..

...

Рейтинг:

0 / 0

29.01.2015, 11:13:06

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866411

sqlbot

Гость

alex564657498765453тебе дубликаты надо удалить, или простой запрос написать????

Код: sql

1.
2.
3.
4.
5.
6.
7.

delete t2

from

mytable t1 left join mytable t2 on(t1.description = t2.description)

where t1.id < t2.id and t2.id IS NOT NULL

Мне нужно удалить дубликаты, по полю Description которое имеет свойство LONGTEXT.

...

Рейтинг:

0 / 0

29.01.2015, 11:32:03

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866416

alex564657498765453

Участник

Сообщения: 1 942

Рейтинг: 0 / 0

sqlbotalex564657498765453тебе дубликаты надо удалить, или простой запрос написать????

Код: sql

1.
2.
3.
4.
5.
6.
7.

delete t2

from

mytable t1 left join mytable t2 on(t1.description = t2.description)

where t1.id < t2.id and t2.id IS NOT NULL

Мне нужно удалить дубликаты, по полю Description которое имеет свойство LONGTEXT.

а идея моего запроса что удаляет?

...

Рейтинг:

0 / 0

29.01.2015, 11:33:41

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866423

sqlbot

Гость

Я думаю она удаляет то что нужно, но вот дело в том, что там 50к записей, и это реально удалить такой коммандой дубли ?
Т.е мне нужно что бы дубли удалились, но одна версия дубля осталась, т.е не все полностью, а одну запись оставлять. Если это есть в вашем примере это хорошо, но вот время, и сможет ли такой запрос выполниться при условии что в базе 50к постов..

...

Рейтинг:

0 / 0

29.01.2015, 11:41:31

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866424

alex564657498765453

Участник

Сообщения: 1 942

Рейтинг: 0 / 0

кстате, незнаю насколько это верно, но встречал мысль.

если есть поле текст, то шансы на совпадение md5 у разных текстов малы, но совпадение

md5(text) и md5(symbol+text) уже крактически ноль. только символ добавлять именно вначале. суть работы мд5, он берёт первый блок данных, выщитывает по нему значения, на освновании значений и второго блока новые значения и так до конца данных.

если доставить символ в конце, то весь процес подщёта суммы будет совпадать, отличие будет только на последнем этапе, но при условии что последний участок текста различается, а ведь это может быть и не так....скажем концовка стандартная.

если же вначале добавить.то сместяться границы разделения данных на куски, и уже в том куске где данные различаються, фактически гарантированно вычисления пойдут по разным путям. и шанс на то что суммы всёравно совпадут уже практически ноль.

да и математик один показал и доказал способ взлома мд5, котоырй строиться на том, что по первому различию в данных, нужно дальше подгадать другое различие. поставив символ в начале, мы смещая границы разбиение, меняем вычисления гдето в начале на различиях, но в следующих блоках не меняя ничего не даём возможность получить тотже результат.

...

Рейтинг:

0 / 0

29.01.2015, 11:42:09

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866436

sqlbot

Гость

Т.е способ удалить в поле description безнадежен ?..
Вот пришла идея, а если сделать так, к примеру сравниваем тайтл, и некий начальный участок поля description думаю к примеру если в description будет 5-6 слов похожи и тайтлы одинаковы, то я думаю 70% это будет дубликат соообщение..

...

Рейтинг:

0 / 0

29.01.2015, 11:48:26

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866940

alex564657498765453

Участник

Сообщения: 1 942

Рейтинг: 0 / 0

sqlbotЯ думаю она удаляет то что нужно, но вот дело в том, что там 50к записей, и это реально удалить такой коммандой дубли ?
Т.е мне нужно что бы дубли удалились, но одна версия дубля осталась, т.е не все полностью, а одну запись оставлять. Если это есть в вашем примере это хорошо, но вот время, и сможет ли такой запрос выполниться при условии что в базе 50к постов..

да легко, в результатирующей выборке будут записи дубли по принципу... если скажем дублей два

тоесть 1 ааааа 2 аааа 3 ааааа

то в результате будет

1 ааааа 2 ааааа
1 ааааа 3 ааааа
2 ааааа 3 ааааа ---условия совпадения текста и айдишник правой таблицы должен быть строго больше левой.

можно ещо поиграться, запросом...но я привел лишь идею поиска дублей(тоесть без записей которые надо оставить)
это совпадение текста, а айди строго больше у правой таблицы. поэтому в правой, для дублированого текста никогда не появиться запись, с таким текстом и минимальным айдишником.

...

Рейтинг:

0 / 0

29.01.2015, 16:49:56

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38866947

alex564657498765453

Участник

Сообщения: 1 942

Рейтинг: 0 / 0

sqlbotТ.е способ удалить в поле description безнадежен ?..
Вот пришла идея, а если сделать так, к примеру сравниваем тайтл, и некий начальный участок поля description думаю к примеру если в description будет 5-6 слов похожи и тайтлы одинаковы, то я думаю 70% это будет дубликат соообщение..

и не надо переживать за базу. 50000 тысяч записей... за пару минут у меня база генерировала 200 000 записей, так там использывались хеши и операции со строками длиной до 100 символов - ну тоесть процес генерации одной строки, это не совсем атомарное действие было, а два экрана кода хранимой процедуры. --- создавал тестовое наполнение таблиц двух, притом что одна вставка = по одной вставке в обе таблицы, а потом апдейт внешнего ключа.

так что 50000 текстов стравнить, тем более что основная масса сравнений - уже на первых символах будет видно не совпадение.

но как вариант второй, добавь поле хеш от всего текста. и сделай на нём индекс уникальности :), только хеш строй по принципу
хеш от текста + хеш от текста с дополнительным символом.

и вот это всё, запихни в бинари ...и на нём индекс уникальности.

...

Рейтинг:

0 / 0

29.01.2015, 16:54:12

| Ответить | Цитировать | Написать

Удалить дубликаты по Description

#38868526

sqlbot

Гость

Вообщем решил проблему, с помощью нескольких запросов + php.. :)
Так как я не суперюзер по работе с бд.. сделал как смог :)

...

Рейтинг:

0 / 0

31.01.2015, 19:28:48

| Ответить | Цитировать | Написать

12 сообщений из 12, страница 1 из 1

Форумы / MySQL [игнор отключен] [закрыт для гостей] / Удалить дубликаты по Description

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=47&msg=38866065&tid=1833623]:	0ms
get settings:	6ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	46ms
get topic data:	8ms
get forum data:	2ms
get page messages:	43ms
get tp. blocked users:	1ms
others:	213ms

total:	339ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы