Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Count unique blob / 9 сообщений из 9, страница 1 из 1
16.11.2018, 09:22
    #39733879
iof63
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Count unique blob
Приветствую!
Имеется Oracle DB 11.2.0.3. Таблица с BLOB картинками, порядка ~млн. записей. Нужно подсчитать кол-во уникальных?
Пока пришла только мысль - вычислять хэш MD5, у которых dbms_lob.getlength(blob)>0, и по нему считать кол-во уникальных.
Но возможно есть другой, более "оптимальный" способ?
...
Рейтинг: 0 / 0
16.11.2018, 09:48
    #39733887
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Count unique blob
Первичное сравнение можно проводить по длине, а следующим шагом сравнивать содержимое для тех, у кого одинаковая длина.
...
Рейтинг: 0 / 0
16.11.2018, 11:24
    #39733963
MaximaXXL
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Count unique blob
iof63,

Не так часто приходилось работать с LOB, но у них есть DBMS_LOB.COMPARE - она чем то не устраивает?
...
Рейтинг: 0 / 0
16.11.2018, 11:45
    #39733977
Lary Denis
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Count unique blob
MaximaXXL, что с чем компарить? или нужно декартово произведение?
...
Рейтинг: 0 / 0
16.11.2018, 11:57
    #39733984
MaximaXXL
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Count unique blob
Lary Denis,

Есть dbms_crypto.hash которое работает с лобами, а потом (если надо) сделать DBMS_LOB.COMPARE
...
Рейтинг: 0 / 0
16.11.2018, 11:58
    #39733985
-2-
-2-
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Count unique blob
iof63,

order member function
...
Рейтинг: 0 / 0
16.11.2018, 12:05
    #39733993
iof63
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Count unique blob
miksoft,
По MD5 выяснилось (ушло ~23мин.), что уникальных ~20% записей, т.е. основная часть данных - дубли. Сомневаюсь, что вытащив повторяющиеся по длине записи, и затем сделать по ним хэш, суммировать с не повторяющимися по длине, будет эффективнее, в плане скорости. Будет время, - проверю обязательно. Спасибо.

MaximaXXL , Вы не уяснили суть задачи.
...
Рейтинг: 0 / 0
16.11.2018, 12:26
    #39734012
andreymx
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Count unique blob
iof63miksoft,
По MD5 выяснилось (ушло ~23мин.), что уникальных ~20% записей, т.е. основная часть данных - дубли. Сомневаюсь, что вытащив повторяющиеся по длине записи, и затем сделать по ним хэш, суммировать с не повторяющимися по длине, будет эффективнее, в плане скорости. Будет время, - проверю обязательно. Спасибо.

MaximaXXL , Вы не уяснили суть задачи.совпадение МД5 в общем случае не означает совпадения контента
...
Рейтинг: 0 / 0
16.11.2018, 12:58
    #39734063
iof63
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Count unique blob
-2-order member functionБеглым взглядом пока не сообразил, как это использовать в данном случае. Почитаю.
andreymxсовпадение МД5 в общем случае не означает совпадения контентаПонимаю, - вероятность коллизий есть, минимальна - но есть, сократить можно, например SH1 вместо MD5 использовать. Ни в чем нельзя быть уверенным.
...
Рейтинг: 0 / 0
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Count unique blob / 9 сообщений из 9, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]