powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Count unique blob
9 сообщений из 9, страница 1 из 1
Count unique blob
    #39733879
iof63
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Приветствую!
Имеется Oracle DB 11.2.0.3. Таблица с BLOB картинками, порядка ~млн. записей. Нужно подсчитать кол-во уникальных?
Пока пришла только мысль - вычислять хэш MD5, у которых dbms_lob.getlength(blob)>0, и по нему считать кол-во уникальных.
Но возможно есть другой, более "оптимальный" способ?
...
Рейтинг: 0 / 0
Count unique blob
    #39733887
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Первичное сравнение можно проводить по длине, а следующим шагом сравнивать содержимое для тех, у кого одинаковая длина.
...
Рейтинг: 0 / 0
Count unique blob
    #39733963
MaximaXXL
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iof63,

Не так часто приходилось работать с LOB, но у них есть DBMS_LOB.COMPARE - она чем то не устраивает?
...
Рейтинг: 0 / 0
Count unique blob
    #39733977
Lary Denis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MaximaXXL, что с чем компарить? или нужно декартово произведение?
...
Рейтинг: 0 / 0
Count unique blob
    #39733984
MaximaXXL
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Lary Denis,

Есть dbms_crypto.hash которое работает с лобами, а потом (если надо) сделать DBMS_LOB.COMPARE
...
Рейтинг: 0 / 0
Count unique blob
    #39733985
Фотография -2-
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iof63,

order member function
...
Рейтинг: 0 / 0
Count unique blob
    #39733993
iof63
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
miksoft,
По MD5 выяснилось (ушло ~23мин.), что уникальных ~20% записей, т.е. основная часть данных - дубли. Сомневаюсь, что вытащив повторяющиеся по длине записи, и затем сделать по ним хэш, суммировать с не повторяющимися по длине, будет эффективнее, в плане скорости. Будет время, - проверю обязательно. Спасибо.

MaximaXXL , Вы не уяснили суть задачи.
...
Рейтинг: 0 / 0
Count unique blob
    #39734012
andreymx
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
iof63miksoft,
По MD5 выяснилось (ушло ~23мин.), что уникальных ~20% записей, т.е. основная часть данных - дубли. Сомневаюсь, что вытащив повторяющиеся по длине записи, и затем сделать по ним хэш, суммировать с не повторяющимися по длине, будет эффективнее, в плане скорости. Будет время, - проверю обязательно. Спасибо.

MaximaXXL , Вы не уяснили суть задачи.совпадение МД5 в общем случае не означает совпадения контента
...
Рейтинг: 0 / 0
Count unique blob
    #39734063
iof63
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
-2-order member functionБеглым взглядом пока не сообразил, как это использовать в данном случае. Почитаю.
andreymxсовпадение МД5 в общем случае не означает совпадения контентаПонимаю, - вероятность коллизий есть, минимальна - но есть, сократить можно, например SH1 вместо MD5 использовать. Ни в чем нельзя быть уверенным.
...
Рейтинг: 0 / 0
9 сообщений из 9, страница 1 из 1
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Count unique blob
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]