|
|
|
Count unique blob
|
|||
|---|---|---|---|
|
#18+
Приветствую! Имеется Oracle DB 11.2.0.3. Таблица с BLOB картинками, порядка ~млн. записей. Нужно подсчитать кол-во уникальных? Пока пришла только мысль - вычислять хэш MD5, у которых dbms_lob.getlength(blob)>0, и по нему считать кол-во уникальных. Но возможно есть другой, более "оптимальный" способ? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2018, 09:22 |
|
||
|
Count unique blob
|
|||
|---|---|---|---|
|
#18+
Первичное сравнение можно проводить по длине, а следующим шагом сравнивать содержимое для тех, у кого одинаковая длина. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2018, 09:48 |
|
||
|
Count unique blob
|
|||
|---|---|---|---|
|
#18+
iof63, Не так часто приходилось работать с LOB, но у них есть DBMS_LOB.COMPARE - она чем то не устраивает? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2018, 11:24 |
|
||
|
Count unique blob
|
|||
|---|---|---|---|
|
#18+
MaximaXXL, что с чем компарить? или нужно декартово произведение? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2018, 11:45 |
|
||
|
Count unique blob
|
|||
|---|---|---|---|
|
#18+
Lary Denis, Есть dbms_crypto.hash которое работает с лобами, а потом (если надо) сделать DBMS_LOB.COMPARE ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2018, 11:57 |
|
||
|
Count unique blob
|
|||
|---|---|---|---|
|
#18+
iof63, order member function ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2018, 11:58 |
|
||
|
Count unique blob
|
|||
|---|---|---|---|
|
#18+
miksoft, По MD5 выяснилось (ушло ~23мин.), что уникальных ~20% записей, т.е. основная часть данных - дубли. Сомневаюсь, что вытащив повторяющиеся по длине записи, и затем сделать по ним хэш, суммировать с не повторяющимися по длине, будет эффективнее, в плане скорости. Будет время, - проверю обязательно. Спасибо. MaximaXXL , Вы не уяснили суть задачи. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2018, 12:05 |
|
||
|
Count unique blob
|
|||
|---|---|---|---|
|
#18+
iof63miksoft, По MD5 выяснилось (ушло ~23мин.), что уникальных ~20% записей, т.е. основная часть данных - дубли. Сомневаюсь, что вытащив повторяющиеся по длине записи, и затем сделать по ним хэш, суммировать с не повторяющимися по длине, будет эффективнее, в плане скорости. Будет время, - проверю обязательно. Спасибо. MaximaXXL , Вы не уяснили суть задачи.совпадение МД5 в общем случае не означает совпадения контента ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2018, 12:26 |
|
||
|
Count unique blob
|
|||
|---|---|---|---|
|
#18+
-2-order member functionБеглым взглядом пока не сообразил, как это использовать в данном случае. Почитаю. andreymxсовпадение МД5 в общем случае не означает совпадения контентаПонимаю, - вероятность коллизий есть, минимальна - но есть, сократить можно, например SH1 вместо MD5 использовать. Ни в чем нельзя быть уверенным. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.11.2018, 12:58 |
|
||
|
|

start [/forum/topic.php?fid=52&fpage=94&tid=1883169]: |
0ms |
get settings: |
10ms |
get forum list: |
17ms |
check forum access: |
5ms |
check topic access: |
5ms |
track hit: |
92ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
43ms |
get tp. blocked users: |
2ms |
| others: | 237ms |
| total: | 425ms |

| 0 / 0 |
