Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Упорядочиваем файлопомойку. / 8 сообщений из 8, страница 1 из 1
10.03.2007, 01:00
    #34381712
КаДэ
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Упорядочиваем файлопомойку.
Есть достаточно большая файлопомойка собранная за годы жызни на n-ном количестве ЦД... Сейчас все эти ЦД переливаются на винт, конечно же информация там будет дублироваться...
Вопрос знатокам: как проще всего обнаружить дубли? Приветствуются примерные алгоритмы и просто советы.
Моя идея - собрать весь список файлов в БД с путями и вычислить для каждого файла некий хэш или простую чек-сумму и разбирать уже сгруппированный результат по файлам.
Еще один вопрос знатокам: есть ли готовые решения? Приветствуются ссылки как на платный так и на бесплатный софт.
...
Рейтинг: 0 / 0
10.03.2007, 01:19
    #34381715
Осака Вестингауз
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Упорядочиваем файлопомойку.
...
Рейтинг: 0 / 0
10.03.2007, 01:21
    #34381716
White Owl
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Упорядочиваем файлопомойку.
...
Рейтинг: 0 / 0
10.03.2007, 19:43
    #34382193
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Упорядочиваем файлопомойку.
Сам озадачивался подобным. Могу посоветовать следующее.

1) Можно установить eMule (или KAD) клиента и нацелить каталог доступа на корень документов. Потом открыть вкладку Server Log и понаблюдать. Туда будут сбрасыватся уведомления о дубликатах. Это процесс медленный (от нескольких минут до нескольких часов) т.к. клиент специально хеширует файлы отдельным потоком с низким приоритетом.

(Не забудьте сделать disconnect )

2) Отдельно я использовал утилиты treecrc, openssl и т.п. для выполнения той-же задачи, но с фильтрацией.

Пишу пример навскидку, поэтому сорри за глюки.
Код: plaintext
1.
2.
3.
treecrc c:\documents /V /L:log.txt
... 
@rem анализируем log.txt
(treecrc - стародревняя DOS-овская утилита для вычисления сумм CRC32)

Код: plaintext
1.
2.
3.
for (все файлы из каталога c:\documents) do openssl md5 >> log.txt
... 
@rem анализируем log.txt

Фильтруем нужный тип файлов из log.txt и выкуриваем дубликаты.
...
Рейтинг: 0 / 0
11.03.2007, 00:40
    #34382372
КаДэ
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Упорядочиваем файлопомойку.
Осака, мне нужно не поиск по дискам организовать, а рассортировать ВСЕ файлы что есть :)

Белый Сов, пасиба попробую разобраться, но нечто подобное было в Total Commander - не очень помогло если честно.

Майтон, или кто еще знает, подскажите где поглядеть алгоритмы вычисления CRC и подобные им - думаю сам для себя сварганю утилидку...
...
Рейтинг: 0 / 0
11.03.2007, 00:48
    #34382377
Осака Вестингауз
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Упорядочиваем файлопомойку.
в этих программах есть встроенные функции поиска дубликатов по имени, размеру, контрольной сумме
...
Рейтинг: 0 / 0
11.03.2007, 10:44
    #34382499
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Упорядочиваем файлопомойку.
КаДэМайтон, или кто еще знает, подскажите где поглядеть алгоритмы вычисления CRC и подобные им - думаю сам для себя сварганю утилидку...

Вот исходничек. Не мой правда.
...
Рейтинг: 0 / 0
13.03.2007, 12:18
    #34386712
maXmo
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Упорядочиваем файлопомойку.
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Упорядочиваем файлопомойку. / 8 сообщений из 8, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]