Поиск дубликатов

Любые обсуждения, не нарушающие правил форума.

Модератор: Модераторы

Ответить
Deimos
постоялец
Сообщения: 174
Зарегистрирован: 16.01.2010 23:31:30
Контактная информация:

Поиск дубликатов

Сообщение Deimos »

Доброго времени вам, камрады

Разбирал давеча свои архивы и обнаружил, что есть вагон дубликатов файлов. Начал посмотреть софт и был сурово опечален удобством и скоростью работы. Софтина за которую просят денег говорит, что папку 285 гигов (+/- 50000 файлов) она будет обрабатывать овер 28 часов.

Было пару часов времени - набросал свой вариант. С Хешами обрабатывает около часу, без них - 104 секунды. В моем случае совпадение что с хешами, что без них было одинаковым. Писал чисто для себя, но могу поделиться если нужно или выложить в "наши разработки" - хотя там и выкладывать нечего особо... так... формошлепство просто. Из полезного - адаптированный, под массивы, вариант сортировки Хора. хотя он, как я понял, используется и для сортировки в tedit и иже с ним...

буду рад вашим мыслям.
RRYTY
постоялец
Сообщения: 253
Зарегистрирован: 25.12.2021 09:00:32

Re: Поиск дубликатов

Сообщение RRYTY »

Доброго вам времени суток!
В реальном применении критична не скорость обработки данных, а скорость обращения к носителям. При работе с сетевыми файлопомойками именно это и определяет скорость работы. Да и на локальных машинах так же. Ведь нужно прочитать все файлы.
Так же обязателен лог работы для последующей обработки (да хоть бы и по почте администратору скидывать) и возможность запуска по расписанию.

Для этого уже есть инструменты. Например, fdupes. Бесплатно.
https://ru.wikipedia.org/wiki/Fdupes
Там в "Аналогичных программах" приведен их еще вагон.

Вообще же, чисто не там, где метут, а там, где не сорят. Для домашнего использования лучше задуматься над системой резервирования критических данных по расписанию и иметь полную актуальную копию. На серверах это делается еще и с глубиной хранения полных архивированных месячных копий по несколько месяцев с автоудалением устаревших.
Deimos
постоялец
Сообщения: 174
Зарегистрирован: 16.01.2010 23:31:30
Контактная информация:

Re: Поиск дубликатов

Сообщение Deimos »

RRYTY писал(а):В реальном применении критична не скорость обработки данных, а скорость обращения к носителям. При работе с сетевыми файлопомойками именно это и определяет скорость работы. Да и на локальных машинах так же. Ведь нужно прочитать все файлы.
Именно скорость считывания с HDD меня и возмутила.
RRYTY писал(а):https://ru.wikipedia.org/wiki/Fdupes
- этой не попалось. Не писал-бы ничего... )))
RRYTY писал(а):Вообще же, чисто не там, где метут, а там, где не сорят. Для домашнего использования лучше задуматься над системой резервирования критических данных по расписанию и иметь полную актуальную копию.
Я не совсем понял при чем тут резервирование, но сама мысль о нем верна и я ее поддерживаю...

В целом - благодарю за ответ.
RRYTY
постоялец
Сообщения: 253
Зарегистрирован: 25.12.2021 09:00:32

Re: Поиск дубликатов

Сообщение RRYTY »

Deimos писал(а):Я не совсем понял при чем тут резервирование
Речь же шла про архивы. Нетленные архивы для потомков составляются с умом и убираются в кладовку, там проверять нечего. Значит - оперативные. Оперативный архив это срез критических и рабочих данных, вот и подумал, что это резервирование. :-D
Аватара пользователя
WAYFARER
энтузиаст
Сообщения: 564
Зарегистрирован: 09.10.2009 00:00:04
Откуда: г. Курган
Контактная информация:

Re: Поиск дубликатов

Сообщение WAYFARER »

Deimos писал(а):Хешами обрабатывает около часу,
А какой алгоритм хеширования используется?
Некоторое время назад решали подобную задачу, и именно это стало узким местом.
sts
энтузиаст
Сообщения: 519
Зарегистрирован: 04.04.2008 12:15:44
Откуда: Тольятти

Re: Поиск дубликатов

Сообщение sts »

Deimos писал(а):она будет обрабатывать овер 28 часов.
это быстро
Deimos
постоялец
Сообщения: 174
Зарегистрирован: 16.01.2010 23:31:30
Контактная информация:

Re: Поиск дубликатов

Сообщение Deimos »

WAYFARER писал(а):
Deimos писал(а):Хешами обрабатывает около часу,
А какой алгоритм хеширования используется?
Я поковырял стандартные sha1 и md5 и, не обнаружив в них разницы по скорости существенной, остановился на sha1

Тестовый стенд - am3+ fx 4300. Файлы на НЖМД wd green 5400об 8 гб/рам, win11 - на ссд, но не думаю, что это вообще играло роль. 285 гиг. 46500 файлов. в основном - фото в жпег. Но есть с тысячу видео разных форматов. Т.е. железо сильно не топовое.

З.Ы. - программа делалась исключительно для себя и я особо не заморачивался

Добавлено спустя 2 минуты 39 секунд:
sts писал(а):
Deimos писал(а):она будет обрабатывать овер 28 часов.
это быстро

если говорить о серьезных проектах, то да. Если о утилитарном домашнем применении, то час меня устроил больше, чем 28 ). Ну +три, который я потратил на работу. Но это больше разминкой для себя было. Не писал ничего года три.
Ответить