Имя: Пароль:
1C
1С v8
Хэш сумма файла. Велика ли вероятность псевдодублей файлов?
0 totparen
 
10.03.16
19:01
Требуется искать файлы по хэш сумме содержимого (алгоритм МД5).
Не разбираюсь в шифровании, поэтому вопрос, если у меня будет тысячи файлов, максимум в 20 килобайт, не велика ли вероятность найти файл со схожим хэшем, но с небольшим отличием по содержанию?
1 Живой Ископаемый
 
10.03.16
19:03
схожий хэш - это все-таки одинаковый или не очень?
А если не очень - то какая разница на сколько? и на сколько из-за этого отличное содержание?
2 totparen
 
10.03.16
19:05
(1) имел в виду хэш двух файлов одинаковый, а содержание(текстовые данные), отличаются в несколько символов.
3 Живой Ископаемый
 
10.03.16
19:06
нет, так не бывает...
гораздо вероятней другое - что содержание совершенно различное, а хэши вдруг совпадают, но вероятность этого мала
4 Cyberhawk
 
10.03.16
19:07
Не парься, делай по хэшу, вероятность невелика
5 Cyberhawk
 
10.03.16
19:07
(3) Это ты применительно к MD5, надеюсь, про "не бывает"
6 totparen
 
10.03.16
19:10
Пасиб! Боле менее успокоили.
Нужно периодически опрашивать сервер на наличие заказов за период и сохранять данные в файл. Так вот если я буду опрашивать каждые 5 минут, то что бы файл не создавался каждые пять минут.
7 Quantumbroad
 
10.03.16
19:14
8 Живой Ископаемый
 
10.03.16
19:15
2(5) не бывает что например содержимое файла отличается одним байтом и хэши у них одинаковые
9 Quantumbroad
 
10.03.16
19:19
(6) В заказах нет никакой идентифицирующей информации?
10 totparen
 
10.03.16
19:21
(9) Для идентификации заказы нужно анализировать. По логике это должно происходить при загрузке данных из файла.
Поэтому решил использовать хэш содержимого.
11 Quantumbroad
 
10.03.16
19:23
(10) Их же анализировать всё равно придётся.
12 oleg_km
 
10.03.16
19:24
Очевидно, что данные могут дублироваться пропорционально длине хеша. Чем короче хеш, тем выше вероятность дублей. MD5 - вроде 128 бит, где-то миллиард миллиардов?
13 totparen
 
10.03.16
19:28
(11) Придётся. Но потом. )) И не факт что это будет заказ. Там уже можно будет предупредить пользователя, что в файле что-то неопределенное.

(12) Хэшфункция от 1С. Уж незнаю какой она длины.
14 Quantumbroad
 
10.03.16
19:30
Низкая вероятность не даёт уверенности в отсутствии облома прямо завтра.
15 Cyberhawk
 
10.03.16
19:31
(8) Ты повторил (3).
Я спрашивал о коллизиях в общем случае - все зависит от хэш-функции ведь.