|
Хэш сумма файла. Велика ли вероятность псевдодублей файлов? | ☑ | ||
---|---|---|---|---|
0
totparen
10.03.16
✎
19:01
|
Требуется искать файлы по хэш сумме содержимого (алгоритм МД5).
Не разбираюсь в шифровании, поэтому вопрос, если у меня будет тысячи файлов, максимум в 20 килобайт, не велика ли вероятность найти файл со схожим хэшем, но с небольшим отличием по содержанию? |
|||
1
Живой Ископаемый
10.03.16
✎
19:03
|
схожий хэш - это все-таки одинаковый или не очень?
А если не очень - то какая разница на сколько? и на сколько из-за этого отличное содержание? |
|||
2
totparen
10.03.16
✎
19:05
|
(1) имел в виду хэш двух файлов одинаковый, а содержание(текстовые данные), отличаются в несколько символов.
|
|||
3
Живой Ископаемый
10.03.16
✎
19:06
|
нет, так не бывает...
гораздо вероятней другое - что содержание совершенно различное, а хэши вдруг совпадают, но вероятность этого мала |
|||
4
Cyberhawk
10.03.16
✎
19:07
|
Не парься, делай по хэшу, вероятность невелика
|
|||
5
Cyberhawk
10.03.16
✎
19:07
|
(3) Это ты применительно к MD5, надеюсь, про "не бывает"
|
|||
6
totparen
10.03.16
✎
19:10
|
Пасиб! Боле менее успокоили.
Нужно периодически опрашивать сервер на наличие заказов за период и сохранять данные в файл. Так вот если я буду опрашивать каждые 5 минут, то что бы файл не создавался каждые пять минут. |
|||
7
Quantumbroad
10.03.16
✎
19:14
|
||||
8
Живой Ископаемый
10.03.16
✎
19:15
|
2(5) не бывает что например содержимое файла отличается одним байтом и хэши у них одинаковые
|
|||
9
Quantumbroad
10.03.16
✎
19:19
|
(6) В заказах нет никакой идентифицирующей информации?
|
|||
10
totparen
10.03.16
✎
19:21
|
(9) Для идентификации заказы нужно анализировать. По логике это должно происходить при загрузке данных из файла.
Поэтому решил использовать хэш содержимого. |
|||
11
Quantumbroad
10.03.16
✎
19:23
|
(10) Их же анализировать всё равно придётся.
|
|||
12
oleg_km
10.03.16
✎
19:24
|
Очевидно, что данные могут дублироваться пропорционально длине хеша. Чем короче хеш, тем выше вероятность дублей. MD5 - вроде 128 бит, где-то миллиард миллиардов?
|
|||
13
totparen
10.03.16
✎
19:28
|
(11) Придётся. Но потом. )) И не факт что это будет заказ. Там уже можно будет предупредить пользователя, что в файле что-то неопределенное.
(12) Хэшфункция от 1С. Уж незнаю какой она длины. |
|||
14
Quantumbroad
10.03.16
✎
19:30
|
Низкая вероятность не даёт уверенности в отсутствии облома прямо завтра.
|
|||
15
Cyberhawk
10.03.16
✎
19:31
|
(8) Ты повторил (3).
Я спрашивал о коллизиях в общем случае - все зависит от хэш-функции ведь. |
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |