|
v7: Бинарное или другое сравнение файлов | ☑ | ||
---|---|---|---|---|
0
aptomilov
20.08.11
✎
12:15
|
Здравствуйте господа, стоит такая задача просуммировать документы по Х полю, к которым прикреплен одинаковый счет (сканированный файл).
Как лучше сравнить файла что определить один это счет или разные? Подводный камень канешно есть - один и тот же счет в разных документах 2 раза отсканированный или подредактированный фотошопом )). |
|||
1
ДенисЧ
20.08.11
✎
12:16
|
Если это графика, то прогнать через распознавалку.
|
|||
2
aptomilov
20.08.11
✎
12:29
|
мне кажется, вероятность совпадения мала слишком, счета бывают разных типов и качества сканирования, надо ведь как то распознать слово счет и номер рядом с ним а если плохо отсканировалось например
|
|||
3
aptomilov
20.08.11
✎
13:01
|
такую вот функцию нашел в инете
Функция МД5(файл) ScrCtrl = СоздатьОбъект("MSScriptControl.ScriptControl"); ScrCtrl.Language = "vbscript"; ScrCtrl.AddCode(" |Function Hash() |Dim crypt: Set crypt = CreateObject(""CAPICOM.HashedData"") |crypt.Algorithm = 3 |Dim stream: Set stream = CreateObject(""ADODB.Stream"") |stream.Type = 1 ' adTypeBinary |stream.Open |stream.LoadFromFile("""+файл+""") |Do Until stream.EOS : crypt.Hash stream.Read() : Loop |Hash = crypt.Value |End Function |"); рез = ScrCtrl.Run("Hash"); Возврат рез; КонецФункции |
|||
4
andrewks
20.08.11
✎
13:43
|
ты имеешь в виду, один и тот же файл, или один и тот же счёт, но разные его сканы? не совсем понятно.
второе гораздо сложнее, тут надо рыть системы распознавания образов |
|||
5
aptomilov
20.08.11
✎
20:11
|
помоему распознование это перебор в данном случае
думаю достаточно сравнивать на хеш или мд5, вот ещё рабочий код: v8: 1С и хеш с мд5 у файла срванивать хотя бы файлы (сканы счета) |
|||
6
ДенисЧ
20.08.11
✎
20:12
|
бред
|
|||
7
Torquader
21.08.11
✎
13:33
|
Если нужно найти два одинаковых файла, то информация о размере файла должна проверяться первой. После размера уже можно считать контрольную сумму или хэш.
Если нужно найти два "одинаковых" отсканированных документа, то нужно "курить" сравнение образов - до конца ещё не решённая задача, но некоторые успехи в этом направлении уже есть. |
|||
8
aptomilov
22.08.11
✎
11:09
|
разве одинаковый хэш не значит что файлы одинаковые ? , Мне этого будет достаточно, сравнивать образы, распознавать это утопия
|
Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |