5
ДедМорроз
26.05.22
✎
19:57
|
Я бы про формат pdf посоветовал посмотреть,т.к.там может быть все,что угодно,и в том числе и текст в нестандартной кодировке,т.к.у стандартных шрифтов,по умолчанию,русских символов нету.
Тут,наверное,проще страницу рассмотреть как картинку и попробовать на ней найти текст,как это делает finereader и другие системы распознавания.
|
|
8
NorthWind
27.05.22
✎
06:51
|
(5) да, в случае с PDF надо понимать, что текстового содержимого там может либо вообще не быть, либо оно может не соответствовать начертанию в файле.
|
|