Отправляет email-рассылки с помощью сервиса Sendsay

[TC] Чтение PDF-учебников

Привет, рассылка!

Вопрос следующий: есть PDF-учебник с текстовым слоем. Я не знаю, как он
был сделан, но вроде не похоже на распознавание: тегов и гипертекста
нет, но и грязи, которая встречается при распознавании, вроде, тоже нет.
Но при чтении в Acrobat во всех таких файлах встречаются одинаковые
типовые ошибки. Самая частая: почему-то отсутствует буква Я в текстах.
Выглядит примерно так:

Я бы не писал, если бы это была проблема одной книги, но вот именно
такое наблюдаю регулярно в PDF-документах.
Причём этого нет, скажем, если я сам распознаю какой-то скан.

В общем, подскажите, можно ли это как-то исправить на уровне читалки
PDF? Удобнее и доступнее Акробата ничего не знаю., а преобразовывать в
простой текст - ну совсем не вариант, ведь пропадает деление на страницы
и абзацы.

Андрей

Ответить   Wed, 8 Sep 2021 01:08:31 +0300 (#3676324)

 

Ответы:

Здравствуйте, Андрей Якубой.

Вы писали среда, 8 сентября 2021 г. 2:08

Это чем таким вы преобразовываете в текст? В файнридере можно выставить флажки, чтобы и деление на страницы сохранилось, а на абзацы он и сам делит. Даже можно выставить, чтобы абзацы разделялись пустыми строками, если надо.

Ответить   Wed, 8 Sep 2021 07:56:49 +0400 (#3676332)

 

Приветствую!

08.09.2021 10:56, Михаил Духонин пишет:

Ну а текст, как правило, читается чем? - конечно же, блокнотом! Ну даже
если и не им, то как вы в простом тексте будете по страницам и абзацам
перемещаться?

Нет, никто не говорит про мультифункциональные документы с разметкой в
Word-ах и т.д., но речь-то о тексте простом шла...

Ответить   Игорь Мельников (НОСБ) Wed, 8 Sep 2021 14:48:47 +0700 (#3676339)

 

Доброе время суток, Игорь Мельников!

В письме от 8 сентября 2021 г., 10:48:47 мне довелось прочесть:

Ну даже простой текст, если это не художественная книга, удобнее
читать с разметкой. Я в таких случаях пересохраняю это всё в HTML и
читаю в браузере, куда удобнее, чем тупо ходить по тексту в Блокноте.

Ответить   Wed, 8 Sep 2021 10:57:08 +0300 (#3676343)

 

Здравствуйте, Игорь Мельников.

Вы писали среда, 8 сентября 2021 г. 11:48

Не знаю, я как-то привык. Лично меня как раз бесит Акробат, особенно если он крошит строки на отдельные слова, если не буквы. По страницам можно перемещаться, если забить в диалог поиска соответствующий символ (12). Можно скопировать прямо из документа и вставить в соответствующее поле. Но не представляю, где это может понадобиться. Разве что руками колонтитулы удалять...

Ответить   Wed, 8 Sep 2021 12:49:02 +0400 (#3676354)

 

Всем привет и вам, Михаил!

Я студент, и для меня очень актуально быстро перемещаться к нужной
странице учебника. Попробуйте переместиться с помощью поиска по
разделителям страниц, скажем, к странице номер 250. :-)

Можно в Word, но меня не удовлетворяет скорость работы этой штуки, при
том, что у меня достаточно мощный компьютер.

На самом деле, вопрос мой был в другом. Ведь визуально с таким PDF всё в
порядке, как я понимаю. При этом это не скан, у документа есть текстовый
слой. Так почему же при чтении скрин-ридером съедаются некоторые буквы?
С чем это вообще связано?

Андрей

Ответить   Wed, 8 Sep 2021 12:36:42 +0300 (#3676361)

 

Здравствуйте, Михаил Духонин.

Может выдаваться задание с формулировкой прочитать фрагмент книги с указанием номеров страниц.
Кроме того, если речь идёт о научной работе, то библиографические ссылки подразумевают указание точного номера страницы источника.
В общем для серьёзной работы с источниками сохранение нумерации страниц первоисточника и возможность перемещаться к страницам по их номерам - это обязательное требование.
В академическом мире все работают с PDF, когда речь идёт об уже изданном материале.
Успехов. Никита.

Ответить   Wed, 8 Sep 2021 12:52:39 +0300 (#3676365)

 

Здравствуйте, Nikita и Андрей.

Вы писали среда, 8 сентября 2021 г. 13:52

Я достаточно много работаю с распознанными PDF, сконвертированными в TXT. В основном это, правда, книги по ИТ, но и разные академические книжки тоже временами конвертирую. Так вот, Файнридер при конвертации в TXT сохраняет колонтитулы. Обычно это, как раз, номер страницы и название главы/части/рубрики или ещё чего-нибудь. Так что на 255 страницу перейти, как раз, не проблема. Просто забиваешь эту цифру в поиск и вуаля... А ещё лично мне очень удобно найти нужную главу в оглавлении и через тот же поиск быстро к ней перейти. Точно не помню, но вроде где-то есть флажок, разрешающий/запрещающий сохранение колонтитулов. У меня оно всегда включено.

Единственный минус по сравнению с текстовым слоем - Файнридер всё же с той или иной частотой допускает ошибки распознавания. Для гуманитарных книг это, обычно, не проблема - ошибок минимум. Но если в тексте много кода - приходится по мере чтения его постоянно править. Плохо поддаются распознаванию сканы советских книг. Ещё тяжело читать, если в книге бОльшую часть страницы занимают подстраничные ссылки...

В общем, в своё время я перепробовал кучу вариантов конвертации и чтения PDF, ничего удобнее по совокупности всех обстоятельств, чем конвертация в TXT файнридером, не нашёл.

Ответить   Wed, 8 Sep 2021 18:51:47 +0400 (#3676372)

 

привет вам Михаил.
вы писали что в книгах по IT, конкретно в примерах с кодом много ошибок
после распознования.
но ведь практически всегда в таких книгах имеются ссылки на листинги с
кодом, замечу что даже с сайта издательства таких книг, листинги спокойно
можно скачать бесплатно.
и смотреть чистый код без ошибок распознавания.

Ответить   Wed, 8 Sep 2021 20:27:57 +0300 (#3676376)

 

Здравствуйте, Keeper.

Вы писали среда, 8 сентября 2021 г. 21:27

Можно и так. Но всё равно - в тексте приходится либо править, либо чистить от грязи. Иногда психологически проще расставить в нужных местах переводы строк и поправить шаблонные ошибки, чем скакать по нескольким файлам и папкам.

Ответить   Wed, 8 Sep 2021 21:48:38 +0400 (#3676377)

 

Здравствуйте, Михаил Духонин.

Это если в читаемой книге не слишком много чисел, на что в целом ряде научных дисциплин рассчитывать не приходится: от истории с датами до экономики с количественными показателями. Да и в целом способ не очень-то консистентный.

Вообще-то по текстовому слою PDF тоже можно искать, да и оглавление там может быть именно активируемыми ссылками.
Кроме того, OCR теряет символы, типа бесконечности или принадлежности множеству, тогда как в оригинальном текстовом слое они вполне могут сохраниться, если PDF генерировался из какого-нибудь LaTeX. Именно поэтому всегда полезно сначала попробовать работать с оригинальным текстовым слоем. Возможно он окажется информативнее, чем результат OCR.

Книги по программированию обычно имеют либо полноценную электронную версию, либо отдельно распространяемые файлы листингов. Лучше поискать их, чем мучаться.

Опять же, это как раз случай работы с научными изданиями. То есть то, с чего мы и начали.

По-моему у вас просто уже выработался стокгольмский синдром по отношению к своим костылям и закрепившимся плохим привычкам.
Я бы посоветовал посмотреть или освежить знакомство с PDF Transformer, если нужна работа с учётом оригинальной нумерации страниц, а листинги и вовсе брать в отдельно распространяемом электронном варианте.
Ну а художественную, беллетристическую или публицистическую литературу можно читать как угодно, но там и нумерация страниц обычно не нужна, если только сама литература не является объектом исследования.
Успехов. Никита.

Ответить   Wed, 8 Sep 2021 22:37:07 +0300 (#3676386)

 

Здравствуйте, Nikita.

Вы писали среда, 8 сентября 2021 г. 23:37

Ну я честно, пытался читать из Акробата. Конвертация файнридером - это же всё таки время и определённые лишние телодвижения. Лень ещё никто не отменял :-) Но увы, не идёт... Даже пробовал встроенные инструменты чтения Акробата. Всё не то. Я бы с удовольствием конвертировал в Ворд, ибо в нём читать мне тоже достаточно удобно, однако Файнридер делает такие DOKXы, что ориентироваться в них в слепую решительно невозможно. Колонки там всякие, ещё какие-то непонятные вещи...

Оригинальные книги по программированию, обычно издаются в том же PDF. Со всеми вытекающими. Правда, в последнее время изредка попадаются EPUB, но с их штатным чтением с помощью скринридера тоже проблемы... Приходится заходить в них как в архивы и читать упакованные HTML без возможности работы с оглавлением. О листингах писал немного раньше в этой же ветке.

Ответить   Thu, 9 Sep 2021 11:04:00 +0400 (#3676419)

 

Здравствуйте, Михаил Духонин.

ePUB читать можно через браузер: какие-то из них умеют из коробки, а в какие-то надо поставить расширение.
Ещё есть вполне доступная читалка Thorium Reader на базе Electron.
Успехов. Никита.

Ответить   Thu, 9 Sep 2021 21:15:16 +0300 (#3676445)

 

Здравствуйте, Nikita.

Вы писали четверг, 9 сентября 2021 г. 22:15

Раньше Хром умел из коробки. Теперь нет. Доступного расширения мне найти не удалось ни для Хрома, ни для Лисы. Точнее, их там было море, наиболее популярные оказались недоступны, а перебирать все подряд.... Ну много их там было, много...

А вот за это огромное спасибо! Сразу поставил - на первый взгляд то, что нужно...

--
С уважением, Михаил Духонин mailto:groups_***@m*****.ru
Недорогой хостинг со всем необходимым! https://order.best-hoster.ru/host.php?uid=27488
ICQ: #360631052 Skype: velimudr_80

Ответить   Fri, 10 Sep 2021 07:43:07 +0400 (#3676460)

 

Здравствуйте, Андрей Якубой.

Скорей всего, это всё-таки дефект текстового слоя. Можно сохранить этот PDF как txt и посмотреть. Думаю, текст там будет такой же дефективный.

Из доступных альтернатив можно посмотреть на Foxit Reader, но именно эту проблему оно вряд ли решит.
Похоже на то, что починить текстовый слой вы сможете только перераспознаванием.
Чтобы распознать текст в PDF с сохранением структуры документа, включая распределение по страницам, лучше использовать не FineReader, а PDF Transformer от той же ABBYY.
То есть PDF Transformer вы сможете скормить PDF, он его распознает и просто перепишет текстовый слой.
Успехов. Никита.

Ответить   Wed, 8 Sep 2021 12:50:49 +0300 (#3676363)

 

Здравствуйте, Никита!

Преобразовал в обычный текст, буква появилась. Но при этом появились и
другие артефакты, типа странное разбиение на строки, переносы (которых в
Акробате не было) и другие. Подчеркну, что да, именно достал текстовый
слой, а не распознал.
В ходе дальнейших экспериментов обнаружилось, что такая проблема у меня
наблюдается при открытии в Acrobat всех документов, созданных, например,
с помощью LaTeX. Ну и другие буквы иногда в конкретных позициях
заменяются на странные символы или пропадают.
Может, всё-таки, что-то именно там?

Я не работал с этим продуктом. А чем он лучше Fine Reader? В чём вообще
разница?

Андрей

Ответить   Wed, 8 Sep 2021 23:25:09 +0300 (#3676392)

 

Мир вам, земляне.
Цитата:

Конец цитаты.
У меня ничего подобного при компиляции в PDF с помощью MIKTex в русской Windows 10 не происходит. Нужно выяснять в какой кодировки ваш исходный теховский документ, какая преамбула, какие пакеты подключены и какая кодовая таблица выбрана в Windows. Есть пакет cmap, который исправляет кириллическую кодировку при компиляции в PDF для тех, кто использует старинные способы подключения русского языка в Latex. Я сейчас из WinEdt вообще никаких указаний для кодировки символов в преамбуле не указываю и получаю корректный PDF-документ при компиляции. В идеале нужно смотреть вашу преамбулу документа и настройки редактора, используемого для написания исходного теховского кода.
--
Евгений Корнев.

Ответить   Thu, 9 Sep 2021 09:57:06 +0700 (#3676415)

 

Здравствуйте, Андрей Якубой.

Ну что-то определённо пошло не так на этапе создания текстового слоя. Однако для меня загадочно, что сохранение в .txt при помощи Adobe Reader приводит к получению отличающегося текстового слоя.
Новые разрывы строк - это ладно, а вот отличающийся набор букв - это странно.

FineReader - это приложение в основном для распознавания изображений текста и преобразования его в редактируемые форматы, а PDF Transformer - это преобразование PDF без изменения формата.
Качество распознавания там должно быть плюс-минус такое же, разве что версии движка ABBYY могут немного расходиться в разных релизах.
Основная суть использования PDF Transformer - это возможность создать в PDF максимально правильный текстовый слой без изменения формата и без нарушения структуры документа, типа распределения по страницам.
Если повезёт, он там и таблицы внутри PDF может разметить.
В общем для вашего случая, когда вам надо сохранить структуру исходного PDF, именно PDF Transformer должен подойти.
Вы просто скормите ему книги с дефективным текстовым слоем, а он его перепишет, выполнив распознавание. Возможно после этого станет лучше. Если, конечно, там не математический контент.
Математический контент распознавать надо уже InftyReader, но там высокие требования к качеству изображения ( не ниже 600 ppi), да и всё равно высокий процент ошибок.
Правда если книга с математическим контентом на русском языке, то там надо было к InftyReader подключить FineReader, чтобы обычный текст между формулами распознавать именно движком FineReader.
Однако я не знаю, насколько современные FineReader можно ещё подключить к InftyReader. Да и цены на всё там были конские.
Успехов. Никита.

Ответить   Thu, 9 Sep 2021 21:14:14 +0300 (#3676443)