Отправляет email-рассылки с помощью сервиса Sendsay

Электронная книга

Здравствуйте!

А с русским что? Он хотя бы выделяется?
Плагин я думаю один на всех. Но мне как-то надо было сделать реферат по математике.
Была книга в бумажном виде, была она же в формате djvu. Весь материал пришлось
или
набирать или сканировать, из djvu я так ничего и не достал, хотя упорно пытался;-).

Откуда такие сведения? Как-то не очень во все это вериться.
Проблема распознавания по-моему не из простых, так что решать ее
в рамках этих программ и накладно, да и бессмысленно как-то.
Даже FineReader не распознает безошибочно, значит из Акробата
текст тоже с ошибками копироваться будет? И почему тогда
именно спец. форматы? Берем файл любого графич. формата (.tiff, .jpg)
и пусть с него текст и распознает ;-)). Все так просто становиться.

Вот было мнение о том, что текст перед созданием .djvu уже был распознан
и потому доступен. Это гораздо больше походит на правду.

С уважением,
Дмитрий.

--
Дискуссионный лист "Электронная книга"
Модератор - Михаил Духонин <mihail_***@m*****.ru>
Перед вами 2118 выпуск листа, разошедшийся для 661 человек.
Постоянный адрес выпуска этого письма в архиве -
http://subscribe.ru/archive/lit.book.library.ebookaccess/msg/176825

-*Информационный канал Subscribe.Ru
Написать в лист: mailto:lit.book.library.ebookaccess-list@subscribe.ru
Отписать : mailto:lit.book.library.ebookaccess--unsub@subscribe.ru

http://subscribe.ru/ mailto:ask@subscribe.ru

Ответить   Wed, 23 Jun 2004 22:56:09 +0300 (#176825)

 

Ответы:

Доброй ночи, Рожанский.

Вы писали 23 июня 2004 г., 23:56:09:

Интересно, только сколько я не читал - формат дежавю не сохраняет в
своих снимках распознанный текст, для того, чтобы получить текст,
который можно переносить из приложения в приложение необходимо его
распознать, и это можно сделать, только если картинку дежавю
преобразовать в формат bmp и только потом распознать.

формат tiff наиболее точно сохраняет саму картинку, без всяких потерь
качества, что как раз и необходимо системам OCR. А для распознавания
русского языка есть языковые модули в Finereader. Они все встроены
(хотя может быть не во всех версиях).
А по поводу сохранения в формате дежавю распознанного текста - не
слышал :(

Ответить   Thu, 24 Jun 2004 00:11:30 +0400 (#176840)

 

Hello Рожанский,

Wednesday, June 23, 2004, 10:56:09 PM, you wrote:

Нет, функция выделения текста в русских документах просто становится
неактивной. Причем, это наблюдается на всех русских документах,
которые я проверял, и напротив, во всех английских документах(что я
видел) в djvu все работает отлично.

Сведения, на самом деле, исключительно из наблюдений и попыток
копировать текст, и, скорее всего, я действительно переборщил с OCR :)

Да, скорее всего, так оно и есть. И по поводу .pdf ,наверное, та же
история.

Я, кстати, наблюдал такие ошибки в Акробате. Видимо, изначально эти ошибки были
при распознавании и создании документа.

Вот есть такой очень неплохой словарь Babylon (www.babylon.com). Так
вот он точно использует OCR при захвате текста( там даже есть
регулировка оптимизации OCR), и это очень удобно для "неберущихся
слов". Весь процесс ,включая перевод, длится, как правило, не больше
секунды. Так что там распознавание работает уже давно и очень успешно.

А с .pdf и .djvu все-таки надо будет разобраться ,хотя бы в общих
чертах.

Ответить   Wed, 23 Jun 2004 23:56:27 +0300 (#176857)

 

Hello Igor,

Thursday, June 24, 2004, 2:56:27 AM, you wrote:

процесс создания djvu-файла с возможностью поиска на русском
языке описан на
http://home.farlep.net/~roman/books/djvu_ocr.html

англоязычные же djvu-файлы со встроенным распозннаным текстом
создаются с помощью "родного" ПО для создания djvu-файлов -
DjVu_Editor 4.0

И, насчет, наличия распознанного текста в djvu файлах - он может
быть а может и не быть - все зависит от желания того, кто делал
этот файл. То есть отсканированное изображение есть всегда,
а распознанный текст добавляется по желанию автора файла.

В pdf-файлах же мы имеем или текст или изображения (хотя могут
быть и экзотические варианты, когда половина страниц - текст,
другая сканы Ж-) итп).

С уважением,
Сергей Утляков.

--
Дискуссионный лист "Электронная книга"
Модератор - Михаил Духонин <mihail_***@m*****.ru>
Перед вами 2124 выпуск листа, разошедшийся для 663 человек.
Постоянный адрес выпуска этого письма в архиве -
http://subscribe.ru/archive/lit.book.library.ebookaccess/msg/176935

-*Информационный канал Subscribe.Ru
Написать в лист: mailto:lit.book.library.ebookaccess-list@subscribe.ru
Отписать : mailto:lit.book.library.ebookaccess--unsub@subscribe.ru

http://subscribe.ru/ mailto:ask@subscribe.ru

Ответить   Sergey Utlyakov Thu, 24 Jun 2004 09:33:58 +0600 (#176935)

 

Привет!

А что такое OCR?

Елена

--
Дискуссионный лист "Электронная книга"
Модератор - Михаил Духонин <mihail_***@m*****.ru>
Перед вами 2125 выпуск листа, разошедшийся для 663 человек.
Постоянный адрес выпуска этого письма в архиве -
http://subscribe.ru/archive/lit.book.library.ebookaccess/msg/176936

-*Информационный канал Subscribe.Ru
Написать в лист: mailto:lit.book.library.ebookaccess-list@subscribe.ru
Отписать : mailto:lit.book.library.ebookaccess--unsub@subscribe.ru

http://subscribe.ru/ mailto:ask@subscribe.ru

Ответить   Thu, 24 Jun 2004 07:35:41 +0400 (#176936)

 

Привет!

Елена, как было сказано выше "OCR - оптическое
распознавание ... Текста" Иными словами, это когда сканаешь книжки,
распознаешь и отправляешь в WORD/ Примерно так

--
Дискуссионный лист "Электронная книга"
Модератор - Михаил Духонин <mihail_***@m*****.ru>
Перед вами 2126 выпуск листа, разошедшийся для 663 человек.
Постоянный адрес выпуска этого письма в архиве -
http://subscribe.ru/archive/lit.book.library.ebookaccess/msg/177001

-*Информационный канал Subscribe.Ru
Написать в лист: mailto:lit.book.library.ebookaccess-list@subscribe.ru
Отписать : mailto:lit.book.library.ebookaccess--unsub@subscribe.ru

http://subscribe.ru/ mailto:ask@subscribe.ru

Ответить   Thu, 24 Jun 2004 09:32:46 +0400 (#177001)

 

Привет всем!

Спасибо. В моей голове многое прояснилось.
Кстати, попробуйте так скопировать: опция Выделить всё (Select All), потом
Ctrl+Insert (это копирование), а потом вставить в Word или ещё куда-нибудь.
Относительно обсуждаемых форматов. Получится? В моём pdf-файле это
сработало.

Елена

--
Дискуссионный лист "Электронная книга"
Модератор - Михаил Духонин <mihail_***@m*****.ru>
Перед вами 2127 выпуск листа, разошедшийся для 663 человек.
Постоянный адрес выпуска этого письма в архиве -
http://subscribe.ru/archive/lit.book.library.ebookaccess/msg/177050

-*Информационный канал Subscribe.Ru
Написать в лист: mailto:lit.book.library.ebookaccess-list@subscribe.ru
Отписать : mailto:lit.book.library.ebookaccess--unsub@subscribe.ru

http://subscribe.ru/ mailto:ask@subscribe.ru

Ответить   Thu, 24 Jun 2004 10:34:16 +0400 (#177050)