Автор |
Сообщение |
Старпом
|
Проблема DjVu. Иногда, читая различные электронные документы В формате DjVu нам нужно выполнить поиск по тексту, чтобы найти то, или иное слово, фразу, термин. Или же просто нам нужно выделить абзац из книги, которую читаем в формате DjVu, скопировать этот абзац в буфер и вставить на каком-нибудь форуме и прокомментировать. Но DjVu сам по себе графический формат, и его странички - это картинки, поэтому ни поиск по тексту, ни выделить и скопировать текст из DjVu в doc (Word), или txt никак не удастся.
Та же проблема в PDF. Казалось бы, с PDF всё проще. В нём же генетически заложено и выделение/копирование текста, и поиск по тексту. Но иногда бывают такие случаи, когда в PDF невозможно выполнить ни поиск по тексту, ни выделение/копирование текста. Это возникает в тех случаях, когда PDF создаётся не из текстовых форматов (doc, txt и др.) а из графических (tif, jpg, DjVu и др.) без помощи распознавательных программ. Так, если мы, например, с помощью ЭТОГО МАНУАЛА переконвертируем книжку из DjVu в PDF - получим совершенно непрошитый PDF-документ, в котором нельзя будет выполнить ни поиск по тексту, ни выделение/копирование текста.
В этом мануале я покажу, как прошивать электронные документы форматов DjVu & PDF.
<div class="sp-wrap"><div class="sp-body" title="Лечение DjVu"> Лечение DjVu-файла (или прошивку), итогом которой станет возможность поиска по тексту + выделение/копирование текста, можно разбить на несколько этапов: <ul>[*] Если в документе DjVu нет текстового OCR-слоя, то нам нужно его сделать - с помощью программы FineReader-7(8). Здесь сразу замечу, что в качестве распознавателя стоит использовать именно FineReader, т.к. программа обработки рабочих проектов написана под его проекты и именно 7-ю, или 8-ю версию (за 9-ю не знаю, а 10 - точно не подходит), т.к. программа обработки оперирует с frf-шками, которые в 10-й версии, например, уже не используются. [*] Для этого нужно переконвертировать DjVu-файл в tif-ы, например. Т.к. с ними дальше будет работать FineReader, распознавая текст. [*] Загрузить tif-ы в FineReader и распознать в них текст. В итоге создать рабочий FineReader-проект. <li> С помощью программы DjvuOCR обработать рабочий FineReader-проект, извлечь необходимую из него информацию и создать текстовый слой + интегрировать его в DjVu-файл.Сейчас вылечим для наглядности одну DjVu-книжку.
- Открываем программу DjvuOCR и выбираем "Декодирование DjVu-файла"
- Кликаем "Добавить" и выбираем "больную" DjVu-книгу
- Кликаем "Обзор" и выбираем директорию, куда сохраняться tif-файлы.
Здесь стоит отметить, что в среднем, размер 1-го tif-файла будет = 3,5mb и если в вашей книжке будет, к примеру 500 страниц, то понадобиться 3,5*500=1,750Gb свободного места. Это нужно учитывать.
- Кликаем "Обработка" , ждём.
- Когда вылетит окошко с предложением сохранения файла проекта, кликаем "ДА", называем файл проекта и сохраняем в удобную директорию.
- Первый этап успешно завершен
- Открываем FineReader 7(8)
- Далее Файл -> Открыть изображение(я) -> выбираем все наши tif-ы и добавляем их в пакет.
- Выбираем русский язык распознавания и кликаем "распознать всё"
- После того, как FineReader 7(8) распознал текст во всех tif-страницах, кликаем: ФАЙЛ -> ЗАКРЫТЬ ПАКЕТ -> СОХРАНЯЕМ И ЗАДАЁМ ЕМУ ИМЯ;
- Далее выходим из FineReader-а и заходим в только что созданный FineReader-проект далее извлекаем из него всё содержимое (вместе со скрытыми файлами) в ту же директорию, где находится FineReader-проект. Это необходимо для того, чтобы на следующем этапе DjvuOCR смогла обработать frf-файлы.
- Второй этап успешно завершён.
- Запускаем DjvuOCR и выбираем "Пакетный режим OCR manager"
- Далее кликаем "Откр. проект декодера" и добавляем созданный на первом этапе dprj-файлик.
- Затем в настройках проставляем галочки в полях "Нормальный перенос" & "Игнорировать ошибки"
- Потом кликаем "Обзор" и выбираем директорию, куда мы сохранили FineReader-проекта и извлекли из него frf-файлы.
- Если мы не хотим редактировать после создания OCR-слой, то рекомендую также сразу поставить галочку в поле "Создать DJVU книги?". В таком случае OCR-слой автоматически интегрируется в DjVu-книгу.
- Ну и последнее - кликаем "Обзор" и выбираем папку для сохранения распознаного.
- Все остальные настройки можно оставить "как есть", если не возникает никаких проблем с масштабами и ненужными страницами...
- Кликаем "Обработка"
- Поздравляю! Теперь ваша DjVu-книга прошита и получила текстовый OCR-слой.
- Открываем прошитую текстовым OCR-слоем книгу, например, с помощью программы WinDjView;
- Переходим в "Инструменты" и ставим галочку напротив "Выделить текст":
- Теперь мы можем с помощью появившегося курсора выделять текст и копировать его в буфер:
- А также выполнять поиск по словам:
</li></ul></div></div>
Если у вас есть PDF-файл, который был создан, например, с помощью виртуального принтера, или конвертации графических форматов (tif, jpg, DjVu и др.) в PDF , без помощи FineReader (или других анализирующих/распознавательных программ) и вы не можете выполнять ни поиск по тексту, ни выделение/копирование текста, то вам всё-таки придётся прибегнуть к помощи FineReader (или других анализирующих/распознавательных программ) - Открываем FineReader-10
- Проходим по меню: ФАЙЛ -> НОВОЕ ЗАДАНИЕ
- Далее проходим: ADOBE PDF -> КОНВЕРТИРОВАТЬ В PDF (изображение с поиском)
- Выбираем больной PDF-файл, открываем его, проходим автоматическое распознавание.
- Затем, после окончания распознавания нам вылетит результирующий pdf-файл, который мы сохраняем в нужной директории с помощью меню Adobe Reader: ФАЙЛ - СОХРАНИТЬ КАК...
ГОТОВО. Автор темы: Ndreu
|
|
blagopolluchie
|
Подскажите как быть с множественным поиском djvu pdf файлов, есть ли такая мини утилитка с индексацией и в ней же воспроизводить просмотр?
|
|
|