Loading...
Error

Инструкция: как сделать ВЫДЕЛЕНИЕ/КОПИРОВАНИЕ текста & ПОИСК (Ctrl+F) в PDF & DjVu (добавление OCR-слоя)

Ответить на тему

 | 

 
Автор Сообщение

Старпом

Проблема DjVu.
Иногда, читая различные электронные документы В формате DjVu нам нужно выполнить поиск по тексту, чтобы найти то, или иное слово, фразу, термин. Или же просто нам нужно выделить абзац из книги, которую читаем в формате DjVu, скопировать этот абзац в буфер и вставить на каком-нибудь форуме и прокомментировать. Но DjVu сам по себе графический формат, и его странички - это картинки, поэтому ни поиск по тексту, ни выделить и скопировать текст из DjVu в doc (Word), или txt никак не удастся.
Та же проблема в PDF.
Казалось бы, с PDF всё проще. В нём же генетически заложено и выделение/копирование текста, и поиск по тексту.
Но иногда бывают такие случаи, когда в PDF невозможно выполнить ни поиск по тексту, ни выделение/копирование текста. Это возникает в тех случаях, когда PDF создаётся не из текстовых форматов (doc, txt и др.) а из графических (tif, jpg, DjVu и др.) без помощи распознавательных программ. Так, если мы, например, с помощью ЭТОГО МАНУАЛА переконвертируем книжку из DjVu в PDF - получим совершенно непрошитый PDF-документ, в котором нельзя будет выполнить ни поиск по тексту, ни выделение/копирование текста.

В этом мануале я покажу, как прошивать электронные документы форматов DjVu & PDF.
<div class="sp-wrap"><div class="sp-body" title="Лечение DjVu">Лечение DjVu-файла (или прошивку), итогом которой станет возможность поиска по тексту + выделение/копирование текста, можно разбить на несколько этапов:

<ul>[*]Если в документе DjVu нет текстового OCR-слоя, то нам нужно его сделать - с помощью программы FineReader-7(8).

Здесь сразу замечу, что в качестве распознавателя стоит использовать именно FineReader, т.к. программа обработки рабочих проектов написана под его проекты и именно 7-ю, или 8-ю версию (за 9-ю не знаю, а 10 - точно не подходит), т.к. программа обработки оперирует с frf-шками, которые в 10-й версии, например, уже не используются.

[*]Для этого нужно переконвертировать DjVu-файл в tif-ы, например. Т.к. с ними дальше будет работать FineReader, распознавая текст.

[*]Загрузить tif-ы в FineReader и распознать в них текст. В итоге создать рабочий FineReader-проект.

<li>С помощью программы DjvuOCR обработать рабочий FineReader-проект, извлечь необходимую из него информацию и создать текстовый слой + интегрировать его в DjVu-файл.
Сейчас вылечим для наглядности одну DjVu-книжку.



  • Открываем программу DjvuOCR и выбираем "Декодирование DjVu-файла"

  • Кликаем "Добавить" и выбираем "больную" DjVu-книгу
  • Кликаем "Обзор" и выбираем директорию, куда сохраняться tif-файлы.

    Здесь стоит отметить, что в среднем, размер 1-го tif-файла будет = 3,5mb и если в вашей книжке будет, к примеру 500 страниц, то понадобиться 3,5*500=1,750Gb свободного места. Это нужно учитывать.
  • Кликаем "Обработка" , ждём.
  • Когда вылетит окошко с предложением сохранения файла проекта, кликаем "ДА", называем файл проекта и сохраняем в удобную директорию.
  • Первый этап успешно завершен



  • Открываем FineReader 7(8)

  • Далее Файл -> Открыть изображение(я) -> выбираем все наши tif-ы и добавляем их в пакет.
  • Выбираем русский язык распознавания и кликаем "распознать всё"

  • После того, как FineReader 7(8) распознал текст во всех tif-страницах, кликаем:
    ФАЙЛ -> ЗАКРЫТЬ ПАКЕТ -> СОХРАНЯЕМ И ЗАДАЁМ ЕМУ ИМЯ;

  • Далее выходим из FineReader-а и заходим в только что созданный FineReader-проект далее извлекаем из него всё содержимое (вместе со скрытыми файлами) в ту же директорию, где находится FineReader-проект. Это необходимо для того, чтобы на следующем этапе DjvuOCR смогла обработать frf-файлы.
  • Второй этап успешно завершён.



  • Запускаем DjvuOCR и выбираем "Пакетный режим OCR manager"

  • Далее кликаем "Откр. проект декодера" и добавляем созданный на первом этапе dprj-файлик.
  • Затем в настройках проставляем галочки в полях "Нормальный перенос" & "Игнорировать ошибки"
  • Потом кликаем "Обзор" и выбираем директорию, куда мы сохранили FineReader-проекта и извлекли из него frf-файлы.
  • Если мы не хотим редактировать после создания OCR-слой, то рекомендую также сразу поставить галочку в поле "Создать DJVU книги?". В таком случае OCR-слой автоматически интегрируется в DjVu-книгу.
  • Ну и последнее - кликаем "Обзор" и выбираем папку для сохранения распознаного.
  • Все остальные настройки можно оставить "как есть", если не возникает никаких проблем с масштабами и ненужными страницами...
  • Кликаем "Обработка"
  • Поздравляю! Теперь ваша DjVu-книга прошита и получила текстовый OCR-слой.



  • Открываем прошитую текстовым OCR-слоем книгу, например, с помощью программы WinDjView;
  • Переходим в "Инструменты" и ставим галочку напротив "Выделить текст":

  • Теперь мы можем с помощью появившегося курсора выделять текст и копировать его в буфер:

  • А также выполнять поиск по словам:



</li></ul></div></div>
Если у вас есть PDF-файл, который был создан, например, с помощью виртуального принтера, или конвертации графических форматов (tif, jpg, DjVu и др.) в PDF , без помощи FineReader (или других анализирующих/распознавательных программ) и вы не можете выполнять ни поиск по тексту, ни выделение/копирование текста, то вам всё-таки придётся прибегнуть к помощи FineReader (или других анализирующих/распознавательных программ) Smile

  • Открываем FineReader-10
  • Проходим по меню: ФАЙЛ -> НОВОЕ ЗАДАНИЕ

  • Далее проходим: ADOBE PDF -> КОНВЕРТИРОВАТЬ В PDF (изображение с поиском)
  • Выбираем больной PDF-файл, открываем его, проходим автоматическое распознавание.
  • Затем, после окончания распознавания нам вылетит результирующий pdf-файл, который мы сохраняем в нужной директории с помощью меню Adobe Reader: ФАЙЛ - СОХРАНИТЬ КАК...
    ГОТОВО.


Автор темы: Ndreu

blagopolluchie

Подскажите как быть с множественным поиском djvu pdf файлов, есть ли такая мини утилитка с индексацией и в ней же воспроизводить просмотр? ah
Показать сообщения:    
Ответить на тему