Loading...

Error

Главная· Трекер· Поиск· RSS· Правила· FAQ· Группы· Пользователи · «Буквица»

Регистрация · · Забыли пароль?

Инструкция: как сделать ВЫДЕЛЕНИЕ/КОПИРОВАНИЕ текста & ПОИСК (Ctrl+F) в PDF & DjVu (добавление OCR-слоя)

Ответить на тему

Главная » Вопросы по трекеру » Правила, FAQ'и, инструкции » Помощь в создании эл. книг

|

Автор	Сообщение
Старпом	Проблема DjVu. Иногда, читая различные электронные документы В формате DjVu нам нужно выполнить поиск по тексту, чтобы найти то, или иное слово, фразу, термин. Или же просто нам нужно выделить абзац из книги, которую читаем в формате DjVu, скопировать этот абзац в буфер и вставить на каком-нибудь форуме и прокомментировать. Но DjVu сам по себе графический формат, и его странички - это картинки, поэтому ни поиск по тексту, ни выделить и скопировать текст из DjVu в doc (Word), или txt никак не удастся. Та же проблема в PDF. Казалось бы, с PDF всё проще. В нём же генетически заложено и выделение/копирование текста, и поиск по тексту. Но иногда бывают такие случаи, когда в PDF невозможно выполнить ни поиск по тексту, ни выделение/копирование текста. Это возникает в тех случаях, когда PDF создаётся не из текстовых форматов (doc, txt и др.) а из графических (tif, jpg, DjVu и др.) без помощи распознавательных программ. Так, если мы, например, с помощью ЭТОГО МАНУАЛА переконвертируем книжку из DjVu в PDF - получим совершенно непрошитый PDF-документ, в котором нельзя будет выполнить ни поиск по тексту, ни выделение/копирование текста. В этом мануале я покажу, как прошивать электронные документы форматов DjVu & PDF. <div class="sp-wrap"><div class="sp-body" title="Лечение DjVu">Лечение DjVu-файла (или прошивку), итогом которой станет возможность поиска по тексту + выделение/копирование текста, можно разбить на несколько этапов: <ul>[]Если в документе DjVu нет текстового OCR-слоя, то нам нужно его сделать - с помощью программы FineReader-7(8). Здесь сразу замечу, что в качестве распознавателя стоит использовать именно FineReader, т.к. программа обработки рабочих проектов написана под его проекты и именно 7-ю, или 8-ю версию (за 9-ю не знаю, а 10 - точно не подходит), т.к. программа обработки оперирует с frf-шками, которые в 10-й версии, например, уже не используются. []Для этого нужно переконвертировать DjVu-файл в tif-ы, например. Т.к. с ними дальше будет работать FineReader, распознавая текст. []Загрузить tif-ы в FineReader и распознать в них текст. В итоге создать рабочий FineReader-проект. <li>С помощью программы DjvuOCR обработать рабочий FineReader-проект, извлечь необходимую из него информацию и создать текстовый слой + интегрировать его в DjVu-файл. Сейчас вылечим для наглядности одну DjVu-книжку. Открываем программу DjvuOCR и выбираем "Декодирование DjVu-файла" Кликаем "Добавить" и выбираем "больную" DjVu-книгу Кликаем "Обзор" и выбираем директорию, куда сохраняться tif-файлы. Здесь стоит отметить, что в среднем, размер 1-го tif-файла будет = 3,5mb и если в вашей книжке будет, к примеру 500 страниц, то понадобиться 3,5500=1,750Gb свободного места. Это нужно учитывать. Кликаем "Обработка" , ждём. Когда вылетит окошко с предложением сохранения файла проекта, кликаем "ДА", называем файл проекта и сохраняем в удобную директорию. Первый этап успешно завершен Открываем FineReader 7(8) Далее Файл -> Открыть изображение(я) -> выбираем все наши tif-ы и добавляем их в пакет. Выбираем русский язык распознавания и кликаем "распознать всё" После того, как FineReader 7(8) распознал текст во всех tif-страницах, кликаем: ФАЙЛ -> ЗАКРЫТЬ ПАКЕТ -> СОХРАНЯЕМ И ЗАДАЁМ ЕМУ ИМЯ; Далее выходим из FineReader-а и заходим в только что созданный FineReader-проект далее извлекаем из него всё содержимое (вместе со скрытыми файлами) в ту же директорию, где находится FineReader-проект. Это необходимо для того, чтобы на следующем этапе DjvuOCR смогла обработать frf-файлы. Второй этап успешно завершён. Запускаем DjvuOCR и выбираем "Пакетный режим OCR manager" Далее кликаем "Откр. проект декодера" и добавляем созданный на первом этапе dprj-файлик. Затем в настройках проставляем галочки в полях "Нормальный перенос" & "Игнорировать ошибки" Потом кликаем "Обзор" и выбираем директорию, куда мы сохранили FineReader-проекта и извлекли из него frf-файлы. Если мы не хотим редактировать после создания OCR-слой, то рекомендую также сразу поставить галочку в поле "Создать DJVU книги?". В таком случае OCR-слой автоматически интегрируется в DjVu-книгу. Ну и последнее - кликаем "Обзор" и выбираем папку для сохранения распознаного. Все остальные настройки можно оставить "как есть", если не возникает никаких проблем с масштабами и ненужными страницами... Кликаем "Обработка" Поздравляю! Теперь ваша DjVu-книга прошита и получила текстовый OCR-слой. Открываем прошитую текстовым OCR-слоем книгу, например, с помощью программы WinDjView; Переходим в "Инструменты" и ставим галочку напротив "Выделить текст": Теперь мы можем с помощью появившегося курсора выделять текст и копировать его в буфер: А также выполнять поиск по словам: </li></ul></div></div> Если у вас есть PDF-файл, который был создан, например, с помощью виртуального принтера, или конвертации графических форматов (tif, jpg, DjVu и др.) в PDF , без помощи FineReader (или других анализирующих/распознавательных программ) и вы не можете выполнять ни поиск по тексту, ни выделение/копирование текста, то вам всё-таки придётся прибегнуть к помощи FineReader (или других анализирующих/распознавательных программ) Открываем FineReader-10 Проходим по меню: ФАЙЛ -> НОВОЕ ЗАДАНИЕ Далее проходим: ADOBE PDF -> КОНВЕРТИРОВАТЬ В PDF (изображение с поиском) Выбираем больной PDF-файл, открываем его, проходим автоматическое распознавание. Затем, после окончания распознавания нам вылетит результирующий pdf-файл, который мы сохраняем в нужной директории с помощью меню Adobe Reader: ФАЙЛ - СОХРАНИТЬ КАК... ГОТОВО. Автор темы: Ndreu

blagopolluchie	Подскажите как быть с множественным поиском djvu pdf файлов, есть ли такая мини утилитка с индексацией и в ней же воспроизводить просмотр?

Страница 1 из 1

Ответить на тему

Главная » Вопросы по трекеру » Правила, FAQ'и, инструкции » Помощь в создании эл. книг

Пользовательское Соглашение | Для правообладателей

Powered by TorrentPier © Meithar, RoadTrain, Pandora
Based on phpBB © phpBB Group