Loading...
Error

Распознавание документа в FineReader

Ответить на тему

 | 

 
Автор Сообщение

Старпом

Распознавание документа в FineReader


У вас есть документ в формате pdf, djvu или просто сканы? Для их распознавания удобно использовать программу FineReader.

Для работы с программой FineReader необходимо иметь MS Office Word!!!

Пару советов новичкам. В качестве примера взят FineReader 9.0.

1. Открыть документ.

Выберите документ для распознавания. ФР откроет все страницы, одновременно распознавая их.

2. Определить области распознавания.

В хороших сканах, а также во многих pdf и djvu файлах области распознавания расположены приблизительно одинаково.

Выберите наиболее характерную страницу и выделите типичную область распознавания. На странице будут и другие, ненужные нам области. Как правило, это - номер страницы, колонтитулы и пр. Удалите их, оставив только главную область распознавания.
Увеличьте её немного во все стороны, так чтобы при незначительных смещениях текста она всё равно перекрывала бы его полностью.
Конечно, кое-где придётся потом подправлять, но основная работа будет сделана.

3. Сохранить шаблон областей.

В меню "Области" выберите пункт "Сохранить шаблон областей". Дайте ему название и сохраните, находясь на той самой "типичной" странице, где вы работали с областью распознавания.

4. Применить шаблон областей.

В меню "Области" выберите пункт "Загрузить шаблон областей". Выберите сохраненный в предыдущем шаге шаблон и запустите его. Обратите внимание, чтобы в строке "Применить к" (под типом файла) было отмечено "Всем страницам".

5. Проверка областей распознавания.

Просмотрите несколько страниц, проверяя, насколько хорошо применённый шаблон перекрывает текст для распознавания. Если необходимо, повторите шаги 2-4.

6. Распознавание.

Если результат предыдущего шага вас устраивает, нажмите "Распознать документ" (Ctrl+Shift+R).

7. Вычитка.

Самый трудоемкий процесс. Опишу, как это делаю я.
Просматриваю все страницы. Листать удобно при помощи Alt+Down Arrow(стрелка вниз).
Все названия глав, цитаты, стихи, эпиграфы "отбиваю" двойной пустой строкой. Знаю, что некоторые пользуются для этого специальными знаками, как правило, не встречающимися в тексте (например, # - одиночный или двойной).
Особое внимание уделяю "неуверенно распознанным символам", которые выделяются цветовым фоном. Вношу необходимые изменения.

Кстати, сочетание клавиш вы можете выставить через меню "Сервис", пункт "Настройка". А цвета для выделения разных областей и символов - в том же меню, пункт "Опции", закладка "Вид".

Сноски в конце страницы переношу к слову, к которому они относятся, заключая их в фигурные скобки (это в дальнейшем поможет при форматировании fb2-файла).
Со сносками в конце книги приходится повозиться подольше. Как правило, они даются с указанием страницы. Копирую их все в текстовый файл и переношу по очереди к нужному месту, всё так же заключая в фигурные скобки. Удобно при этом иметь открытыми два окна рядом.

8. Чистка текста (подсказал TaKir).

Удаление лишних дефисов.

Меню "Правка", пункт "Заменить" (Ctrl+H):
В "Найти": ввести дефис и знак разрыва строки ^l (вводится при помощи выпадающего меню рядом с полем для введения)
В "Заменить на": ввести знаки мягкого переноса и разрыва строки ^-^l (вводится при помощи такого же выпадающего меню).
Поставить "галочку" в "Искать на всех страницах документа" и "Вперед".
Начать поиск с первой страницы, заменяя там, где нужно, дефис в конце строки на мягкий перенос.

Поиск склеенных абзацев.
ap
Включить "Непечатаемые символы" (для наглядности).
Поочередно пройтись по тексту, начиная с первой страницы, со следующими сочетаниями для поиска (Ctrl+F):
точка+разрыв строки
двоеточие+разрыв строки
восклицательный знак+разрыв строки
вопросительный знак+разрыв строки
точка с запятой+разрыв строки (при перечислениях)
особое внимание уделить стихам

Везде, где надо, заменить разрыв строки на новый абзац, нажав "Enter".

Настоятельно рекомендую обработать текст в MS Word на:
- пустой абзац (найти два символа конца абзаца и заменить на один символ конца абзаца, повторять поиск и замену пока не выдаст сообщение о том что выполнено 0 замен)
- пустое пространство (найти спец символ "пустое пространство" и заменить на 1 пробел)
- пробелы в начале и конце абзаца (ищем пробел+абзац или абзац+пробел и меняем на абзац)

После распознавания этого мусора может быть значительное количество. У меня иногда размер текста уменьшался на 10 - 15%.

9. Сохранить текстовый документ.

Выберите в окне "Текст" в выпадающем меню "Форматированный текст" и нажмите на стрелочку возле кнопки "Передать". Выберите там "Передать все страницы в...".
Готово!

Сохраните готовый документ.

Все дополнения и поправки к тексту благодарно принимаются.

Материал подготовлен golma1.

AlxKrzk

Спасибо!

golma1

В связи с недавно оживившейся дискуссией, заглянула в темы этого раздела. ab

Хочу предложить вниманию тех, кто пользуется актуальной версией FineReader'a (11-й), новую версию описания работы с программой (с иллюстрациями и подробным пошаговым описанием):

http://lib.rus.ec/node/416899

Вопросы можно и нужно задавать. Лучше на Либрусеке, чтобы ответы на них увидели максимальное число участников. az
Показать сообщения:    
Ответить на тему