Loading...

Error

Главная· Трекер· Поиск· RSS· Правила· FAQ· Группы· Пользователи · «Буквица»

Регистрация · · Забыли пароль?

Распознавание документа в FineReader

Ответить на тему

Главная » Вопросы по трекеру » Правила, FAQ'и, инструкции » Помощь в создании эл. книг

|

Автор	Сообщение
Старпом	Распознавание документа в FineReader У вас есть документ в формате pdf, djvu или просто сканы? Для их распознавания удобно использовать программу FineReader. Для работы с программой FineReader необходимо иметь MS Office Word!!! Пару советов новичкам. В качестве примера взят FineReader 9.0. 1. Открыть документ. Выберите документ для распознавания. ФР откроет все страницы, одновременно распознавая их. 2. Определить области распознавания. В хороших сканах, а также во многих pdf и djvu файлах области распознавания расположены приблизительно одинаково. Выберите наиболее характерную страницу и выделите типичную область распознавания. На странице будут и другие, ненужные нам области. Как правило, это - номер страницы, колонтитулы и пр. Удалите их, оставив только главную область распознавания. Увеличьте её немного во все стороны, так чтобы при незначительных смещениях текста она всё равно перекрывала бы его полностью. Конечно, кое-где придётся потом подправлять, но основная работа будет сделана. 3. Сохранить шаблон областей. В меню "Области" выберите пункт "Сохранить шаблон областей". Дайте ему название и сохраните, находясь на той самой "типичной" странице, где вы работали с областью распознавания. 4. Применить шаблон областей. В меню "Области" выберите пункт "Загрузить шаблон областей". Выберите сохраненный в предыдущем шаге шаблон и запустите его. Обратите внимание, чтобы в строке "Применить к" (под типом файла) было отмечено "Всем страницам". 5. Проверка областей распознавания. Просмотрите несколько страниц, проверяя, насколько хорошо применённый шаблон перекрывает текст для распознавания. Если необходимо, повторите шаги 2-4. 6. Распознавание. Если результат предыдущего шага вас устраивает, нажмите "Распознать документ" (Ctrl+Shift+R). 7. Вычитка. Самый трудоемкий процесс. Опишу, как это делаю я. Просматриваю все страницы. Листать удобно при помощи Alt+Down Arrow(стрелка вниз). Все названия глав, цитаты, стихи, эпиграфы "отбиваю" двойной пустой строкой. Знаю, что некоторые пользуются для этого специальными знаками, как правило, не встречающимися в тексте (например, # - одиночный или двойной). Особое внимание уделяю "неуверенно распознанным символам", которые выделяются цветовым фоном. Вношу необходимые изменения. Кстати, сочетание клавиш вы можете выставить через меню "Сервис", пункт "Настройка". А цвета для выделения разных областей и символов - в том же меню, пункт "Опции", закладка "Вид". Сноски в конце страницы переношу к слову, к которому они относятся, заключая их в фигурные скобки (это в дальнейшем поможет при форматировании fb2-файла). Со сносками в конце книги приходится повозиться подольше. Как правило, они даются с указанием страницы. Копирую их все в текстовый файл и переношу по очереди к нужному месту, всё так же заключая в фигурные скобки. Удобно при этом иметь открытыми два окна рядом. 8. Чистка текста (подсказал TaKir). Удаление лишних дефисов. Меню "Правка", пункт "Заменить" (Ctrl+H): В "Найти": ввести дефис и знак разрыва строки ^l (вводится при помощи выпадающего меню рядом с полем для введения) В "Заменить на": ввести знаки мягкого переноса и разрыва строки ^-^l (вводится при помощи такого же выпадающего меню). Поставить "галочку" в "Искать на всех страницах документа" и "Вперед". Начать поиск с первой страницы, заменяя там, где нужно, дефис в конце строки на мягкий перенос. Поиск склеенных абзацев. Включить "Непечатаемые символы" (для наглядности). Поочередно пройтись по тексту, начиная с первой страницы, со следующими сочетаниями для поиска (Ctrl+F): точка+разрыв строки двоеточие+разрыв строки восклицательный знак+разрыв строки вопросительный знак+разрыв строки точка с запятой+разрыв строки (при перечислениях) особое внимание уделить стихам Везде, где надо, заменить разрыв строки на новый абзац, нажав "Enter". Настоятельно рекомендую обработать текст в MS Word на: - пустой абзац (найти два символа конца абзаца и заменить на один символ конца абзаца, повторять поиск и замену пока не выдаст сообщение о том что выполнено 0 замен) - пустое пространство (найти спец символ "пустое пространство" и заменить на 1 пробел) - пробелы в начале и конце абзаца (ищем пробел+абзац или абзац+пробел и меняем на абзац) После распознавания этого мусора может быть значительное количество. У меня иногда размер текста уменьшался на 10 - 15%. 9. Сохранить текстовый документ. Выберите в окне "Текст" в выпадающем меню "Форматированный текст" и нажмите на стрелочку возле кнопки "Передать". Выберите там "Передать все страницы в...". Готово! Сохраните готовый документ. Все дополнения и поправки к тексту благодарно принимаются. Материал подготовлен golma1.

AlxKrzk	Спасибо!
	Спасибо!
golma1	В связи с недавно оживившейся дискуссией, заглянула в темы этого раздела. Хочу предложить вниманию тех, кто пользуется актуальной версией FineReader'a (11-й), новую версию описания работы с программой (с иллюстрациями и подробным пошаговым описанием): http://lib.rus.ec/node/416899 Вопросы можно и нужно задавать. Лучше на Либрусеке, чтобы ответы на них увидели максимальное число участников.

Страница 1 из 1

Ответить на тему

Главная » Вопросы по трекеру » Правила, FAQ'и, инструкции » Помощь в создании эл. книг

Пользовательское Соглашение | Для правообладателей

Powered by TorrentPier © Meithar, RoadTrain, Pandora
Based on phpBB © phpBB Group