Принимаясь за новую книгу, каждый раз тратим пару вечеров на ее сканирование.
Призадумался над ускорением процедуры, почитал форумы, поискал.
Что нам понадобится:
Любой фотоаппарат с разрешение больше 8 мегапикселей, умеющий делать серийную съемку.
Такого у меня нет (есть Canon 720is), но выход прост - пойдет практически любой Canon, придется установить альтернативную прошивку CHDK
http://chdk.clan.su/ В ней уже есть простейший встроенный скрипт для интервальной съемки.
Ну а если есть желание, можно найти более мощные скрипты с блокировкой автофокусировки, отключением экрана и прочим - см. "Цейтраферная съемка" в гугле
Итак, ставим на карточку CHDK, собираем простейшее приспособление из штатива, зажима, стола и пары лампочек
запускаем скрипт интервальной съемки (выставляем кадр через 10 секунд - умельцы делают и 5 секунд)
садимся на пол, нажимаем пуск и переворачиваем по странице через 10 секунд
В результате через 15 минут имеем книгу (200 стр) в таком виде
(номера страниц я закрываю пальцами, чтобы файнридер лишнего не видел)
Перегружаем фотографии в компьютер, запускаем Finereader 10 или выше версии (с 10 есть специальная поддержка фотоснимков)
Выбираем Другие - Открыть - загружаем страницы, поставив галочку в "Делить разворот книги"
Через 20 минут имеем распознанную книгу.
Пример не очень удачный, в этой книге есть картинки, поэтому нужно пройтись и точно выделить картинки.
Попутно делаем черновую правку текста.
Это еще 15 минут.
Далее Сохранить HTM - как простой текст
Имеем на выходе 1 файл .htm и директорию с картинками
Картинки в любом графическом просмотрщике/редакторе, имеющем пакетную обработку, осветляем и масштабируем по ширине до 600 пикселей.
5 минут
Запускаем Fictionbook Editor и делаем .fb2
http://code.google.com/p/fictionbookeditor/ http://code.google.com/p/fictionbookeditor/downloads/list (там есть список новых жанров с Либрусека и словари проверки орфографии)
Пользователям Windows Vista и Windows 7 нужно дополнительно установить пакет MSXML 4.0 перед установкой FBE. Последнюю версию (SP3) можно скачать отсюда:
http://download.microsoft.com/download/A/2/D/A2D8587D-0027-4217-9DAD-38AFDB0A177E/msxml.msi MSXML 6.0 не годится, нужна именно четвертая версия.
Это руководство по FBE
http://ww35.flibusta.net/b/247723 Вставляем текст, обработанные картинки, вычитываем и проверяем.
Сохраняем в .fb2
Времени здесь может уйти сколько угодно, у меня ушло примерно 2 часа.
Итого результат (затрачено примерно 3 часа, включая фотографирование и вычитку - обложка и картинки тоже сфотографированные):
http://www.onlinedisk.ru/file/960999/ В архиве 2 файла - один в .fb2 (сделал я его для примера), другой - в .djvu, я его делал года 2 назад (сканировал, и убил точно пару дней), но сейчас бы постыдился такое выкладывать
Оба примерно одного размера
Но, вот интересно о распознавании....
На читалке fb2 читать приятно, спору нет. Нужен он и только он.
Но на компьютере нераспознанный djvu мне читать приятнее.... И чувство книги как-то присутствует...