Информация для размышления:
Я посмотрел, если это не гугль-буксы (которые изначально в PDF), а сканы с книг или микрофиш, то после исходных сканов (они нам совсем не нужны) следующий "исходный" формат там -
jp2 (предположительно, как единый формат для дальнейшей работы).
Но он с мин. сжатием. т.е. огромного размера (1 стр=200-400кб). Мне кажется, есть смысл брать jp2 и делать из них свой djvu или pdf.
Пример - книга ~140стр. 400 dpi, мой djvu (из jpeg 50%) "фото" -
13 мб. "скан" - то что лежит у них
3,5 мб. knigasmiekhaiumo00averuoft.djvu :
3662626 knigasmiekhaiumo00averuoft.pdf : 5352078 (неплохой в данном случае, хотя внутри jp2)
knigasmiekhaiumo00averuoft_bw.pdf : 5035901
knigasmiekhaiumo00averuoft_flippy.zip : 4370917 (???)
knigasmiekhaiumo00averuoft_jp2.zip :
24048833 knigasmiekhaiumo00averuoft_raw_jp2.zip : 42819511
scandata.zip : 45038092