простите, не понял, а в чем фишка данной раздачи? (относительно fb2-книг)
только в перепаковке в книга-архив?
какой применен алгоритм убирания дублей/мусора? простое удаление тех что Del=1 в базе? может что-то еще? (касательно fb2)
просто для своих книг (fb2 флибусты) я иду более долгим путем, но всеравно куча дублей где разница старый-новый алгоритмически не определима
для примера мой подход:
1. перегоняю месячники в вид папка-месячника\отдельные файлы-книги.zip (действительно единственный способ работать с книгами без постоянной перепаковки больших архивов) и подключаю базу Флибусты (sql дампы)
2. авто проход по книгам (проверка xml;пропись данных бд в файл;определение языка; уменьшение extra-large картинок;приемлемая ansi/utf кодировка для совместимости;чистка keywords;пропись в custom инфы с библиотеки (месячник, номер, дата) и др) - тут все что можно автоматизировать для чистки, нормализации и переноса из БД в файл, потом сохранение в Zip-LZMA (MyHomeLib я переделал для поддержки)
3. Проход по таблице Joined в базе, поиск и удаление с винта книг где есть замена (наличие нового файла, в базе нет пометки Del); в список книги те что прописаны как joined с заменой, но старые не помечены как Del (таких не так много, но зато не автоудаляем лишнее), так же в список книги с пометкой Del, но отсутствующие в Joined. Проход по 2ум созданным спискам в MHL (автовыделил их через бд, а потом вручную - толлько по полной базе кажется много, а месячники быстро)
4. генерация нового inpx на основе существующих книг и внесенных изменениях
вот с пунктом 3 проблема - по сути здесь то же удаление тех что Del=1 в основной таблице, НО! таким способом остается около >5К ру-книг что помечены как удаленные, но у них нет замены (вручную проверял наличие аналога), из них только около сотни откровенный мусор
Это первое, а второе - после всех удалений по оф. базе легко обнаруживаются кучи!!! книг имеющие 2-8 дублей с вариантами:
- одинаковые, но тупо не помеченые в базе флибусты ни как Del, ни как Joined
- разные версии (напр пишущийся самиздат, или после правок, но без соблюдения id и версии)
- разные издания или, как вариант, одно издание, но различные оцифровки (с иллюстрациями/без, разные авторы док-та и т.п.)
- "сборники", которые последние годы плодятся... часто бывает лежат норм серия + трилогия+квадрология+ еще пару самодельных логий
и т.д.
часть всего этого мусор, часть должно быть в библиотеке, но под вопросом в частной коллекции, но главное - все это не автоматизируется
утилиты вроде Sharp's Tools (что выводят дубли по автор+тайтл и др варианты) помогают мало, т.к. опять же четкого критерия нет (с id путаница, ни по дате, ни по версии не соориентируешься ч.б. однозначно определять).
Я свел оставшуюся чистку к помеченному авто-списку (импорт в MHL) дублей "автор-тайтл- ~размер" +"логии", по которому постепенно прохожу вручную, конечно впервую очередь то что читаю ...
Интересует: Какой вариант (алгоритм) чистки дублей применен в этих раздачах? Есть ли что-то действительно качественно новое относительно официала?