Не поверил цифре 99,9% совпадений Либрусека и Флибусты. Напоминаю одно из прошлых сообщений:
Распаковал Либрусековские архивы каждый в свою папку
usr-172703-182284.zip
usr-182285-187147.zip
usr-187148-193822.zip
usr-193823-199572.zip
usr-199573-204903.zip
usr-204904-209028.zip
usr-209029-213000.zip
и сравнивал с архивами Флибусты распаковаными по очереди в соседнюю папку
f.usr-173909-177717.zip
f.usr-177718-183065.zip
f.usr-183066-183652.zip
f.usr-183654-185837.zip
f.usr-185838-188548.zip
f.usr-188549-190927.zip
f.usr-190928-193388.zip
f.usr-193389-195713.zip (изменил название, было f.usr-193389-195730.zip)
Если книги в папке Флибусты имели дубли хоть с одной из 7 папок Либрусека, удалял из Флибусты книгу и перепаковывал архив Флибусты уже без дублей.
До После
f.usr-173909-177717.zip - 471 351
f.usr-177718-183065.zip - 351 238
f.usr-183066-183652.zip - 86 66
f.usr-183654-185837.zip - 348 278
f.usr-185838-188548.zip - 482 426
f.usr-188549-190927.zip - 376 339
f.usr-190928-193388.zip - 277 241
f.usr-193389-195730.zip - 700 697
Общий размер 1-7 архивов - 11,8 Гб 10,9Гб
Общий размер 1-8 архивов - 13,8Гб 12,8Гб
Теперь проверил fb2 книги. Либрусек ID от 172703 до 299999 по оф. архивам. Вышло 19 архивов и 62639 книг. Флибуста ID от 173909 до 234884 по оф. архивам и сборкам от $Luc$ (удалил болгарскую добавку в Флибусту). Вышло 19 архивов и 44480 книг.
После сравнения осталось 8168 книг Флибусты, не имеющих дублей в Либрусеке. Сравнение проводил по размеру. После уточнения осталось 8129 книг Флибусты и 90 дублей в архивах Либрусека. Если считать после расхождения, получим 8129*100/(62639+44480)=7,58%.
Если сюда добавить расхождения в usr архивах, получим, возможно, больше 10% расхождений.
Возможно, на уровне базы данных таких расхождений меньше. Тем не менее, вместо 16,6 Гб получилось 3,46 на fb2 книгах Флибусты.
Так что отнюдь не лишне отказываться от агрегации. А если вспомнить сборку Траума, где отличий с Либрусеком в usr архивах ещё больше, положение с агрегацией становится более чем насущным.
Если есть возможность, сделайте своеобразное подведение итогов по этим трём библиотекам на 1 октября-декабря с.г., когда успеете. К тому времени, думаю, работа над этой коллекцией завершится, и перед очередным глобальным проектом выпуск дополнения к Либрусеку в виде нескольких архивов из Флибусты, не вошедших в него, будет воспринят на ура. С Траумом сложнее, но тоже достойная задача.
Как продвигается работа над проверкой полноты этой раздачи? Судя по молчанию, дело остановилось?