Loading...
Error

О проекте

Страницы:   Пред.  1, 2, 3

Ответить на тему

 | 

 
Автор Сообщение

Drunkenmunky

Всё обновил.

Hibor

простите, не понял, а в чем фишка данной раздачи? (относительно fb2-книг)
только в перепаковке в книга-архив?
какой применен алгоритм убирания дублей/мусора? простое удаление тех что Del=1 в базе? может что-то еще? (касательно fb2)

просто для своих книг (fb2 флибусты) я иду более долгим путем, но всеравно куча дублей где разница старый-новый алгоритмически не определима Sad

для примера мой подход:
1. перегоняю месячники в вид папка-месячника\отдельные файлы-книги.zip (действительно единственный способ работать с книгами без постоянной перепаковки больших архивов) и подключаю базу Флибусты (sql дампы)
2. авто проход по книгам (проверка xml;пропись данных бд в файл;определение языка; уменьшение extra-large картинок;приемлемая ansi/utf кодировка для совместимости;чистка keywords;пропись в custom инфы с библиотеки (месячник, номер, дата) и др) - тут все что можно автоматизировать для чистки, нормализации и переноса из БД в файл, потом сохранение в Zip-LZMA (MyHomeLib я переделал для поддержки)
3. Проход по таблице Joined в базе, поиск и удаление с винта книг где есть замена (наличие нового файла, в базе нет пометки Del); в список книги те что прописаны как joined с заменой, но старые не помечены как Del (таких не так много, но зато не автоудаляем лишнее), так же в список книги с пометкой Del, но отсутствующие в Joined. Проход по 2ум созданным спискам в MHL (автовыделил их через бд, а потом вручную - толлько по полной базе кажется много, а месячники быстро)
4. генерация нового inpx на основе существующих книг и внесенных изменениях

вот с пунктом 3 проблема - по сути здесь то же удаление тех что Del=1 в основной таблице, НО! таким способом остается около >5К ру-книг что помечены как удаленные, но у них нет замены (вручную проверял наличие аналога), из них только около сотни откровенный мусор

Это первое, а второе - после всех удалений по оф. базе легко обнаруживаются кучи!!! книг имеющие 2-8 дублей с вариантами:
- одинаковые, но тупо не помеченые в базе флибусты ни как Del, ни как Joined
- разные версии (напр пишущийся самиздат, или после правок, но без соблюдения id и версии)
- разные издания или, как вариант, одно издание, но различные оцифровки (с иллюстрациями/без, разные авторы док-та и т.п.)
- "сборники", которые последние годы плодятся... часто бывает лежат норм серия + трилогия+квадрология+ еще пару самодельных логий
и т.д.
часть всего этого мусор, часть должно быть в библиотеке, но под вопросом в частной коллекции, но главное - все это не автоматизируется Sad
утилиты вроде Sharp's Tools (что выводят дубли по автор+тайтл и др варианты) помогают мало, т.к. опять же четкого критерия нет (с id путаница, ни по дате, ни по версии не соориентируешься ч.б. однозначно определять).

Я свел оставшуюся чистку к помеченному авто-списку (импорт в MHL) дублей "автор-тайтл- ~размер" +"логии", по которому постепенно прохожу вручную, конечно впервую очередь то что читаю ...

Интересует: Какой вариант (алгоритм) чистки дублей применен в этих раздачах? Есть ли что-то действительно качественно новое относительно официала?

Drunkenmunky

Hibor писал(а):

Интересует: Какой вариант (алгоритм) чистки дублей применен в этих раздачах?
Всё, что в день формирования раздачи помечено в базе как "удалено" удалено.

Цитата:

Есть ли что-то действительно качественно новое относительно официала?
Есть. Раздача, изначально, задумывалась как только не-fb2, с упаковкой в один архив с файлом fbd, и добавлением обложек.
По ходу дела добавлена fb2 часть, с возможностью раздачи "выборок".
Особенность выборок в том, что можно раздавать разные наборы файлов из одной директории. Что сняло некоторую напряженность в сообществе.

Drunkenmunky

Всё обновил.
Добавил выборку "Вся проза" в четырех частях.
Кому нужно больше трекеров, их можно скопировать из свойств торрент-файла INPX, все мои раздачи идут через них.
Кому неудобно просматривать список раздач в разделе, внизу раздела есть меню выбора "упорядочить по".

Drunkenmunky

Всё обновил.

Drunkenmunky

Очередное обновление, с некоторой задержкой, по причинам технического характера - техника старенькая уже, отказывает иногда.
Напоминаю, что если кому-то нужно больше трекеров, их можно скопировать из раздачи INPX, а в следующее обновление основных раздач будут добавлены файлы за 2021 год в отдельные раздачи.
За 2020 больше обновляться не будет.

Drunkenmunky

Добавил основные раздачи за 2021 год.
Обновил выборки и INPX.

P.S. Администрация Флибусты анонсировала некие нововведения в интерфейсе и структуре библиотеки, так, что следующее обновление может быть непростым.
А может не быть.
Так, что, если что - без паники.

Drunkenmunky

Всё обновил.
Показать сообщения:    
Ответить на тему