Loading...
Error

inpx для библиотеки Flibusta "расширенный" (сортированный список) от 01.10.2017

Страницы:  1, 2, 3, 4, 5, 6, 7  След.

Ответить на тему

 | 

 
Автор Сообщение

Drunkenmunky

  Статистика:
Дамп базы выполнен: 2017-10-01 05:55:37 GMT +02:00
всего в таблице `libfilename`: 50269 записей
всего в таблице `libbook`: 481372 записей
последний добавленный BookID: 499912
Всего в архивах содержится: 458085 книг
из них в *fb2-*-*.zip: 407217
из них же в *usr-*-*.zip: 50868
1293 имен файлов не найдено в таблице libfilename, но найдено по md5.
179 BookID не найдено в таблице libbook.
27 имен файлов не упомянуто нигде.
Итого проиндексировано: 458085 - 179 - 27 = 457879 книг
 
Дамп базы выполнен: 2017-09-01 06:09:25 GMT +02:00
всего в таблице `libfilename`: 49783 записей
всего в таблице `libbook`: 479267 записей
последний добавленный BookID: 497807
Всего в архивах содержится: 456006 книг
из них в *fb2-*-*.zip: 405620
из них же в *usr-*-*.zip: 50386
1293 имен файлов не найдено в таблице libfilename, но найдено по md5.
179 BookID не найдено в таблице libbook.
27 имен файлов не упомянуто нигде.
Итого проиндексировано: 456006 - 179 - 27 = 455800 книг
  Описание раздачи:
.inpx - индексный файл для импорта\экспорта информации из базы данных библиотеки flibusta в базу каталогизатора MyHomeLib или freeLib

  Инструкция по обновлению:
1. Экспортировать пользовательские данные (Коллекция>Экспорт>Пользовательские данные)
2. Удалить старую коллекцию
3. Создать новую коллекцию, указав путь к новому .inpx
4. Импортировать пользовательские данные Коллекция>Импорт>Пользовательские данные

  О создании только FB2 и USR коллекций, или других выборок используя этот INPX:
Файл INPX - это переименованный ZIP архив содержащий текстовые таблицы в формате похожем на таблицы OpenOffice.
При необходимости, можно спокойно удалять из него всё ненужное с расширением .inp, ориентируясь по префиксам в именах файлов.
Файлы с расширением .info удалять не следует.
После создания коллекции сам файл INPX можно удалить тоже.

Начиная с 01-01-2015 файл .inpx содержит предварительно отсортированные списки книг.
Ориентируясь по именам файлов .inp вы можете удалять "ненужное". Формируя максимально удобную по вашему мнению коллекцию (или несколько коллекций, на основе одного и того же INPX).
Файлы сортируются по признакам:
1. Принадлежность к архиву FB2 или USR.
2. Язык(более ста записей в базе, иначе помещается в файл с префиксом other или empty)
3. "Удален" или нет из базы. Если да, то помечается как -del-, если нет, то как -ok-
4. Жанр. Сортируется по метажанрам. Если метажанров несколько, то эта часть имени образуется из их списка, с сортировкой по алфавиту и удалением повторов. Смотри прилагаемую таблицу метажанров, для сведения.Также метажанры дописываются в ключевые слова - иногда полезно для поиска.

Если в базе данных для книги жанр не указан, то она помещается в файл с окончанием -empty.
Если же fb2 книга вообще не упоминается в базе данных, то её описание помещается в файл fb2-BDout-books.inp
Пример.
В файле usr-ru-del-det-sf.inp содержатся индексы файлов из архивов с префиксом usr-.
На русском языке, помеченные в базе данных как "удаленные" из поиска. Детективого и одновременно фантастического жанра.

  О сериалах.
Найден способ обойти баг MHL с "многосерийностью" некоторых книг. Путем дублирования записей с занесением отдельного сериала в каждую из них.
Естественно, это увеличило количество записей(статистика MHL будет показывать большее количество книг), кроме того при импорте на устройство существует вероятность дублирования файлов(в разных сериях будет содержаться один и тот же файл). Смотри скрины ниже. Обрати внимание на одинаковые BookID
Типы сериалов помечаются особым тегом-окончанием присоединенным к названию сериала.
[a]-авторская серия
[p]-издательская
[m]-смешанная
Пример:
"Ходячие мертвецы[a]"
"Истории из морга[p]"
"Умка ищет друга[m]"

Книги имеющие в базе языковый код производный от "ru"(кг, ру и т.д.) в inp файлах приводятся к единому коду "ru".
Книги имеющие в базе языковый код производный от "uk"(ua) в inp файлах приводятся к единому коду "uk".
Книги не имеющие в базе языкового кода помещаются в файл с пометкой -empty- (как правило, они на русском языке)
Для архивированных не-fb2 файлов к названию книги в скобках добавляется их истинное расширение.
Название книги формируется путем объединения данных из ячеек Title и Title1(если не пустая, заключается в квадратные скобки) из базы данных.

  Примечание:
Файл создавался альтернативным lib2inpx-win32 способом и софтом. Возможны ошибки.
О которых просьба сообщать в комментариях.
Тестировалось на MyHomeLib 2.2.0.822

В помощь пользователю прилагается небольшой bat файл удаляющий из inpx всё лишнее в один клик.

 


Так это выглядит в стандартном INPX:
А так в расширенном:
Как видите, файлы с одинаковым BookID проиндексированы дважды(столько, сколько и серий, это не "дубль", а вынужденная мера чтобы внести сериал в базу MHL).
  P.S. Украинский файловый хостинг, на котором я размещал веб-сидов самоубился.
Не уходите с раздачи. Пока ему не найдется равноценная замена.
Download
Для скачивания .torrent файлов необходима регистрация
Сайт не распространяет и не хранит электронные версии произведений, а лишь предоставляет доступ к создаваемому пользователями каталогу ссылок на торрент-файлы, которые содержат только списки хеш-сумм

NikLeon

Drunkenmunky
Попробывал и посмотрел (FreeLib использовал), возникает вопрос. я понимаю, что это не прямая ошибка формирования inpx, а первоначальной базы.
суть вот в чем
книги с русским языком в inpx сформированы как ru, RU, кг, КГ, ру, РУ можно ли как то на уровне скрипта исправлять и привести к одному типу, а то русские книги раскинуты с префиксом как ru и other, что не всегда удобно

Drunkenmunky

>книги с русским языком в inpx сформированы как ru, RU, кг, КГ, ру, РУ можно ли как то на уровне скрипта исправлять и привести к одному типу,

Так и делается. Вроде бы.
Есть конкретный пример, что что-то пропущено?

NikLeon

Что-бы не быть голословным
файл usr-othner-books.inp
f.usr-190928-193388.zip RU (id просмотрел)
fb2-other-books.inp
180922 0 fb2 2010-02-13 3010 f.fb2-177718-183065.zip RU
260616 0 fb2 2012-01-16 1879 f.fb2-258562-263213.zip Ru
как я понимаю. там их есть еще, но они должны попасть в Inp с префиксом ru

по поводу КГ погорячился, хотя программа отбирает и такие книги, посмотрел но они inp правильно как ru, и с нормальным префиксом
возможно скрипт не обрабатывает строчные буквы

Drunkenmunky

>возможно скрипт не обрабатывает строчные буквы

Действительно.
Уже исправил.
К следующему обновлению всё будет.

NikLeon

оперативно ay , в следующий раз опять посмотрю повнимательней, тогда времени немного побольше будет

NikLeon

Вот я нашел, про что говоорил
обрабатывается и расталкивается с префексом ru но по факту в inp остается так

файл fb2-ru-books.inp
Абдуллаев,Чингиз,Акифович: detective: Золотое правило этики Дронго 0 366778 752875 366778 0 fb2 2014-06-13 1545 f.fb2-365134-368728.zip ру

Гвишиани,Джермен,Михайлович:Хачатуров,Тигран,Сергеевич:Кириченко,Вадим,Никитич: economics: Ускорение: Совершенствование методов хозяйствования 383264 1178683 383264 0 fb2 2014-11-01 274 f.fb2-382983-386286.zip кг

Ремарк,Эрих,Мария: prose_classic: Возлюби ближнего своего 384858 1209483 384858 0 fb2 2014-11-14 1677 f.fb2-382983-386286.zip кг

Drunkenmunky

>Вот я нашел, про что говоорил

Я понял о чем вы.
Не вижу большой разницы с тем что есть, но подумаю о замене.
Может так и сделаю.

NikLeon

Был очень поражен проделанной работой. ay

Потратил некоторое время вот что отловил (пользовался FreeLib 4.5)
в стандартном дампе
Алюшина,Татьяна,Александровна: love_contemporary: Риск эгоистического свойства  0 370073 841361 370073 0 fb2 2014-07-09 РУ 3 

в fb2-other-books.inp
Алюшина,Татьяна,Александровна: love_contemporary: Риск эгоистического свойства   370073 841361 370073 0 fb2 2014-07-09 1292 f.fb2-368729-372448.zip �� 3 

второй такой же глюк
автор тот же id 370080 в usr файлах (там формат mobi, а он меня не интересует поэтому плотно не смотрел)
Путь к файлу: C:/_book/Flibusta/fb2.Flibusta.Net/f.usr-368729-372448.zip
Имя файла: Tatyana Aleksandrovna Alyushina_Risk egoisticheskogo svoystva (polnaya versiya).mobi
Размер файла (архива): 857.2 МБ
Дата создания: 10.07.2014 04:26:18

Drunkenmunky

Вы правы. Пропустил.
Оказалось, что используемая для этих целей функция работает не совсем так как казалось мне.
Десяток файлов проскочило через фильтр.
Будем исправлять.

bulava74

Господа, вопрос такой: Не качать всю базу данных, а к примеру по жанрам. Возможно сие?

NikLeon

bulava74 писал(а):

Господа, вопрос такой: Не качать всю базу данных, а к примеру по жанрам. Возможно сие?
Возможно все. Например берем Multilib, формируем базу (с флибусты) отмечаем, что надо качать и вперед на скачку... с флибусты уже

Drunkenmunky

bulava74 писал(а):

Не качать всю базу данных, а к примеру по жанрам. Возможно сие?
Да запросто.
В форуме есть специальный раздел для этого. Жанровые и тематические подборки Художественной литературы
Даже если там чего-то нет, вы всегда можете попросить это раздать.

Crystal

Drunkenmunky
Спасибо Вам за проделанную работу Smile Вот попробовал создать коллекцию с использованием Вашего inpx. Удалил из него все inp, касающиеся usr, а также удалённых книг (за исключением русских). Получилось 326687 книг.
Хотелось бы отметить несколько не очень понятных для меня моментов. Во-первых, создание самой коллекции идёт, как мне кажется, заметно медленнее, чем при использовании inpx, созданного с помощью lib2inpx. Во-вторых, после завершения формирования коллекции и, в дальнейшем, при каждом переключении на неё из любой другой коллекции, начинается процесс построения списка, занимающий от полминуты до минуты. С другими коллекциями такого не происходит.

У меня MyHomeLib 2.2.0.818, программа установлена на системный SSD, да и вообще ноут довольно мощный - Core i7 2,4 ГГц, 8 Гб ОЗУ, Win 7 Ultimate x64.

Drunkenmunky

vlbeznosov писал(а):

>Получилось 326687 книг.
Это вместе с дополнительными записями. Реальное количество примерно на 4 % меньше.

Цитата:

>Во-первых, создание самой коллекции идёт, как мне кажется, заметно медленнее,

>начинается процесс построения списка, занимающий от полминуты до минуты.
Боюсь что либо утверждать, но тут всё дело, по всей видимости, в разнице структур.
Если обратили внимание, то в этом INPX имеется файлик structure.info, а в стандартном его нет.
И при создании коллекции MHL (вообще или конкретно ваша версия)при чтении строки каждый раз его запрашивает. Что при сотнях тысяч запросов дает некоторую задержку.
То же касается, вероятно, и переключения между коллекциями. На досуге попробуйте оставить коллекции созданные только на основе этого INPX.
Каким образом поведет себя MHL. Только тогда можно будет сделать какие-то выводы.
Показать сообщения:    
Ответить на тему