Loading...
Error

inpx для библиотеки Flibusta "расширенный" (сортированный список) от 01.09.2019

Страницы:   Пред.  1, 2, 3, 4, 5, 6, 7, 8, 9, 10  След.

Ответить на тему

 | 

 
Автор Сообщение

TI_Eugene

bort707 писал(а):

Drunkenmunky
отличные индексы. спасибо!

Вот еще кто-нибудь бы взялся перепаковать сами архивы с книгами ровно таким же образом, чтобы можно было скачивать библиотеку по языкам и темам. Собственно, задача-то несложная - по готовым inp файлам из Вашей раздачи...
Вообще лучше не по inp, а по прямо базам.

NikLeon

bort707 писал(а):

Drunkenmunky
отличные индексы. спасибо!

Вот еще кто-нибудь бы взялся перепаковать сами архивы с книгами ровно таким же образом, чтобы можно было скачивать библиотеку по языкам и темам. Собственно, задача-то несложная - по готовым inp файлам из Вашей раздачи...
А в чем проблема самостоятельно это сделать

что-то примерно так
for %%i in (*fb2*.zip) do 7z d %%i @Files-del.txt

а в файле files-del.txt список файлов которые надо удалить, только надо понимать, что библиотека будет несовместима с текущей

TI_Eugene

NikLeon писал(а):

bort707 писал(а):

Drunkenmunky
отличные индексы. спасибо!

Вот еще кто-нибудь бы взялся перепаковать сами архивы с книгами ровно таким же образом, чтобы можно было скачивать библиотеку по языкам и темам. Собственно, задача-то несложная - по готовым inp файлам из Вашей раздачи...
А в чем проблема самостоятельно это сделать

что-то примерно так
for %%i in (*fb2*.zip) do 7z d %%i @Files-del.txt

а в файле files-del.txt список файлов которые надо удалить, только надо понимать, что библиотека будет несовместима с текущей
Скорее всего проблема в том, что файлы архивов трогать не надо.
Это - торренты, их проще перезакачать, чем в них ковыряться.

NikLeon

TI_Eugene писал(а):

Это - торренты, их проще перезакачать, чем в них ковыряться.
Про это и речь, создастся большая куча библиотек, потом кому-то потребуется исключительно UTF-8, кому-то только cp1221 (сейчас они в библиотеки в куче)
будет такой кавардак, сползем с ума с этими библиотеками разбираться

bort707

NikLeon писал(а):



А в чем проблема самостоятельно это сделать
Да ни в чем - в базах понимаю, MySQL есть.
Проблема одна - для этого надо сначала выкачать ВСЕ 350 гигов, с моим каналом я базу буду полгода качать Sad

То, что это станет несовместимо для обновлений - это понятно, но я сомневаюсь, что все прям каждый месяц качают обновления.
Я вот прошлый раз Либрусек качал лет восемь назад, тогда база всего 10-15 гиг была.
Счас бы тоже скачал из Флибусты только нужное - условно гиг 30 - хватило бы лет на 10.
Уверен, что я не один такой.

NikLeon

bort707 писал(а):



То, что это станет несовместимо для обновлений - это понятно, но я сомневаюсь, что все прям каждый месяц качают обновления.
Я вот прошлый раз Либрусек качал лет восемь назад, тогда база всего 10-15 гиг была.
Счас бы тоже скачал из Флибусты только нужное - условно гиг 30 - хватило бы лет на 10.
Уверен, что я не один такой.
я лично новые файлы скачиваю каждый месяц.
Пробывал когда-то оптимизировать базу оставить только русский язык результат сжатия максимум составил порядка 5-10%, отказ от UTF-8 вполне возможно дал бы еще процентов 10 уменьшения базы.

TI_Eugene

NikLeon писал(а):

TI_Eugene писал(а):

Это - торренты, их проще перезакачать, чем в них ковыряться.
Про это и речь, создастся большая куча библиотек, потом кому-то потребуется исключительно UTF-8, кому-то только cp1221 (сейчас они в библиотеки в куче)
будет такой кавардак, сползем с ума с этими библиотеками разбираться
Хотите поучаствовать - you're welcome: https://github.com/tieugene/fb2libre
В частности: https://github.com/tieugene/fb2libre/blob/master/_misc_/002-sql.py
На втором этапе (это который сейчас) базы либрусека и флибусты приводятся в человеческий вид.
Следующий этап - перегонка базы из... мнэ... текущего варианта в нормальный.
Потом - исследования, объединение баз и всё такое.

В итоге эта хрень должна отдавать книги из обеих баз "как есть", но с возможными патчами (да, меня тоже бесят cp1251 и UTF-16 по-микрософтовски")

TI_Eugene

bort707 писал(а):

NikLeon писал(а):



А в чем проблема самостоятельно это сделать
Да ни в чем - в базах понимаю, MySQL есть.
Проблема одна - для этого надо сначала выкачать ВСЕ 350 гигов, с моим каналом я базу буду полгода качать Sad

То, что это станет несовместимо для обновлений - это понятно, но я сомневаюсь, что все прям каждый месяц качают обновления.
Я вот прошлый раз Либрусек качал лет восемь назад, тогда база всего 10-15 гиг была.
Счас бы тоже скачал из Флибусты только нужное - условно гиг 30 - хватило бы лет на 10.
Уверен, что я не один такой.
Я планирую сделать зеркала либрусека и флибусты (зеркала _файлов_ (из торрентов), а не морд).
И напустить на них свою морду.
В итоге - вы будете качать их файлы (но не с них, а с более других источников) - но морда будет другая.
Проще, быстрее, без рекламы и смс.
Правда - только для своих ога.

NikLeon

TI_Eugene писал(а):

Хотите поучаствовать - you're welcome: https://github.com/tieugene/fb2libre
В частности: https://github.com/tieugene/fb2libre/blob/master/_misc_/002-sql.py
На втором этапе (это который сейчас) базы либрусека и флибусты приводятся в человеческий вид.
Следующий этап - перегонка базы из... мнэ... текущего варианта в нормальный.
Потом - исследования, объединение баз и всё такое.

В итоге эта хрень должна отдавать книги из обеих баз "как есть", но с возможными патчами (да, меня тоже бесят cp1251 и UTF-16 по-микрософтовски")
К сожалению я Вам не помошник, знания питона =0, да и последний раз я программировал в СУБД Advanced Revelation, так что только подсобным рабочим

bort707

NikLeon писал(а):

Пробывал когда-то оптимизировать базу оставить только русский язык результат сжатия максимум составил порядка 5-10%,
Если честно, совершенно непонятно, откуда такие зверские объемы
Вот я внимательно смотрю мою коллекцию Либрусека 8-10 летней давности.

Формат FB2.zip
Число файлов - около 120 тыс
Размер - примерно 9.8 гиг
То есть где-то 12 тыс файлов в Гиге

Теперь смотрим на раздачу Флибусты в FB2 выше - примерно 400 тыс книг
Соответственно, объем архива должен быть 35 Г. Ну пусть 40
Но он "весит" 150?

За счет чего разница в плотности почти вчетверо?

Drunkenmunky

bort707 писал(а):

Счас бы тоже скачал из Флибусты только нужное - условно гиг 30 - хватило бы лет на 10.
Вы неверно представляете себе то, чем мы здесь занимаемся.
Как бы, возможно, пафосно это не звучало, мы сохраняем наследие.
Сохраняем на случай катаклизмов, блокировок, обрушений серверов, физического уничтожения датацентров и прочих враждебных действий или стихийных бедствий.
Сохраняем в полном объеме, и в том виде в котором оно нам досталось.
Тем не менее, я давно уже подумываю сделать несколько жанровых выборок и выложить их в соответствующем разделе.
Останавливает только гипотетически небольшое, по моим оценкам, количество их возможных пользователей.
Предлагаю вам создать тему с голосованием, обсуждением, с пожеланиями, советами и т.д.
Если количество ваших единомышленников будет убедительным, то обещаю этим, как минимум единоразово, заняться.

NikLeon

[quote="bort707"]

NikLeon писал(а):

bort707 писал(а):

Пробывал когда-то оптимизировать базу оставить только русский язык результат сжатия максимум составил порядка 5-10%,
Если честно, совершенно непонятно, откуда такие зверские объемы
Вот я внимательно смотрю мою коллекцию Либрусека 8-10 летней давности.

Формат FB2.zip
Число файлов - около 120 тыс
Размер - примерно 9.8 гиг
То есть где-то 12 тыс файлов в Гиге

Теперь смотрим на раздачу Флибусты в FB2 выше - примерно 400 тыс книг
Соответственно, объем архива должен быть 35 Г. Ну пусть 40
Но он "весит" 150?

За счет чего разница в плотности почти вчетверо?
Самое простое - добавили обложки (картинки как не говори весят много)
кодировка вместо ср1251 стали чаще применять UTF (а это приводи к увеличению файла в 2 раза сразу)

TI_Eugene

Drunkenmunky писал(а):

наследие.
Да, уважаемые.
Есть такая хренотень.
Эта хрень позволяет запускать 1С 7.7 в Win8 и всё такое.
Терять - нельзя. Ни байта. Чего бы это ни стоило.

TI_Eugene

NikLeon писал(а):

TI_Eugene писал(а):

Хотите поучаствовать - you're welcome: https://github.com/tieugene/fb2libre
В частности: https://github.com/tieugene/fb2libre/blob/master/_misc_/002-sql.py
На втором этапе (это который сейчас) базы либрусека и флибусты приводятся в человеческий вид.
Следующий этап - перегонка базы из... мнэ... текущего варианта в нормальный.
Потом - исследования, объединение баз и всё такое.

В итоге эта хрень должна отдавать книги из обеих баз "как есть", но с возможными патчами (да, меня тоже бесят cp1251 и UTF-16 по-микрософтовски")
К сожалению я Вам не помошник, знания питона =0, да и последний раз я программировал в СУБД Advanced Revelation, так что только подсобным рабочим
Тащемта здесь нужно знание не питона, а SQL (а сейчас - MySQL).
Делать вычурные запросы к кривым базам.
Это 95% работы.

bort707

NikLeon писал(а):

Самое простое - добавили обложки (картинки ка не говори весят много)
У меня тоже большинство книг с обложками.

[добавлено] - нет, вру, обложек почти нет
Да, если еще и кодировка - вот уже и наберется в 4 раза

Думаю, если бы кто перепаковал в соответствии с категориями, как в этой раздаче, да удалил обложки - этакая "лайт-версия" - раздача имела бы большой успех.
А обновлять можно раз в год, хорошие книжки выходят редко, все хорошее написано 10-20-100 лет назад Smile
Показать сообщения:    
Ответить на тему