Loading...
Error

Дополнение №42 и корректировка №37 к библиотеке FIDONET до состояния на 1 мая 2016г

Страницы:   Пред.  1, 2, 3, 4, 5, 6, 7  След.

Ответить на тему

 | 

 
Автор Сообщение

Krutass

По Аналогу Либрусека с Автором/Названием на русском(кириллица)
Все-таки, Можно ли сделать Библиотеку «аналог Либрусека» с Автором/Названием на русском(кириллица)?
т.е. в inp-файле (Поле FILE по классификации из structure.info) допустимо использовать кириллицу, хотя бы с фильтрацией спецсимволов?
Библиотека Траума же использует… или в случае «Либрусека» включаются фильтры, которые ПОЛНОСТЬЮ фильтруют, запрещают, «экранируют» кириллицу в поле FILE?
Почему Кореец перешел на номера вместо Автора/Названия? На форуме он утверждал, что это было решение Ларина(это владелец Либрусека?), и что он типа «устал бороться со спецсимволами в Названиях»… это так, или отмазка для «монополии» MyHomeLib над Либрусеком/Флибустой?... хз…
Какие РЕАЛЬНЫЕ проблемы с кириллицей в названиях файлов:
- проблема с переносом книг Библиотеки на устройства(электронные книги, планшеты), которые не поддерживают кириллицу в названиях?
- проблема со старыми системами Windows и не-Windows?
- можно этого избежать, или «номерной» системы в названиях книг нет альтернативы?

По жанрам.
Можно придумать свою Систему Жанров, но КТО будет раскидывать книги по жанрам? Это ж адова работа, тем более по Технической литературе... Никто из любителей с этим не справится, а «Траумы» вымирают как динозавры…
Та система жанров, что слепили для беллетристики в Либрусеке.. ребятам памятник надо поставить, но для технической литературы это не походит…
В данном случае, Классификация по ББК / УДК просто безальтернативна:
Открываешь 2-ю страницу любой книги, находишь 6 цифр ББК, забиваешь их в Базу, - и книга уходит в нужный раздел. С этим любой справится.
Классификация по жанрам – тяжкий труд, даже в типографиях до 3-5 % ошибок при назначении ББК / УДК
ИМХО, оптимальный вариант - просто ввести в genres_fb2.glst ББК и УДК, и при
Но вот будет ли работать эта адская «смесь бульдога с носорогом» ac
Может быть, файл genres_fb2.glst вообще проверяется по хэшу при использовании Библиотеки Либрусек/Флибуста/Траум и тем самым защищен от любых изменений?
Тогда кисло…
Кстати, просто «пришить» номера к системе жанров Либрусека нельзя из-за несовместимости ББК и УДК

По хэшу MD5 и как (ИМХО) построить работу
Идентификация файла по хэшу MD5 (ИМХО) – если только на 4-м этапе… пока преждевременно.
Кстати, все хэши необходимо перепроверить, т.к. хз, кто когда и как намерял….
По идее, надо начинать с проверенных, рабочих вариантов:

1. Заполнить файл жанров данными из ББК/УДК и потом Сделать Библиотеку по «варианту А для чайников» Преимущество: относительно быстрое наполнение Базы (10-20 секунд на книгу с жанрами).
Проблемы: надо сразу определиться с кириллицей и спецсимволами в названиях, и какой файл жанров использовать для построения ББК/УДК, т.е. переименовать genres_fb2.glst(испольуется в Либрусеке) в genres_nonfb2.glst(используется в Пользовательской библиотеке) и работать с ним, или использовать «из коробки» genres_nonfb2.glst
И с какой кодировкой, UTF-8(без BOM) или UTF-8

2. После введения в Базу 500-1000 книг, сделать INPX(Коллекция-Экспорт –INPX) и Конвертировать(как? ac ) INPX «варианта А для чайников» в INPX пополняемого «Вариант Б Либрусковский» с кириллицей в названиях файлов(очень желательно).

3. После создания полного INPX и увязки Каталога с 50…100 архивами по 1000…500 книг в каждом, уже можно будет программой(хз какой ab ) пройтись по всем Архивам, вычислить md5 каждого файла, сделать общую базу по md5
4. Под вопросом:
Конвертировать INPX пополняемого «Вариант Б Либрусковский» в INPX пополняемого «Вариант С с идентификацией книг по MD5»... ИМХО - тут масса подводных камней.

Drunkenmunky

Цитата:

Можно ли сделать Библиотеку «аналог Либрусека» с Автором/Названием на русском(кириллица)?
Да. Об этом и речь.

Цитата:

inp-файле (Поле FILE по классификации из structure.info) допустимо использовать кириллицу, хотя бы с фильтрацией спецсимволов?
Да, почему нет. Важно чтобы файловая система понимала что вы там пишете.

Цитата:

Почему Кореец перешел на номера вместо Автора/Названия? На форуме он утверждал, что это было решение Ларина(это владелец Либрусека?),
Скорее всего потому, что Либрусек перестал выкладывать ежедневные обновления.
Ребята которые выкладывают ежемесячные, качают книги в розницу. Вероятно им так удобнее.

Цитата:

и что он типа «устал бороться со спецсимволами в Названиях»…
Есть такая проблема, да. Насчет "устал" врет. Как не работало, так и не работает.

Цитата:

Какие РЕАЛЬНЫЕ проблемы с кириллицей в названиях файлов:
- проблема с переносом книг Библиотеки на устройства(электронные книги, планшеты), которые не поддерживают кириллицу в названиях?
Никаких проблем с кириллицей в названиях файлов. В настройках MHL "папки\устройства>формат имени" можно установить транслит.

Цитата:

Можно придумать свою Систему Жанров, но КТО будет раскидывать книги по жанрам?
Вы не читаете, что я пишу, да?
Хоумлаб загружают на Либген. На Либгене своя система обозначений жанров.
Указываю жанры там конечно не всегда. Но это лучше, чем ничего.

Цитата:

И с какой кодировкой, UTF-8(без BOM) или UTF-8
Без разницы

Drunkenmunky

Цитата:

все хэши необходимо перепроверить, т.к. хз, кто когда и как намерял….
Не надо
Тех раздачи, где отсутствует .md5, прежде чем вычислять хэши, лучше перехэшировать торрент клиентом.

Drunkenmunky

Цитата:

Кстати, просто «пришить» номера к системе жанров Либрусека нельзя из-за несовместимости ББК и УДК
Оно не так работает.
Там может быть любой набор любых слов, главное что бы он соответствовал таковому в списке жанров.
Можете это даже ББК назвать, или как угодно.

Вроде на все вопросы ответил.
Если не на все - много букв. И посторонней информации.

Krutass

Угу.. а как с реальным конвертером "Пользовательского" INPX(или, хотя бы .inp) в "Либрусековский" INPX с возможностью пополнения Библиотеки и работы с архивами, как у Либрусека? или там вручную, EXCELем переделывать надо?

Drunkenmunky

"Реальным"?

Krutass

хотеть не вредно ah

Drunkenmunky

Я сделаю готовый к использованию INPX.
Если захотите редактировать созданную на его основе коллекцию, то в файле collection.info замените код блокировки на 0.

Krutass

[quote="Drunkenmunky"]

Цитата:

Цитата:

и что он типа «устал бороться со спецсимволами в Названиях»…
Есть такая проблема, да. Насчет "устал" врет. Как не работало, так и не работает.
Нддааа.. хорошо еще Кореец успел(пока он не стер все посты) сообщить, что в файле жанров можно использовать точку, дефис и кириллицу, но нельзя кавычки
Хороший такой геморрой, зато бесплатно...

Drunkenmunky писал(а):

Я сделаю готовый к использованию INPX.
Если захотите редактировать созданную на его основе коллекцию, то в файле collection.info замените код блокировки на 0.
Супер... ab
А что мне делать, сделать все хеши?
На винчестерах место есть, могу сбросить все файлы(300Gb) в одну папку и обработать вашей программой для получения всех хэшей.. кстати, там и мусора хватает, например в одной - двух раздачах каждый файл имеет свой "спутник" размером 1-20 kb (т.е. всего 200-400 файликов) - хз для чего... + в каждой раздаче 1-3 служебных файлов от 2kb до 6 Mb, всего порядка 800 файлов.
Но привязка к именам файлов - засада... У половины файлов(раздачи 0-183 из 407) надо менять имена файлов на русские при создании Базы "Пользователя" и затем "Либрусековской"... Может, потом, после переименования?
Кстати, я сбросил вам все хэши, что были в раздачах, но у них даже русские имена перекодированы в латиницу - геморрой с переприсвоением, если вручную, лично я ab за это не возьмусь...

Krutass

Так, вроде прикрутил 2 новых раздела ББК и УДК к файлу жанров genres_fb2.glst , проверил с Библиотеками Либрусека(900Gb) и Траума(160Gb) – вроде не конфликтует… уже легче…
#---- Список жанров fb2 ------------------
0.1 Фантастика (Научная фантастика и Фэнтези)
0.2 Детективы и Триллеры
0.3 Проза
0.4 Любовные романы
0.5 Приключения
0.6 Детское
0.7 Поэзия, Драматургия
0.8 Старинное
0.9 Наука, Образование
0.10 Компьютеры и Интернет
0.11 Справочная литература
0.12 Документальная литература
0.13 Религия и духовность
0.14 Юмор
0.15 Домоводство (Дом и семья)
0.16 Деловая литература
0.17 Ноты и партитуры
0.18 Техника
0.19 Периодика
0.20 Фольклор
0.21 Прочее
0.50 ББК
0.51 УДК
Надеюсь, не будет ошибкой нарушение нумерации: после 0.21 Прочее 0.50 ББК ?
Перерыв – на случай, если Либрусек подключит новые жанры.
Там очередная засада от Корейца:
Его Редактор Жанров MHLGenreEditor.exe редактирует только genres_nonfb2.glst, а если ему подсунуть genres_fb2.glst, то он его после редактирования все равно сохраняет как genres_nonfb2.glst ... и к тому же портит нумерацию, если пользоваться стрелками "Вверх" и "Вниз".
Пришлось после редактирования самому перенести строки ББК и УДК из genres_nonfb2.glst в genres_fb2.glst
genres_fb2.glst
https://yadi.sk/d/NscgSWVxsGNUR

Drunkenmunky

Цитата:

А что мне делать, сделать все хеши?
В раздачах, где нет файлов .md5.
Если в их содержимом не было изменений.
Если же изменения были, то с помощью мюТоррента поставить их на раздачу, в случае необходимости "обновить хэш"(из контекстного меню мюТоррента).
И только потом посчитать md5 сохранив их в отдельный файл.
Еще раз даю список отсутствующих у меня md5
000-080
169
170-223
224
231
246
250
253
266
271
282
283
298
328-385

Drunkenmunky

Промежуточный результат во вложении.
Неструктурированная INP таблица.
Для раздач 400-402.
Раздачи 403 и выше на ЛибГен похоже ещё не загружены, но некоторые книги в базе присутствуют.
В CSV таблице не найденные в базе книги.Возможно, что они заменены на лучшие копии, соответственно с другим md5 хэшем.

regidrer

Может пригодиться -
вот список книг из раздач ХЛ 404-407,вошедшие в ЛГ

Drunkenmunky

regidrer писал(а):

Может пригодиться -
вот список книг из раздач ХЛ 404-407,вошедшие в ЛГ.
Да, они индексируются. Но нет метки Хоумлиба. То есть эти раздачи на ЛибГен ещё не заливались. Надо подождать. Или загружать самому - я не в курсе как это там происходит.

Цитата:

(Своеобразный фильтр, чтобы художка не заливалась в билиотеку, но вмести с ними и часть научной и популярной литературы не попадает в ЛГ )
Это пока не важно. Сейчас нужно решить ряд вопросов по выдаче из базы Либгена.

Krutass

Эээ.. inp-файл это конечно… тока поле жанров там пустое, таки в Технической Библиотеке и ищешь книги по тематике, на крайняк по ключевым словам/Автору а не по ISBN или MD5… и формат «нелибрусековский»… это из Генезиса?
А можешь сделать INPX и парочку zip-архивов в "стандарте Либрусека" ab (хотя бы по 4-5 книг), чтобы это принял стандартный MyHomeLib 2.2 ? ah Образцы для создания 2-х zip-архивов от раздач Homelab для MyHomeLib в Приложении... да, крайне желательно для проверки при занесении книг в Базу добавить книги в любой раздел "жанры", подраздел "ББК", файл жанров genres_fb2.glst тоже в Приложении.

MD5 тех раздач, где не было md5-файла, делаю прогой Arpoon Checksum 1.6, только это не быстро… перед тем, как ковыряться с раздачами надо сделать дубль.
Вчера полтора часа набивал файл жанров ББК,(файл genres_fb2.glst) сделал только "Естественные науки" дело муторное легкое но противное, прога MHLGenreEditor.exe от Корейца глючит, промежуточный результат в Приложении.
https://yadi.sk/d/ttynkBmGsHPwi
Показать сообщения:    
Ответить на тему