Loading...
Error

Дополнение №42 и корректировка №37 к библиотеке FIDONET до состояния на 1 мая 2016г

Страницы:   Пред.  1, 2, 3, 4, 5, 6, 7  След.

Ответить на тему

 | 

 
Автор Сообщение

Krutass

gav-m писал(а):

Как я вас понимаю.... Определение жанров оказалась для меня, например, задачей близкой к неразрешимой. В библиотеке ФИДОНЕТ в жанрах бардак
У меня 0701 специальность... ab студентом во времена СССР часть жизни прошла среди пыльных каталогов библиотек
Кстати, если сейчас программы раскидывают книги по жанрам(по ключевым словам в Названии, по Автору), то пусть и закидывают в стандартные разделы УДК и ББК… Зачем лишний огород городить с "жанрами"… ab
а то сделали, блин, 20 сортов Фантастики... в наше время был 3 вида фантастики - Американская, Стругацкие и все остальное... хватало.

Krutass

Так.. оказывается, MyHomeLib может работать с zip-файлами в режиме Пользователя... ab
1. Создать Библиотеку из не-архивных файлов
2. Создать(Экспорт) INPX
3. Архивировать каждый файл Библиотеки (zip - архивы)
4. Разархивировать INPX, открыть inp-файл и в 6-м поле каждой строки к имени файла добавить .zip
Например:
было: Попов А.Н., Шимко В.Т. Польза, прочность, красота
стало: Попов А.Н., Шимко В.Т. Польза, прочность, красота.zip
5. Архивировать INPX

Можно то же самое, еще быстрее и проще: при создании Библиотеки поставить галку на "Конвертировать в FBD", потом создать INPX, потом выкинуть из всех полученных архивов файлы с расширением .fbd

... А если теперь имена архивов заменить последовательными номерами и привязать к BookID, при этом оригинальное имя файла внутри архива не менять... интересно, такое возможно?
ab

Drunkenmunky

Во вложении тестовый inpx и список жанров.
Используется папка 299
Как пользоваться безопасно для других не-fb2 коллекций использующих свои списки жанров:
1. Запустить MHL
2. Зайти в папку с установленным MHL
3. Переименовать в ней файл genres_nonfb2.glst (например в "old-genres_nonfb2.glst")
4. Распаковать в эту же папку файл .glst из архива, переименовать его в genres_nonfb2.glst
5. Запустить "Мастер создания коллекций"
6. После создания коллекции, старому файлу списка жанров вернуть его название, удалив новый.

Выложено для тестирования работоспособности списка жанров и списка авторов (пока грубо обработанных).

Krutass

Нуу.. как сказать…
Слабоватая классификация.
Например, Считаете, что Религии – это только Буддизм, Православие и Кабалистика?
На Вас сильно обидятся Католики, которые совместно с Протестантами и Православными составляют часть Христианства, не говоря о 1,5 млрд Мусульман и прорвы китайцев (Конфуцианство)… ab
Остальное не лучше..
таки Классификация - удел изрядного количества профессионалов достаточно широкого профиля, ну и проверка временем

Drunkenmunky

Цитата:

Например, Считаете, что Религии
Вообще ничего не "считаю".
Как обозначено в "Библиотеке Генезис", так и индексируется.

regidrer

Drunkenmunky
Спасибо! Работает!

Krutass
Про проблемы рубрикации, я писал выше. Генезис имеет корни от колхоза, а колхозный народ, как правило, математики и физики. По-этому классификация в лг по математике, физике и, с оговорками, по информатике и программированию на высоком уровне. Все остальное воспринималась, как гуманитарное. Отсюда и фен-шуй в медицине ab или естествознание в биологии, а философию вообще с трудом найдешь. Решение там сейчас найдено - облако тегов, но, кому-то надо заполнять описание 1.5М книг ac.
А homelab в основном содержит книги колхозного плана, по-этому либгеновская классификация подходящий вариант

Drunkenmunky
А нет ли в вас идеи(теоретически), как прикрутить MyHomeLab к этой коллекции viewforum.php?f=1860 IRC bookz (English). Практически все книги, кроме последних обновлений входят в раздел лг http://libgen.io/foreignfiction/ Library Genesis: Fiction . Т.е. данные можно взять из базы, а также извлечь метаданные из самих книг. Возможно ли сделать вообще сделать inpx. Я пытался сделать коллекции в мултилиб, но прога не поддерживает структуру базы foreignfiction

Krutass

regidrer писал(а):

Drunkenmunky
Спасибо! Работает!
Krutass
А homelab в основном содержит книги колхозного плана, по-этому либгеновская классификация подходящий вариант
Нее, не согласен
Библиотека «Колхоз» – это МехМат МГУ, для «белой кости» для 0,01-0.5% населения... которые уже сушат сухари за рубежом ab
А HomeLib – это в основном Техническая и Научно-популярная лит-ра для 20-50% тех, кто умеет читать. Маленько устарела, но сойдет.
По классификации
2-х уровневая система классификации(что у Либрусека, что у Генезиса) для Технической литературы это лучше чем ничего, но крайне мало для Библиотеки 10Tb у Генезиса… и даже для 300Gb у HomeLib это не айс.

Хмм. Сейчас смотрю INPX от Либрусека – там оказывается collection.info в формате UNIX (!!) (в конце строки нет символа”CR”, есть только символ "LF" )
Однако хитрец этот Кореец… ag

Drunkenmunky

regidrer писал(а):

Drunkenmunky
А нет ли в вас идеи(теоретически), как прикрутить MyHomeLab к этой коллекции viewforum.php?f=1860 IRC bookz (English). Практически все книги, кроме последних обновлений входят в раздел лг http://libgen.io/foreignfiction/ Library Genesis: Fiction . Т.е. данные можно взять из базы, а также извлечь метаданные из самих книг. Возможно ли сделать вообще сделать inpx. Я пытался сделать коллекции в мултилиб, но прога не поддерживает структуру базы foreignfiction
Принцип составления кастомного INPX везде один и тот же.
Есть набор файлов, данные о которых можно найти в некоей базе, по некоему признаку.
То ли по ID, который совпадает с именем файла(как в Либрусеке/Флибусте)
То ли по уникальным вычисляемым хэшам которые должны присутствовать в этой некоей базе.
Если файлы хранятся в архивах, то для получения хэшей типа md5 их придется распаковывать на диск, что весьма ресурсоёмко.
За исключением crc32 который можно получить архиватором без лишних телодвижений.
В Либгене, например, имя файла совпадает с его md5, но без расширения это может стать проблемой для нормальной работы MHL.
Дальше дело за обработкой этих данных и составлением из них структурированной для MHL строки файла INP. Что может быть непростой задачей, как в случае с Хоумлаб, колонка "авторы" дается очень непросто.
Как-то так.

Krutass

Drunkenmunky писал(а):

Во вложении тестовый inpx и список жанров.
Используется папка 299
Как пользоваться безопасно для других не-fb2 коллекций использующих свои списки жанров:
1. Запустить MHL
2. Зайти в папку с установленным MHL
3. Переименовать в ней файл genres_nonfb2.glst (например в "old-genres_nonfb2.glst")
4. Распаковать в эту же папку файл .glst из архива, переименовать его в genres_nonfb2.glst
5. Запустить "Мастер создания коллекций"
6. После создания коллекции, старому файлу списка жанров вернуть его название, удалив новый.

Выложено для тестирования работоспособности списка жанров и списка авторов (пока грубо обработанных).
Attachment

inpx_n_glst.zip (15,04 KB, Скачано: 3 раз)
download.php?id=68031

Тестовые INPX и GLST
Эээ.... В отличии от Библиотек Либрусека и Пользователя, в строках вашего inp-файла нет поля SERNO (номер в серии), соответственно и строки inp-файла содержат 14 полей вместо 15
В реальности «Номер в серии» – это, к примеру, № журнала.
Достаточно удобно для Пользователя.
Соответственно, в MyHomeLib Библиотеке поле «№» будет незаполнено.
С чем связано такое «усечение формата»?

Drunkenmunky

Цитата:

в строках вашего inp-файла нет поля SERNO
Номера серии в базе Либгена нет.
Так что в INP он лишняя ячейка. Однако MHL в своей базе создаст его вне зависимости от.

Krutass

[quote="Drunkenmunky"]

regidrer писал(а):

Drunkenmunky

Принцип составления кастомного INPX везде один и тот же.
Есть набор файлов, данные о которых можно найти в некоей базе, по некоему признаку.
То ли по ID, который совпадает с именем файла(как в Либрусеке/Флибусте)
То ли по уникальным вычисляемым хэшам которые должны присутствовать в этой некоей базе.
Если файлы хранятся в архивах, то для получения хэшей типа md5 их придется распаковывать на диск, что весьма ресурсоёмко.
За исключением crc32 который можно получить архиватором без лишних телодвижений.
В Либгене, например, имя файла совпадает с его md5, но без расширения это может стать проблемой для нормальной работы MHL.
Дальше дело за обработкой этих данных и составлением из них структурированной для MHL строки файла INP. Что может быть непростой задачей, как в случае с Хоумлаб, колонка "авторы" дается очень непросто.
Как-то так..
А разве в Базе ЛибГена Авторы и Название не разделены?
И второй вопрос: Если мы жестко привязываемся к ЛибГену, тогда и идентификатор файла BookID у нас обязательно должен быль ЛибГен-овский, иначе будут дубли? т.е. мы не в праве самостоятельно добавлять книги в Библиотеку, вначале ЛибГен должен их принять и назначить свой номер BookID?

Я, как только скачал HomeLib, сразу решил разбить текст в общем txt-Каталоге разделителями-TAB-ми между Автором и Названием, и пропустить через EXCEL, но у 30% -40% книг больше одного Автора, потом выяснилась заморочка с Жанрами,...
Потом выяснилось, что быстрее и проще сразу вводить в MyHomeLib Автора(Авторов), Название, Жанры, чем все это делать по-отдельности…

Если для всех книг уже есть классификатор ЛибГен, можно будет просто добавить классификаторы ББК и УДК в классификатор ЛибГен, с уже готовыми жанрами.
А уже потом для каждой книги, постепенно добавлять параллельную классификацию по ББК и УДК, одновременно корректируя INPX. Быстро это не будет.

Но классификация(и не только) слетит 100%, если СРАЗУ не определиться со структурой Библиотеки.
- Будет это Библиотека с «Либрусековским» набором, раздаваемая zip-архивами по 100-500-1000 книг(пополняемая Библиотека, с защитой от редактирования, использует для жанров genres_fb2.glst, в поле «GENRE» inp-файла записан код жанра)
- Или это будет Библиотека, раздаваемая одним iso-файлом (не пополняемая Библиотека без защиты от редактирования, использует для жанров genres_nonfb2.glst, в поле «GENRE» inp-файла записан номер жанра)
Лучше сразу НАЧИНАТЬ делать хорошо, чтоб народ поддержал на раздачах.
Перекачивать по нескольку раз 300Gb... гмм.. народ не поймет ac

Drunkenmunky

Цитата:

Если для всех книг уже есть классификатор ЛибГен, можно будет просто добавить классификаторы ББК и УДК в классификатор ЛибГен, с уже готовыми жанрами.
Именно это я и предлагал вам сделать. То что вы называете "классификатор ЛибГен" хранится в таблице "topics" которую я раз пять наверное предлагал вам открыть.
Если б вы прочитали внимательно те две-три строки моих комментариев, а не занимались ораторским искусством, INPX был бы уже готов.
Касаемо всего остального, я уже отвечал. Но вы ж не читали.

Krutass

Я все читал.
Вы не даете ответа на главный вопрос - как будет раздаваться Библиотека?
одним iso-файлом в 300Gb, как у Траума, или zip-архивами по 4-10Gb, как у Либрусека?
Существующий вариант 400 CD-раздач по 700Mb уже изжил себя. Там на раздачах от 1 до 7 энтузиастов, все на ниточке висит. Даже если добавить INPX, ситуация с раздающими не исправиться.
Если сразу не определиться со структурой, жанры "отвалятся" и уйдут в "несортированное"

Drunkenmunky

Цитата:

Вы не даете ответа на главный вопрос - как будет раздаваться Библиотека?
Как я уже и писал, ничего перекачивать не надо.

Цитата:

Там на раздачах от 1 до 7 энтузиастов,
Этого вполне достаточно. Ещё есть DHT.
Либген раздается точно так же. Постоянно кто-то на раздаче.
К тому же, после того как всем этим можно будет пользоваться через каталогизатор, количество пользователей несомненно увеличится. Не сразу конечно.

Krutass

Drunkenmunky писал(а):

Цитата:

Вы не даете ответа на главный вопрос - как будет раздаваться Библиотека?
Как я уже и писал, ничего перекачивать не надо.
то есть 400 CD-раздач по 700Mb ac
При том, что пользование Библиотекой MyHomeLib в предлагаемом вами варианте просто опасно для неквалифицированного пользователя, т.к. доступен режим "Редактирование" с искажением информации о книге и возможно уничтожение книжных файлов ac
Мда. Ваше упорство достойно восхищения ab
Показать сообщения:    
Ответить на тему