Страницы: Пред. 1, 2, 3 ... 6, 7, 8, 9, 10, 11 След.
Автор |
Сообщение |
gav-m
|
Alex1 писал(а): В нескольких журналах на третьем уровне только "прочее". Для них третий уровень не нужен. Периодические издания-Книжное обозрение-Книжное обозрение. Прочие статьи можно сократить до двух уровней Периодические издания-Книжное обозрение то же с: Красная Бурда Внутренняя информационная сводка КЛФ МГУ OldNews Курьер SF Если я понимаю правильно... Для этого в файле жанров нужно 1. Для соответствующего фидо-жанра в поле D нарисовать нужный жанр. Пример для Книжного обозрения: 5;30;201;0.15.30;Книжное обозрение 2. удалить поле D для ставших неакутальными записей: 5;30;;;удалено Alex1 писал(а): Повторять на третьем уровне журналов название второго полностью нет смысла. Или сократить, или убрать. "Естественные науки и производство" при повторе сдвинули далеко вправо названия отраслей. То же и с: /* SKIPPED */ Может сократить все добавки длиннее 10 букв? В главном окне в колонке жанров из-за этого тоже не удобно. Не видно, чем заканчивается строчка. Если нужно у одного автора выбрать определённый жанр, приходится менять размер колонок или группировать по алфавиту. Предлагаю полностью переписать все текстовки в поле E как будет удобно. С учетом что изображаться будет один-в-один. Что там будет написано то и уйдет в файл описания жанров. Изменения коснутся только MHL но не файловой структуры. Alex1 писал(а): В "неизвестен автор" затесались "Искусство рисования и живописи" 71 выпуск. Возможно, подобные сборки для папок стоит отнести и к периодике тоже? Возможно. Посоветуюсь с Вячеславом. Alex1 писал(а): В катеогрии "Общественно-политические" набрались экземпляры "Художественная галерея". Глюк. Перенес все в жанр "Картинки и фотографии / Искусство / Альбомы" как и было задумано. Alex1 писал(а): Скорее всего остатки "работ по ликвидации обрывков и чистке мусора" неизвестен автор. В помощь радиолюбителю (Выпуск 01, 1956) имеет авторов. SQL> select count(*) from bookl join ab on book_id=book where author=1 and bookdesc like 'В помощь радиолюбителю%'; COUNT(*) ---------- 109 Открыть 109 документов, вытащить оттуда имя автора. Кто займется? Alex1 писал(а): неизвестен автор. Советы и подсказки (программирование, ж.CHIP 01 2005) Нужно заводить нового автора. Требуется согласование. Alex1 писал(а): неизвестен автор. Советы со всего света (Моделист-Конструктор N 6 1990) неизвестен автор. Советы со всего света (Моделист-конструктор) неизвестен автор. Советы, идеи, рецепты (ж.Сделай Сам, N 2 1991, WinWord) авторы - название журналов Журнал Автобус перенести с Весёлых картинок в детские журналы. Журнал Слово попал в авторы Техники молодежи за 1940г. Спасибо за наводку. Поработал с ними. В следующем апдейте будет результат. А вообще - это капля в море оставшихся глюков Alex1 писал(а): Обнаружил странность или особенность, не знаю. Все авторы журналов дублирубтся под решёткой и под своей буквой. Т.е. ('Вокруг света' Журнал) можно найти по ('Во) в букве В и под решеткой тоже. Не знаю, это сказывается на статистике или нет. Если это кого-то смутит, можно название журнала брать в скобки а не в кавычки. Возможно это особенности MHL. Статистика с последним апдейтом: SQL> select count(distinct book_id) "BOOKS", count(distinct f.fname) "FILES" from bookl join fb f using(book_id) join catalog c on f.fname=c.fname where torrent is not null; BOOKS FILES ---------- ---------- 132824 133059 В одном файле может быть несколько книг, одна книга может иметь несколько файлов. SQL> select count(distinct author) "AUTHORS" from ab join fb on book=book_id join catalog using(fname) where torrent is not null; AUTHORS ---------- 37439 Alex1 писал(а): Вообще, если есть возможность, добавьте в периодику на второй уровень "прочее" или "остальное". Это проще, чем переделывать список журналов, что-то удаляя а что-то добавляя. Существуют же в переодических изданиях на втором уровне: •Общественно-политические •Детские журналы •Юмористические журналы •Юридические журналы •Художественно-литературные журналы - достаточная замена "остальному" на большинство случаев жизни. Alex1 писал(а): Судя по тому, что предложения касаются базы ФИДО, с inpx и жанрами вопросов не осталось ;) Надо быстренько перед следующим апдейтам сделать красивый и удачный файл соответствия жанров, дабы можно было выпустить его с учетом всех предложений. ;)
|
|
gav-m
|
Если до сегодняшнего вечера не будет предложен вариант файла соответствия жанров с запрошенными изменениями (изменения кодов жанров и текста в названии жанров) то завтра я сгенерирую апдейт без учета этих изменений.
|
|
Alex1
|
Вышел в интернет только сегодня. Что-то новое может быть не раньше, чем через 2 недели
|
|
Michel-F
|
gav-m писал(а): Разобрал архивы, результат в .CSV файле http://tinyurl.com/3ocrm7e Сводная таблица по типам файлов: application/msaccess 2 application/msword 4765 application/octet-stream 4072 application/pdf 1711 application/postscript 2 application/x-arj 325 application/x-dosexec 335 application/x-gzip 4 application/x-lha lh5 2 application/x-rar 90 application/x-shockwave-flash 3 application/x-zip 413 application/x-123 9 audio/midi 1 audio/x-wav 1 image/gif 33829 image/jpeg 37190 image/tiff 2450 image/x.djvu 14365 image/x-ms-bmp 199 image/x-3ds 477 message/news 5 message/rfc822 145 message/rfc822 7bit 39 text/directory 1969 text/html 12418 text/PGP armored data 2 text/plain 253440 text/plain 8bit 2 text/rtf 677 text/xml 9230 x-system/x-unix; commands text 18 x-system/x-unix; empty 11 33 строк выбрано. Из замеченых проблем - .png файлы определились как application/octet-stream, .dat файлы программы библиотекаря booklib как video/unknown. PS: Может, стоит перебраться сюда viewtopic.php?t=8347 ? Надо бы определиться с вопросами и форматом до генерации следующего апдейта. 33 типа файлов - это уже лучше. Мои предложения - создать доп. таблицу с типом файла / индексом доступа к файлу в архиве со структурой, о которой говорил ранее. Типы расширений можно привести по разобранному: application/msaccess 2[tab]Оставить архив application/msword 4765[tab]doc application/pdf 1711[tab]pdf application/postscript 2[tab]ps application/x-arj 325[tab]Оставить архив application/x-dosexec 335[tab]Оставить архив application/x-gzip 4[tab]Оставить архив application/x-lha lh5 2[tab]Оставить архив application/x-rar 90[tab]Оставить архив application/x-shockwave-flash 3[tab]Оставить архив? (swf) application/x-zip 413[tab]Оставить архив audio/midi 1[tab]Оставить архив audio/x-wav 1[tab]Оставить архив image/gif 33829[tab]gif, если единственный файл; иначе пропускать image/jpeg 37190[tab]jpg, если единственный файл; иначе пропускать image/tiff 2450[tab]tif, если единственный файл; иначе пропускать image/x.djvu 14365[tab]djvu image/x-ms-bmp 199[tab]bmp, если единственный файл; иначе пропускать image/x-3ds 477[tab]Оставить архив text/html 12418[tab]Оставить архив text/PGP armored data 2[tab]Оставить архив text/plain 253440[tab]txt text/plain 8bit 2[tab]txt text/rtf 677[tab]rtf text/xml 9230[tab]xml/Оставить архив(пмсм, предпочтительнее)? x-system/x-unix; commands text 18[tab]Оставить архив И кстати, что обозначают типы application/octet-stream 4072 application/x-123 9 audio/midi 1 audio/x-wav 1 message/news 5 message/rfc822 145 message/rfc822 7bit 39 text/directory 1969 text/PGP armored data 2 text/plain 8bit 2 text/xml 9230 x-system/x-unix; empty 11
|
|
Michel-F
|
gav-m, по поводу многофайловых архивов - как предполагаете действовать? Свой алгоритм я описывал тут: Michel-F писал(а): По алгоритму у меня формирует список "расширение" - "кол-во файлов", далее проверяет по списку '.FB2','.TXT', '.DOC', '.RTF', '.PDF', '.DJV', '.DJVU', '.CHM', '.MHT' с учётом приоритета (если есть тхт - указываем его индекс, если нет тхт и есть doc - указываем индекс doc, ну и т.п.) и единственности вхождения (если будет к примеру два тхт-файла, не обрабатываем архив). Приоритет тхт поставил выше, так как он - основной формат в фидошной библиотеке, да и нормальных ридеров doc (не офис) толком нет. +: В принципе, через inpx можно указать и оба файла, но тогда надо как-то решать проблему с дублированием LibID. Само поле не ключевое, насколько я помню, но дублировать записи по нему не хотелось бы. А так есть приличное количество сборников рассказов/текстов песен, где каждый рассказ в отдельном файле внутри архива находится. Условие 1файл - 1 архив я выставил потому, что не хотелось возиться с уникальностью LibID. А так ничто не ограничивает возможность доступа ко всем файлам в архиве.
|
|
gav-m
|
Michel-F писал(а): gav-m писал(а): Разобрал архивы, результат в .CSV файле http://tinyurl.com/3ocrm7e Из замеченых проблем - .png файлы определились как application/octet-stream, .dat файлы программы библиотекаря booklib как video/unknown. Мои предложения - создать доп. таблицу с типом файла / индексом доступа к файлу в архиве со структурой, о которой говорил ранее. Типы расширений можно привести по разобранному: text/xml 9230[tab]xml/Оставить архив(пмсм, предпочтительнее)? В зависимости от расширения. Если FB2 - то лучше показать, иначе оставить в архиве. Michel-F писал(а): И кстати, что обозначают типы application/octet-stream 4072 Формально - двоичные данные приложения. Реально сюда влетели все, почему-либо не определившиеся автоматически двоичные файлы. Про png я уже писал, еще сюда попали .chm .pcx, пара .jpg файлов, исполняемые файлы в формате .com, а так же куча разнообразного двоичного барахла непонятно какого назначения, которую я не стал разбирать. Двоичные данные - курсоры MS C#. Поменял на octet-stream Звуковой файл, вестимо. Проигрывается, но у меня без звука. Часть странички того времени когда тэг bgsound был моден Это тоже звук. Michel-F писал(а): message/news 5 message/rfc822 145 message/rfc822 7bit 39 Текст в котором после форварда из конференции или почты остались соответствующие служебные фразы. Сведения о каталоге в листинге архива. Игнорировать. PGP подпись 8битный текст. xml данные, здесь, как правило - fb2. Michel-F писал(а): x-system/x-unix; empty 11 Пустые, нулевой длины файлы. image/x-3ds - ошибка определения, текстовый файл, в начале которого слишком много символов '='; Теперь табличка выглядит так: application/msaccess 2 application/msword 4765 application/octet-stream 455 application/pdf 1711 application/postscript 2 application/x-arj 325 application/x-chm 114 application/x-dosexec 344 application/x-gzip 4 application/x-lha lh5 2 application/x-rar 90 application/x-shockwave-flash 3 application/x-zip 413 audio/midi 1 audio/x-wav 1 image/gif 33829 image/jpeg 37192 image/png 3198 image/tiff 2450 image/x.djvu 14365 image/x-icon 15 image/x-ms-bmp 199 image/x-pcx 288 text/directory 1969 text/html 12796 text/PGP armored data 2 text/plain 253730 text/rtf 677 text/xml 9230 x-system/x-unix; commands text 18 x-system/x-unix; empty 11 31 строк выбрано. Обновленный файл с дампом таблицы можно найти по тому же адресу. По поводу же многофайловых архивов мое мнение не изменилось. Если в архиве более одного файла - его отдавать в виде архива и пусть пользователь сам разбирается. Таких архивов всего 6% и гораздо больше неприятно не заметить дополнительную информацию чем возня с архивом в этих редких случаях. Если же есть желание показывать несколько файлов из архива и хочется сохранить уникальность lib id, то я бы заполнил его как 1000000*индекс_файла_в_архиве+старый_lib_id.
|
|
Michel-F
|
gav-m писал(а): Если же есть желание показывать несколько файлов из архива и хочется сохранить уникальность lib id, то я бы заполнил его как 1000000*индекс_файла_в_архиве+старый_lib_id. Идея хорошая, возможно использую. gav-m писал(а): Если в архиве более одного файла - его отдавать в виде архива и пусть пользователь сам разбирается. Таких архивов всего 6% Эти 6% ~ равны 7-8 тысячам книг. Достаточно много. Звуковые файлы, а также ехе - оставил бы в архивах. И что значит 8-битный текст? Чем он от обычного text/plain отличается? Может, стоит его унифицировать с text/plain? Тем более, всего 2 записи. Ещё вопрос по многофайловым архивам - сколько из "некнижного" в многофайловых архивах находится? Точнее, интересует разбивка по типам файлов для архивов с содержимым "файл + file_id.diz" и многофайловым отдельно. З.Ы. Соответствие индексов файлов в архивах с моим списком не проверяли?
|
|
gav-m
|
Michel-F писал(а): gav-m писал(а): Если в архиве более одного файла - его отдавать в виде архива и пусть пользователь сам разбирается. Таких архивов всего 6% Эти 6% ~ равны 7-8 тысячам книг. Достаточно много. 9179 из них всего 1736 архивов содержащих однотипные файлы. Кому как а решать я бы оставил потребителям. Когда большинство архивов однофайловые пользователь просто забудет что может быть иначе. Michel-F писал(а): Звуковые файлы, а также ехе - оставил бы в архивах. И что значит 8-битный текст? Чем он от обычного text/plain отличается? Может, стоит его унифицировать с text/plain? Тем более, всего 2 записи. Так как бы в новой версии файла и списка уже нет этих записей. Michel-F писал(а): Ещё вопрос по многофайловым архивам - сколько из "некнижного" в многофайловых архивах находится? Точнее, интересует разбивка по типам файлов для архивов с содержимым "файл + file_id.diz" и многофайловым отдельно. По многофайловым архивам: application/msaccess 2 application/msword 2131 application/octet-stream 446 application/pdf 1537 application/postscript 2 application/x-arj 279 application/x-chm 46 application/x-dosexec 302 application/x-gzip 4 application/x-lha lh5 2 application/x-rar 81 application/x-shockwave-flash 3 application/x-zip 318 audio/midi 1 audio/x-wav 1 image/gif 33797 image/jpeg 37184 image/png 3198 image/tiff 2450 image/x.djvu 664 image/x-icon 15 image/x-ms-bmp 191 image/x-pcx 288 text/directory 1969 text/html 12550 text/PGP armored data 2 text/plain 18280 text/rtf 181 text/xml 267 x-system/x-unix; commands text 18 x-system/x-unix; empty 11 31 строк выбрано. По однофайловым application/msword 2634 application/octet-stream 8 application/pdf 174 application/x-arj 46 application/x-chm 68 application/x-dosexec 42 application/x-rar 9 application/x-zip 95 image/gif 32 image/jpeg 8 image/x.djvu 13701 image/x-ms-bmp 8 text/html 246 text/plain 101899 text/rtf 496 text/xml 8963 16 строк выбрано. Michel-F писал(а): З.Ы. Соответствие индексов файлов в архивах с моим списком не проверяли? Нет.
|
|
Michel-F
|
По однофайловым архивам весьма прилично всё выглядит в плане определения типов. Единственное - оставил бы в архивах exe-файлы и возможно octet-stream (смотря по содержимому/расширению). А так уже вполне генерировать inpx можно, если многофайловые архивы разбирать не собираешься. gav-m писал(а): Michel-F писал(а): З.Ы. Соответствие индексов файлов в архивах с моим списком не проверяли? Нет. Я генерировал список тем же модулем, который в MHL используется. Не знаю, чем сам разбираешь архивы, но индексы файлов вполне могут отличаться. В общем, проверить стоит хотя бы для "однофайловых" архивов.
|
|
Michel-F
|
Ещё - по поводу gav-m писал(а): 9179 из них всего 1736 архивов содержащих однотипные файлы. Кому как а решать я бы оставил потребителям. Когда большинство архивов однофайловые пользователь просто забудет что может быть иначе. Из архивов файлы не так удобно открывать. Текстовые настроены на Блокнот или его аналог, читать в нём невозможно. Гораздо удобнее, если сразу в CR или AlReader'е текст открывается. Доступ к исходному архиву ведь тоже можно получить, а для идентификации многофайловых книг какой-нибудь суффикс к имени добавить. Хотелось бы ещё мнение Shaws и Alex1 по этому вопросу узнать. И ещё по файлу соответствия жанров - Alex1, будешь ещё его дорабатывать или это уже финальная версия?
|
|
gav-m
|
Michel-F писал(а): Я генерировал список тем же модулем, который в MHL используется. Не знаю, чем сам разбираешь архивы, но индексы файлов вполне могут отличаться. В общем, проверить стоит хотя бы для "однофайловых" архивов. Проверил. Совпало. Что не совпало уйдет в следующем обновлении. Michel-F писал(а): Из архивов файлы не так удобно открывать. Текстовые настроены на Блокнот или его аналог, читать в нём невозможно. WinRar настраивается на использование внешней программы просмотра.
|
|
Shams
|
Michel-F писал(а): Из архивов файлы не так удобно открывать. Текстовые настроены на Блокнот или его аналог, читать в нём невозможно. С одной стороны gav-m писал(а): WinRar настраивается на использование внешней программы просмотра. Я именно так до сих пор и делал. Но с другой стороны Michel-F писал(а): а для идентификации многофайловых книг какой-нибудь суффикс к имени добавить. выглядит, конечно, изящнее и очень заманчиво.
|
|
Michel-F
|
Shams писал(а): Я именно так до сих пор и делал Я тоже так раньше делал из-за отсутствия альтернативы. Из минусов: 1. Нужны дополнительные действия по открытию файла; 2. Нельзя отправить книгу на читалку; 3. Нужно дополнительно настраивать архиватор и устанавливать ридеры в систему. Раньше пытался сделать переносную версию MHL с архиватором и настроенным на относительные пути ридером - так и не смог ( Поэтому и пришлось брать исходники MHL и добавлять функционал. gav-m писал(а): WinRar настраивается на использование внешней программы просмотра У меня WinRar не установлен, пользуюсь 7-zip. Да, настроить внешний просмотрщик можно, но один на все типы файлов. Не всегда это удобно. Ещё нельзя напрямую на е-книгу файл отправить. В общем, на мой взгляд прямой доступ к книге лучше (с указанием того, что архив - многофайловый). Указать можно двумя способами: 1. Добавить суффикс/префикс к названию книги; 2. Дополнить файл жанров строкой "Многофайловые архивы" и указывать его для таких книг. У книги соответственно будет "родной жанр" и жанр-маркер. Посмотреть, как реализовано, можно в библиотеке либрусека/флибусты/траума - там у многих книг множественные жанры.
|
|
gav-m
|
Michel-F писал(а): gav-m писал(а): WinRar настраивается на использование внешней программы просмотра У меня WinRar не установлен, пользуюсь 7-zip. Здесь помочь не могу - не пользуюсь 7-zip'ом, не знаю его функционала и возможностей. Michel-F писал(а): Да, настроить внешний просмотрщик можно, но один на все типы файлов. Не всегда это удобно. Настроить в качестве просмотрщика батник типа такого (слеплен прямо сейчас): @ECHO OFF SETLOCAL SET textreader=C:\_FidoLib\_FidoLib\Readers\AlReader\AlReader2.exe SET text=TXT TEXT FB2 DIZ FAQ BBS DSC LST PAS H BAT CMD BAS RUL CONF RUS UKR INF C ME NFO CFG SET empty=C:\_FidoLib\_FidoLib\Readers\AlReader\AlReader2.exe IF %~x1$==$ ( START %empty% %1 GOTO :EOF ) :LOOP FOR /F "tokens=1,*" %%i IN ('ECHO %text%') DO IF /I %~x1==.%%i ( "%textreader%" "%1" GOTO :EOF ) ELSE ( SET text=%%j ) IF NOT "%text%"=="" GOTO :LOOP START "%1" Его можно дополнить и подправить для своих нужд Michel-F писал(а): Ещё нельзя напрямую на е-книгу файл отправить. Архивом нельзя - книжка не умеет открывать rar архивы и автоматически определять CP866 кодировку? Если да, то здесь тоже могут помочь лишь китайцы слепившие прошивку книги или энтузиасты с неофициальной прошивкой. Michel-F писал(а): В общем, на мой взгляд прямой доступ к книге лучше (с указанием того, что архив - многофайловый). Указать можно двумя способами: 1. Добавить суффикс/префикс к названию книги; 2. Дополнить файл жанров строкой "Многофайловые архивы" и указывать его для таких книг. У книги соответственно будет "родной жанр" и жанр-маркер. Посмотреть, как реализовано, можно в библиотеке либрусека/флибусты/траума - там у многих книг множественные жанры. Хорошо. Вопросы: Есл показываем один файл из архива. 1. Многофайловый архив разнотипных файлов. Какой показывать? По приоритетам типов? Неоднозначность в расстановке приоритетов здесь уже была озвучена. 2. Многофайловый архив однотипных файлов. Какой из множества выбрать для показа? Если же показывать все файлы, то количество записей в базе возрастет вдвое. Базе от этого хуже не станет, а пользоваться станет менее удобно. Вопросы не риторические, истина где то рядом и критерии можно подобрать, надеюсь. Вот, например, предложение: в архиве только один text/plain text/xml файл, показывать его. Если в архиве много text/plain text/xml файлов, показывать их все если отсутствуют файлы других типов. Иначе, предъявлять архив целиком.
|
|
Michel-F
|
gav-m писал(а): 1. Многофайловый архив разнотипных файлов. Какой показывать? По приоритетам типов? Неоднозначность в расстановке приоритетов здесь уже была озвучена Свои предложения по приоритетам я давал - Michel-F писал(а): По алгоритму у меня формирует список "расширение" - "кол-во файлов", далее проверяет по списку '.FB2','.TXT', '.DOC', '.RTF', '.PDF', '.DJV', '.DJVU', '.CHM', '.MHT' с учётом приоритета (если есть фб2 - указываем его индекс, если нет фб2 и есть тхт - указываем индекс тхт, ну и т.п.) и единственности вхождения (если будет к примеру два тхт-файла, не обрабатываем архив). Для многофайловых однотипных архивов, если автоматический выбор не подходит или нельзя однозначно определить основной документ - оставить в архиве. По приоритету расширений обсуждаемо, можно их и переставить местами/расширить список. Тут мнение остальных приветствуется. HTM[L] лучше оставить в архивах, ну и всё, что относится к ПО/Славиным базам. У меня часть bookl разобралась автоматом, это неверно пмсм. gav-m писал(а): Если в архиве много text/plain text/xml файлов, показывать их все если отсутствуют файлы других типов В принципе можно так, но тогда к имени надо какие-то добавки делать, чтобы записи отличались, и корректировать LibID дополнительных записей. Установить маркер многофайлового архива можно так: к файлу genres_nonfb2.glst добавить строку ,а жанр в inpx указывать как
|
|
|