Автор |
Сообщение |
re-engine-er
|
То, что я "обещал" на Флибусте и процитированное с соседнем топике.
1. База данных журналов (и газет в перспективе) исходит из следующего:
Три уровня иерархии-
1-й - издание в целом
2-й - отдельный номер
3-й - Файл номера
Иерархия древовидная, по принципу один ко многим, т.е. к одной записи 1-го уровня привязаны от нуля до NN записей 2-го уровня, аналогично 2 и 3 уровни.
2. Описание издания (1-й уровень) включает следующие характеристики издания:
Обязательные - Название (так, как издание фигурирует в каталогах) и уникальное (в пределах базы) имя - как часть имени файла при автоматической / пакетной загрузке номеров, уникальный ID издания (внутренняя переменная)
Необязательные - всё, что может пригодиться- язык, ISSN, редактор, официальный или неофициальный сайт и пр. пр. (перечень будем составлять здесь в отдельном топике)
3. Описание номера (2-й уровень) включает:
Обязательные - Год; уникальный условный номер (я назвал его "физический") внутри года, отражает последовательность номеров, нужен для сортировки номеров; уникальный ID номера (внутренняя переменная)
Необязательные - номер внутри года (числовой или др., м.б. сдвоенный, строенный...); Номер при сплошной нумерации (аналогично); дата выпуска (м.б. в виде периода "дата-дата", напр. у еженедельников) ; содержание номера
4. Описание файла (3-й уровень) включает:
Формат (из списка - напр. DJVU, PDF, CBR, CBZ, DOC, FB2...); размер; имя файла; md5; уникальный ID файла (внутр. переменная).
В связи с тем, что предполагается распределенная система хранения файлов, в т.ч. по принципу зеркал, будет список адресов (URL, путь), где находится файл.
|
|
Bill_G
|
Цитата: Формат (из списка - напр. DJVU, PDF, CBR, CBZ, DOC, FB2...) а зачем список то, неужели нельзя брать автоматом расширение у залитого файла? вернее даже не у залитого, а заранее размещенного на фтп
|
|
re-engine-er
|
Bill_G писал(а): Цитата: Формат (из списка - напр. DJVU, PDF, CBR, CBZ, DOC, FB2...) а зачем список то, неужели нельзя брать автоматом расширение у залитого файла? вернее даже не у залитого, а заранее размещенного на фтп Точная реализация определится на этапе создания. Исходная позиция была такова - а) расширение файла можно написать по-разному, тога нужно писать анализатор файла б) файл может быть упакован, а "формат" должен показывать реальное представление.
|
|
Bill_G
|
Цитата: а) расширение файла можно написать по-разному djv - djvu только приходит на ум, с остальным все более-менее однозначно. Цитата: тога нужно писать анализатор файла это если расширение файла заведомо ложное, и тут дело не в вариантах написания расширения, заливальщик сам может не знать что у файла стоит не то расширение, потому что файл и не открывал,соотв.и форму неверно запишет, но и с анализатором будет куча возни, по работе с плагином TrId определяющим расширения могу сказать, что у некоторых файлов они не определены, хотя файлы не битые, фб2 определяет как xml, cbr как rar, чем они по сути и являются, и так далее Цитата: б) файл может быть упакован, а "формат" должен показывать реальное представление. а вот упакованных файлов быть не должно, если только это не постраничные сканы в архиве. потому что тогда бестолку считать с него хеш, перепакуют с другой степенью сжатия и будет уже другой хеш. Итого предлагаю: 1) анализатор файлов не вводить 2) расширения брать автоматом. проверка на то, чтобы не грузили одинаковых файлов будет идти по хешу, а не расширению, поэтому варианты написания расширений значения не имеют 3) Архивы: проверять чтоб не грузили архив, внутри которого 1 файл, или архив запаролен.
|
|
re-engine-er
|
Не возражаю.
Попробуем так и сделать.
Из архивов оставляем только cbr/cbz
|
|
ambro83
|
Здравствуйте!
Мне кажется, что у научной периодики в базе неплохо бы еще указать DOI. Тем более что через DOI можно вычислить все названия статей.
По поводу смешивания всего вместе в одну кучу - все-таки лучше все разбить по топикам. Потому что навряд ли человек, ищущий Physical Review, здесь же будет искать журналы по вязанию. С другой стороны, те, кто будут пытаться зеркалировать ваши архивы и базы научной периодики, не станут содержать базы, где совместно с наукой лежит Playboy и т.п.; это по их мнению может оказаться просто некорректным.
В связи с этим формат базы должен тоже зависеть от топика. Например, научная периодика имеет очень часто (но, правда, не всегда) сквозную нумерацию, тогда как ненаучные журналы чаще нумеруются по году и месяцу издания. Кроме того, научная периодика должна разделяться на отдельные статьи - если меня интересует какая-то статья в некотором научном журнале, то это вовсе не означает, что мне будет интересна статья на следующих десяти страницах этого журнала. А журналы ненаучные еще никто не пытался дифференцировать на отдельные статьи. По крайней мере я такого не видел.
Т.е., на мой взгляд, индексирование научной и ненаучной периодики - два совсем различных проекта.
Я думаю, что разделение топиков увеличит количество заинтересованных - есть много людей, которые интересуются и своими способами пытаются индексировать литературу по конкретному топику, например, милитари или комиксы; модерирование отдельных топиков с помощью готовых и удобных инструментов станет для них очень увлекательным действием. Попытка поднять неподъемные проекты, содержащие в себе все обо всем, приведет просто к психологическому отторжению у этих людей.
Спасибо!
|
|
Bill_G
|
Цитата: Потому что навряд ли человек, ищущий Physical Review, здесь же будет искать журналы по вязанию. С другой стороны, те, кто будут пытаться зеркалировать ваши архивы и базы научной периодики, не станут содержать базы, где совместно с наукой лежит Playboy и т.п. пусть тогда фильтруют по тематике, Цитата: В связи с этим формат базы должен тоже зависеть от топика. Например, научная периодика имеет очень часто (но, правда, не всегда) сквозную нумерацию, тогда как ненаучные журналы чаще нумеруются по году и месяцу издания все нормально с этим, у нас в базе 5 видов нумерации предусмотрено Цитата: По поводу смешивания всего вместе в одну кучу - все-таки лучше все разбить по топикам. Потому что навряд ли человек, ищущий Physical Review, здесь же будет искать журналы по вязанию вот что у нас есть в загашнике то и будут искать, то, что на рутрекере все вместе раздается никто же не жалуется а отдельный проект мы не потянем в ввиду нехватки человеко-ресурсов, этот бы довести до кондиции
|
|
Nicita
|
А где можно скачать собственно базу?
|
|
Bill_G
|
без кода она бесполезна, код у vladk
|
|
re-engine-er
|
Nicita А что понимается под базой? Раскладка номеров? Описание изданий? Или что-то еще? Мы пока над этим не задумывались. Но со временем, когда устаканится структура, я думаю, можно будет вернуться к этому. Не в виде, базы, как таковой, она действительно жестко привязана к коду (потому сама по себе бесполезна), а в виде неких XML файлов.
|
|
Nicita
|
Под базой проекта я понимаю некий файл в котором приведены данные на все журналы содержащиеся в библиотеке. Файл содержит как библиографическую так и компьютерную информацию о каждом файле, что-то вроде базы ЛибГена.
|
|
Bill_G
|
Nicita
это примерно 30 таблиц, одна ссылается на другую по разным id, и если такую таблицу открыть в экселе например будет мало что понятно,
база же либгена - по сути список.
|
|
|