Loading...
Error

Структура базы журналов

Ответить на тему

 | 

 
Автор Сообщение

re-engine-er

То, что я "обещал" на Флибусте и процитированное с соседнем топике.

1. База данных журналов (и газет в перспективе) исходит из следующего:
Три уровня иерархии-
1-й - издание в целом
2-й - отдельный номер
3-й - Файл номера
Иерархия древовидная, по принципу один ко многим, т.е. к одной записи 1-го уровня привязаны от нуля до NN записей 2-го уровня, аналогично 2 и 3 уровни.

2. Описание издания (1-й уровень) включает следующие характеристики издания:
Обязательные - Название (так, как издание фигурирует в каталогах) и уникальное (в пределах базы) имя - как часть имени файла при автоматической / пакетной загрузке номеров, уникальный ID издания (внутренняя переменная)
Необязательные - всё, что может пригодиться- язык, ISSN, редактор, официальный или неофициальный сайт и пр. пр. (перечень будем составлять здесь в отдельном топике)

3. Описание номера (2-й уровень) включает:
Обязательные - Год; уникальный условный номер (я назвал его "физический") внутри года, отражает последовательность номеров, нужен для сортировки номеров; уникальный ID номера (внутренняя переменная)
Необязательные - номер внутри года (числовой или др., м.б. сдвоенный, строенный...); Номер при сплошной нумерации (аналогично); дата выпуска (м.б. в виде периода "дата-дата", напр. у еженедельников) ; содержание номера

4. Описание файла (3-й уровень) включает:
Формат (из списка - напр. DJVU, PDF, CBR, CBZ, DOC, FB2...); размер; имя файла; md5; уникальный ID файла (внутр. переменная).
В связи с тем, что предполагается распределенная система хранения файлов, в т.ч. по принципу зеркал, будет список адресов (URL, путь), где находится файл.

Bill_G

Цитата:

Формат (из списка - напр. DJVU, PDF, CBR, CBZ, DOC, FB2...)
а зачем список то,
неужели нельзя брать автоматом расширение у залитого файла?
вернее даже не у залитого, а заранее размещенного на фтп

re-engine-er

Bill_G писал(а):

Цитата:

Формат (из списка - напр. DJVU, PDF, CBR, CBZ, DOC, FB2...)
а зачем список то,
неужели нельзя брать автоматом расширение у залитого файла?
вернее даже не у залитого, а заранее размещенного на фтп
Точная реализация определится на этапе создания. Исходная позиция была такова -
а) расширение файла можно написать по-разному, тога нужно писать анализатор файла
б) файл может быть упакован, а "формат" должен показывать реальное представление.

Bill_G

Цитата:

а) расширение файла можно написать по-разному
djv - djvu только приходит на ум,
с остальным все более-менее однозначно.

Цитата:

тога нужно писать анализатор файла
это если расширение файла заведомо ложное, и тут дело не в вариантах написания расширения,
заливальщик сам может не знать что у файла стоит не то расширение, потому что файл и не открывал,соотв.и форму неверно запишет, но и с анализатором будет куча возни, по работе с плагином TrId определяющим расширения могу сказать, что у некоторых файлов они не определены, хотя файлы не битые, фб2 определяет как xml, cbr как rar, чем они по сути и являются, и так далее

Цитата:

б) файл может быть упакован, а "формат" должен показывать реальное представление.
а вот упакованных файлов быть не должно, если только это не постраничные сканы в архиве.
потому что тогда бестолку считать с него хеш, перепакуют с другой степенью сжатия и будет уже другой хеш.

Итого предлагаю:
1) анализатор файлов не вводить
2) расширения брать автоматом.
проверка на то, чтобы не грузили одинаковых файлов будет идти по хешу, а не расширению, поэтому варианты написания расширений значения не имеют
3) Архивы: проверять чтоб не грузили архив, внутри которого 1 файл, или архив запаролен.

re-engine-er

Не возражаю.
Попробуем так и сделать.
Из архивов оставляем только cbr/cbz

ambro83

Здравствуйте!
Мне кажется, что у научной периодики в базе неплохо бы еще указать DOI. Тем более что через DOI можно вычислить все названия статей.

По поводу смешивания всего вместе в одну кучу - все-таки лучше все разбить по топикам. Потому что навряд ли человек, ищущий Physical Review, здесь же будет искать журналы по вязанию. С другой стороны, те, кто будут пытаться зеркалировать ваши архивы и базы научной периодики, не станут содержать базы, где совместно с наукой лежит Playboy и т.п.; это по их мнению может оказаться просто некорректным.

В связи с этим формат базы должен тоже зависеть от топика. Например, научная периодика имеет очень часто (но, правда, не всегда) сквозную нумерацию, тогда как ненаучные журналы чаще нумеруются по году и месяцу издания. Кроме того, научная периодика должна разделяться на отдельные статьи - если меня интересует какая-то статья в некотором научном журнале, то это вовсе не означает, что мне будет интересна статья на следующих десяти страницах этого журнала. А журналы ненаучные еще никто не пытался дифференцировать на отдельные статьи. По крайней мере я такого не видел.

Т.е., на мой взгляд, индексирование научной и ненаучной периодики - два совсем различных проекта.
Я думаю, что разделение топиков увеличит количество заинтересованных - есть много людей, которые интересуются и своими способами пытаются индексировать литературу по конкретному топику, например, милитари или комиксы; модерирование отдельных топиков с помощью готовых и удобных инструментов станет для них очень увлекательным действием. Попытка поднять неподъемные проекты, содержащие в себе все обо всем, приведет просто к психологическому отторжению у этих людей.

Спасибо!

Bill_G

Цитата:

Потому что навряд ли человек, ищущий Physical Review, здесь же будет искать журналы по вязанию. С другой стороны, те, кто будут пытаться зеркалировать ваши архивы и базы научной периодики, не станут содержать базы, где совместно с наукой лежит Playboy и т.п.
пусть тогда фильтруют по тематике,

Цитата:

В связи с этим формат базы должен тоже зависеть от топика. Например, научная периодика имеет очень часто (но, правда, не всегда) сквозную нумерацию, тогда как ненаучные журналы чаще нумеруются по году и месяцу издания
все нормально с этим, у нас в базе 5 видов нумерации предусмотрено

Цитата:

По поводу смешивания всего вместе в одну кучу - все-таки лучше все разбить по топикам. Потому что навряд ли человек, ищущий Physical Review, здесь же будет искать журналы по вязанию
вот что у нас есть в загашнике то и будут искать,
то, что на рутрекере все вместе раздается никто же не жалуется

а отдельный проект мы не потянем в ввиду нехватки человеко-ресурсов, этот бы довести до кондиции

Nicita

А где можно скачать собственно базу?

Bill_G

без кода она бесполезна, код у vladk

re-engine-er

Nicita
А что понимается под базой?
Раскладка номеров? Описание изданий? Или что-то еще?
Мы пока над этим не задумывались. Но со временем, когда устаканится структура, я думаю, можно будет вернуться к этому. Не в виде, базы, как таковой, она действительно жестко привязана к коду (потому сама по себе бесполезна), а в виде неких XML файлов.

Nicita

Под базой проекта я понимаю некий файл в котором приведены данные на все журналы содержащиеся в библиотеке. Файл содержит как библиографическую так и компьютерную информацию о каждом файле, что-то вроде базы ЛибГена.

Bill_G

Nicita

это примерно 30 таблиц, одна ссылается на другую по разным id, и если такую таблицу открыть в экселе например будет мало что понятно,
база же либгена - по сути список.
Показать сообщения:    
Ответить на тему