Структура базы журналов

Главная » Релиз-группы и клубы по интересам » Проект «База журналов»

Автор	Сообщение
re-engine-er	То, что я "обещал" на Флибусте и процитированное с соседнем топике. 1. База данных журналов (и газет в перспективе) исходит из следующего: Три уровня иерархии- 1-й - издание в целом 2-й - отдельный номер 3-й - Файл номера Иерархия древовидная, по принципу один ко многим, т.е. к одной записи 1-го уровня привязаны от нуля до NN записей 2-го уровня, аналогично 2 и 3 уровни. 2. Описание издания (1-й уровень) включает следующие характеристики издания: Обязательные - Название (так, как издание фигурирует в каталогах) и уникальное (в пределах базы) имя - как часть имени файла при автоматической / пакетной загрузке номеров, уникальный ID издания (внутренняя переменная) Необязательные - всё, что может пригодиться- язык, ISSN, редактор, официальный или неофициальный сайт и пр. пр. (перечень будем составлять здесь в отдельном топике) 3. Описание номера (2-й уровень) включает: Обязательные - Год; уникальный условный номер (я назвал его "физический") внутри года, отражает последовательность номеров, нужен для сортировки номеров; уникальный ID номера (внутренняя переменная) Необязательные - номер внутри года (числовой или др., м.б. сдвоенный, строенный...); Номер при сплошной нумерации (аналогично); дата выпуска (м.б. в виде периода "дата-дата", напр. у еженедельников) ; содержание номера 4. Описание файла (3-й уровень) включает: Формат (из списка - напр. DJVU, PDF, CBR, CBZ, DOC, FB2...); размер; имя файла; md5; уникальный ID файла (внутр. переменная). В связи с тем, что предполагается распределенная система хранения файлов, в т.ч. по принципу зеркал, будет список адресов (URL, путь), где находится файл.

Bill_G	Цитата: Формат (из списка - напр. DJVU, PDF, CBR, CBZ, DOC, FB2...) а зачем список то, неужели нельзя брать автоматом расширение у залитого файла? вернее даже не у залитого, а заранее размещенного на фтп

re-engine-er	Bill_G писал(а): Цитата: Формат (из списка - напр. DJVU, PDF, CBR, CBZ, DOC, FB2...) а зачем список то, неужели нельзя брать автоматом расширение у залитого файла? вернее даже не у залитого, а заранее размещенного на фтп Точная реализация определится на этапе создания. Исходная позиция была такова - а) расширение файла можно написать по-разному, тога нужно писать анализатор файла б) файл может быть упакован, а "формат" должен показывать реальное представление.

Bill_G	Цитата: а) расширение файла можно написать по-разному djv - djvu только приходит на ум, с остальным все более-менее однозначно. Цитата: тога нужно писать анализатор файла это если расширение файла заведомо ложное, и тут дело не в вариантах написания расширения, заливальщик сам может не знать что у файла стоит не то расширение, потому что файл и не открывал,соотв.и форму неверно запишет, но и с анализатором будет куча возни, по работе с плагином TrId определяющим расширения могу сказать, что у некоторых файлов они не определены, хотя файлы не битые, фб2 определяет как xml, cbr как rar, чем они по сути и являются, и так далее Цитата: б) файл может быть упакован, а "формат" должен показывать реальное представление. а вот упакованных файлов быть не должно, если только это не постраничные сканы в архиве. потому что тогда бестолку считать с него хеш, перепакуют с другой степенью сжатия и будет уже другой хеш. Итого предлагаю: 1) анализатор файлов не вводить 2) расширения брать автоматом. проверка на то, чтобы не грузили одинаковых файлов будет идти по хешу, а не расширению, поэтому варианты написания расширений значения не имеют 3) Архивы: проверять чтоб не грузили архив, внутри которого 1 файл, или архив запаролен.

re-engine-er	Не возражаю. Попробуем так и сделать. Из архивов оставляем только cbr/cbz

ambro83	Здравствуйте! Мне кажется, что у научной периодики в базе неплохо бы еще указать DOI. Тем более что через DOI можно вычислить все названия статей. По поводу смешивания всего вместе в одну кучу - все-таки лучше все разбить по топикам. Потому что навряд ли человек, ищущий Physical Review, здесь же будет искать журналы по вязанию. С другой стороны, те, кто будут пытаться зеркалировать ваши архивы и базы научной периодики, не станут содержать базы, где совместно с наукой лежит Playboy и т.п.; это по их мнению может оказаться просто некорректным. В связи с этим формат базы должен тоже зависеть от топика. Например, научная периодика имеет очень часто (но, правда, не всегда) сквозную нумерацию, тогда как ненаучные журналы чаще нумеруются по году и месяцу издания. Кроме того, научная периодика должна разделяться на отдельные статьи - если меня интересует какая-то статья в некотором научном журнале, то это вовсе не означает, что мне будет интересна статья на следующих десяти страницах этого журнала. А журналы ненаучные еще никто не пытался дифференцировать на отдельные статьи. По крайней мере я такого не видел. Т.е., на мой взгляд, индексирование научной и ненаучной периодики - два совсем различных проекта. Я думаю, что разделение топиков увеличит количество заинтересованных - есть много людей, которые интересуются и своими способами пытаются индексировать литературу по конкретному топику, например, милитари или комиксы; модерирование отдельных топиков с помощью готовых и удобных инструментов станет для них очень увлекательным действием. Попытка поднять неподъемные проекты, содержащие в себе все обо всем, приведет просто к психологическому отторжению у этих людей. Спасибо!

Bill_G	Цитата: Потому что навряд ли человек, ищущий Physical Review, здесь же будет искать журналы по вязанию. С другой стороны, те, кто будут пытаться зеркалировать ваши архивы и базы научной периодики, не станут содержать базы, где совместно с наукой лежит Playboy и т.п. пусть тогда фильтруют по тематике, Цитата: В связи с этим формат базы должен тоже зависеть от топика. Например, научная периодика имеет очень часто (но, правда, не всегда) сквозную нумерацию, тогда как ненаучные журналы чаще нумеруются по году и месяцу издания все нормально с этим, у нас в базе 5 видов нумерации предусмотрено Цитата: По поводу смешивания всего вместе в одну кучу - все-таки лучше все разбить по топикам. Потому что навряд ли человек, ищущий Physical Review, здесь же будет искать журналы по вязанию вот что у нас есть в загашнике то и будут искать, то, что на рутрекере все вместе раздается никто же не жалуется а отдельный проект мы не потянем в ввиду нехватки человеко-ресурсов, этот бы довести до кондиции

Nicita	А где можно скачать собственно базу?
	А где можно скачать собственно базу?
Bill_G	без кода она бесполезна, код у vladk
	без кода она бесполезна, код у vladk
re-engine-er	Nicita А что понимается под базой? Раскладка номеров? Описание изданий? Или что-то еще? Мы пока над этим не задумывались. Но со временем, когда устаканится структура, я думаю, можно будет вернуться к этому. Не в виде, базы, как таковой, она действительно жестко привязана к коду (потому сама по себе бесполезна), а в виде неких XML файлов.

Nicita	Под базой проекта я понимаю некий файл в котором приведены данные на все журналы содержащиеся в библиотеке. Файл содержит как библиографическую так и компьютерную информацию о каждом файле, что-то вроде базы ЛибГена.

Bill_G	Nicita это примерно 30 таблиц, одна ссылается на другую по разным id, и если такую таблицу открыть в экселе например будет мало что понятно, база же либгена - по сути список.

Страница 1 из 1

Главная » Релиз-группы и клубы по интересам » Проект «База журналов»

Пользовательское Соглашение | Для правообладателей