Loading...
Error

FB2 XML + Python

Ответить на тему

 | 

 
Автор Сообщение

tamr112

Наверное аж 10 лет назад у меня была идея, применить современные алгоритмы лингвистического анализа к большой коллекции книг FB2. В какой-то момент дело дальше не пошло, но вот, годы спустя, идея мне кажется по-прежнему достойной внимания.

Книг в трекере стало с тех пор, как я вижу, примерно в два раза больше. :-)

Было бы здорово встретить здесь знатоков формата и вообще кому могла бы быть интересна данная тема.

В первый раз, помню, я составляла СУБД книг с разными цифровыми параметрами.
Перед тем как это сделать, имеет смысл работать с файлами, соответствующими схеме FB2. Из 500 тыс. файлов, возможно, могут быть "битые".
Их выявление - может быть, полезный побочный эффект?

Пока что вижу, что формат с легкими изменениями эволюционировал из 2.0 в 2.2, но непонятно, где есть релизы XSD файлов по этим версиям.

Из того, что нашлось, не получается валидировать даже саму схему: отчет по ссылке.

"lxml.etree.XMLSchemaParseError: attribute use (unknown),
attribute 'ref': The QName value
'{http://www.w3.org/XML/1998/namespace}lang'
does not resolve to a(n) attribute declaration., line 52"

https://stackoverflow.com/questions/74361170/unders...d-party-document
Показать сообщения:    
Ответить на тему