Наверное аж 10 лет назад у меня была идея, применить современные алгоритмы лингвистического анализа к большой коллекции книг FB2. В какой-то момент дело дальше не пошло, но вот, годы спустя, идея мне кажется по-прежнему достойной внимания.
Книг в трекере стало с тех пор, как я вижу, примерно в два раза больше. :-)
Было бы здорово встретить здесь знатоков формата и вообще кому могла бы быть интересна данная тема.
В первый раз, помню, я составляла СУБД книг с разными цифровыми параметрами.
Перед тем как это сделать, имеет смысл работать с файлами, соответствующими схеме FB2. Из 500 тыс. файлов, возможно, могут быть "битые".
Их выявление - может быть, полезный побочный эффект?
Пока что вижу, что формат с легкими изменениями эволюционировал из 2.0 в 2.2, но непонятно, где есть релизы XSD файлов по этим версиям.
Из того, что нашлось, не получается валидировать даже саму схему: отчет по ссылке.
"lxml.etree.XMLSchemaParseError: attribute use (unknown),
attribute 'ref': The QName value
'{http://www.w3.org/XML/1998/namespace}lang'
does not resolve to a(n) attribute declaration., line 52"
https://stackoverflow.com/questions/74361170/unders...d-party-document