Я бы не надеялся, что базу апстрим набьёт.
Тогда есть смысл делать свои переводы на запасной случай.
Надо выверять базу и дописывать оснастку.
Посмотрел git appstream-data и не совсем понял, как оно работает.
Например, по вытаскиванию и обновлению локализации через gettext.
А вот это совсем не понял.
Пока рассматривал файл, нашел вариант для безболезненной чистки файла от тегов и содержимого <metadata>...</metadata>. Мне совершенно четко очевидно, что это содержимое не несет полезного, но более того, там имеются записи с именами федоровских пакетов, что нам ну совершенно ни к чему. Поэтому предлагается чистить файл от этого содержимого. Уменьшит размер наверняка не сильно, но зато там не будет явно лишнего.
Дополнительно хотел предложить алгоритм по получению файла базы. Первейшим делом заглядываем на вику, которая содержит имена пакетов, приведенных для сизифа. Далее сверяемся по федориному файлу и копируем блоки, соответствующие найденным названиям, в выходной файл. Чистим от лишних данных. Здесь хотелось бы акцентировать внимание на том, что файл с плоским списком пакетов для центра должен быть отдельно где-то (GUI может по нему сверяться среди прочего, плюс этот файл точно содержит то, что нужно, в отличие от xml, куда из-за ошибки/etc могло попасть лишнее). Аналогичный плоский список для пакетов федориного репозитория, имхо, не нужен. Можно попробовать провести сравнение приведением названий в нижний регистр и проверкой на совпадение части строки (названия из сизифа) в строке (название из федоры). В таком случае список на вики должен быть плоским и без категорий (это можно выполнить и на соседней странице, если надо) - только названия и ссылки на форум (если имеется свое описание). Страницы с категориями и шаблоны с прочим не должно напрямую относится к списку (это все не испольуешь для генерации собственно xml файла, а вот плоский список здорово упростит задачу по генерации).