Телеком

Укргосархив передал для тренировки национальной LLM "Сяйво" 10 терабайт данных

Государственная архивная служба Украины передает для тренировки национальной языковой модели "Сяйво" 10 терабайт исторических материалов, государственных документов и научных текстов, что равно 70 тыс. книг, говорится в сообщении министерства цифровой трансформации.

"Для тренировки национальной языковой модели мы собираем данные, чтобы языковая модель была натренирована на уникальном массиве информации", – процитированны в релизе слова и.о. министра цифровой трансформации Александра Борнякова.

По словам главы Госархива Анатолия Хромова, до конца 2026 года количество цифровых копий госархивов увеличатся со 150 млн до более 200 млн.

"Это уникальный случай, когда Укргосархив впервые предоставляет свои данные для развития цифровых сервисов в Украине", – приводятся в релизе слова Хромова.

В Минцифре добавили, что сейчас свои материалы предоставляют также более 50 партнеров, среди которых медиа, университеты и библиотеки.

Впоследствии будет обнародован полный перечень институтов, которые предоставили свои материалы для тренировки национальной модели, говорится в сообщении.

В конце марта 22,6 тыс. украинцев проголосовали за избрание названия "Сяйво" для национальной языковой модели.

В начале января сообщалось, что запустить бета-тестирование национальной LLM запланировано весной 2026 года.

Тогда, по словам экс-первого вице-премьер-министра цифровой трансформации Михаила Федорова, в январе должна была быть сформирована первая база текстов для тренировки LLM, улучшен токенизатор, который разделяет слова на элементы, для быстрой и продуктивной обработки языка, а также собственные бенчмарки для оценки качества.

В декабре 2025 года сообщалось, что Минцифры вместе с крупнейшим украинским оператором мобильной связи "Киевстар" выбрали модель Gemma 3 от Google (открытая ИИ-модель) для тренировки украинской LLM.

В своем релизе "Киевстар" тогда напомнил, что модель Gemma уже продемонстрировала результаты как базовая модель для MamayLM и Lapa LLM – первых украинских LLM, а также для INSAIT BgGPT – современной LLM для болгарского языка.

Реклама
Реклама

ЕЩЕ ПО ТЕМЕ

ПОСЛЕДНЕЕ