Минцифры совместно с компанией «Киевстар» выбрали большую языковую модель, на которой будут тренировать национальную украинскую LLM, которой станет Gemma 3 от Google. Об этом сообщают Dengi.ua со ссылкой на пресс-службу министерства.
По словам Chief AI Officer Минцифры и CEO WINWIN AI Center of Excellence Даниила Цьвока, украинский LLM строится на базе общедоступной open-source-модели. При этом главной задачей в разработке является предварительное ее обучение на наших уникальных данных. Это поможет прорабатывает тексты на украинском языке и минимизировать лингвистические и нравственные риски в LLM.
Читай также: ЦАХАЛ внедряет ИИ для слежки за соцсетями военнослужащих: детали
Сообщается, что выбранную модель адаптируют к украинскому языку, в частности, планируется:
- усовершенствовать украинский токенайзер – это улучшит работу модели с украинским языком, уменьшит ошибки при создании украиноязычных текстов и оптимизирует вычислительные затраты при использовании модели;
- доучить модель на уникальных украиноязычных текстах, которые сейчас собирают эксперты;
- создать бенчмарки (тесты) для более точной настройки модели для дальнейшего использования.
Как отметил директор по разработке диджитал-продуктов компании «Киевстар» Михаил Нестор, выбор Gemma обеспечивает оптимальный баланс между производительностью и ресурсами, а также высокое качество обучения украинской LLM. Кроме того, модель поддерживает более 140 языков, включая украинский, имеет до 128 тысяч токенов, мультимодальные возможности и гибкую архитектуру, что позволяет адаптировать его под разные задачи.
При этом ключевыми преимуществами в выборе модели стали:
- Оптимальный баланс производительности и ресурсов Gemma обеспечивает высокое качество при оптимальных инфраструктурных требованиях. Это одна из самых лучших среди открытых моделей с точки зрения соотношения размера и качества.
- Многоязычная поддержка — у модели уже украинский язык в своем диапазоне и легко адаптируется через доучения.
- Мультимодальность – модель может воспринимать и анализировать не только текст, но и изображение.
- Расширенный токенайзер – объем токенов обеспечивает точную и эффективную обработку текстов и доучеб. Модель имеет длинное контекстное окно – это 128 тысяч токенов.
- Наличие нескольких размерностей позволяет гибко выбирать размер модели под конкретную область применения.
- Успешные примеры и опыт использования Gemma для создания украиноязычных LLM, в частности Lapa LLM и MamayLM.
В министерстве подчеркнули, что Gemma уже продемонстрировала отличные результаты как базовая модель для MamayLM и Lapa LLM — первых и лучших украинских LLM, а также для INSAIT BgGPT — современной LLM для болгарского языка.
Как ранее сообщали Dengi.ua, Украина совместно с компанией NVIDIA создает суверенный искусственный интеллект.
Dengi.ua также писали о том, что искусственный интеллект быстро становится частью повседневной жизни украинцев.