Тренуйтеся на ШІ: українську мовну модель протестують

Мінцифри та "Київстар" визначилися, де випробують національну LLM України.

Google DeepMind / unsplash.com

Мінцифри спільно з компанією "Київстар" обрали велику мовну модель, на якій тренуватимуть національну українську LLM, якою стане Gemma 3 від Google. Про це повідомляють Dengi.ua з посиланням на пресслужбу міністерства.

За словами Chief AI Officer Мінцифри та CEO WINWIN AI Center of Excellence Данила Цьвока, український LLM будується на базі загальнодоступної open-source-моделі. При цьому головним завданням у розробці є попереднє її навчання на наших унікальних даних. Це допоможе опрацьовувати тексти українською мовою і мінімізувати лінгвістичні та моральні ризики в LLM.

Читайте також: ЦАХАЛ впроваджує ШІ для стеження за соцмережами військовослужбовців: деталі

Повідомляється, що обрану модель адаптують до української мови, зокрема, планується:

удосконалити український токенайзер - це покращить роботу моделі з українською мовою, зменшить помилки при створенні україномовних текстів та оптимізує обчислювальні витрати при використанні моделі;
довчити модель на унікальних україномовних текстах, які зараз збирають експерти;
створити бенчмарки (тести) для більш точного налаштування моделі для подальшого використання.

Як зазначив директор з розробки діджитал-продуктів компанії "Київстар" Михайло Нестор, вибір Gemma забезпечує оптимальний баланс між продуктивністю та ресурсами, а також високу якість навчання української LLM. Крім того, модель підтримує понад 140 мов, включно з українською, має до 128 тисяч токенів, мультимодальні можливості та гнучку архітектуру, що дає змогу адаптувати її під різні завдання.

При цьому ключовими перевагами у виборі моделі стали:

Оптимальний баланс продуктивності та ресурсів Gemma забезпечує високу якість за оптимальних інфраструктурних вимог. Це одна з найкращих серед відкритих моделей з погляду співвідношення розміру та якості.
Багатомовна підтримка - модель уже має українську мову у своєму діапазоні та легко адаптується через довчання.
Мультимодальність - модель може сприймати й аналізувати не лише текст, а й зображення.
Розширений токенайзер - об'єм токенів забезпечує точне та ефективне опрацювання текстів і донавчань. Модель має довге контекстне вікно - це 128 тисяч токенів.
Наявність декількох розмірностей дає змогу гнучко обирати розмір моделі під конкретну сферу застосування.
Успішні приклади та досвід використання Gemma для створення україномовних LLM, зокрема Lapa LLM та MamayLM.

У міністерстві підкреслили, що Gemma вже продемонструвала чудові результати як базова модель для MamayLM і Lapa LLM - перших і найкращих українських LLM, а також для INSAIT BgGPT - сучасної LLM для болгарської мови.

Як раніше повідомляли Dengi.ua, Україна спільно з компанією NVIDIA створює суверенний штучний інтелект.

Dengi.ua також писали про те, що штучний інтелект швидко стає частиною повсякденного життя українців.

ШІ Тренуйтеся на ШІ: українську мовну модель протестують

Статті на тему