Нова "золота лихоманка": чому за дані для ШІ компанії готові платити мільйони

На думку фахівців, бізнес має уникати бездумного годування хаотичних даних надсучасним чат-ботам.

Ілюстративне фото / depositphotos.com

Епоха безкоштовних даних для навчання штучного інтелекту добігає кінця. Оскільки власники платформ почали вимагати мільйони за доступ до своєї інформації, а дедалі більше видавців блокує веб-скрейпінг, розробники ШІ змушені шукати нові джерела. Для створення наступного покоління нейромереж компаніям потрібна специфічна інформація, яка ніколи не була у відкритому доступі.

Про це пише видання Quartz, повідомляють Dengi.ua.

Читайте також:

$100 на годину за лайку з ШІ: стартап платить за знущання над чат-ботами

Традиційні мовні моделі навчалися на загальнодоступних текстах і зображеннях з інтернету. Однак зараз фокус зміщується на глибоко персоналізовану інформацію: історію прослуховувань у Spotify, патерни написання електронних листів або поведінкову аналітику з Instagram. Ці масиви даних належать виключно користувачам.

На ринку вже з'являються стартапи (наприклад, Vana), які створюють інфраструктуру, щоб люди могли добровільно і за винагороду надавати свій цифровий слід для навчання ШІ. За оцінками експертів, якщо 100 млн людей поділяться даними тільки з п'яти платформ, це створить масив, який у 30 разів перевищує будь-який наявний набір даних.

Наступне покоління ШІ (робототехніка, безпілотні автомобілі та доповнена реальність) потребує надточних просторових даних, яких поки що не існує в потрібному масштабі. Наявні супутникові знімки не мають достатньої роздільної здатності, а класична аерозйомка занадто фрагментована. Тож такі компанії, як Spexi, почали масово залучати тисячі пілотів дронів для регулярного та детального сканування міст з висоти 80 метрів, створюючи надточні динамічні карти для навчання просторових моделей.

Третім великим джерелом стають внутрішні корпоративні архіви. Протягом останнього десятиліття бізнес накопичував терабайти неструктурованої інформації в хмарних сховищах. Однак експерти застерігають від "прокляття ChatGPT" - наївної спроби просто "згодувати" всі ці хаотичні дані мовній моделі. Для ефективного використання в ШІ корпоративна інформація має бути ретельно очищена, структурована та позбавлена бюрократичних бар'єрів між різними відділами. Розробники зазначають, що індустрія поступово відмовляється від ілюзій про швидкі та дешеві рішення, переходячи до прагматичного управління даними.

Як ми писали раніше, за останній рік провідні світові гіганти з різних секторів економіки втратили десятки мільярдів доларів своєї вартості.

Також ми вже писали, що індустрія переробки відходів робить ставку на штучний інтелект і робототехніку для вирішення глобальної проблеми сортування сміття.

Нова "золота лихоманка": чому за дані для ШІ компанії готові платити мільйони
ШІ

Статті на тему

Останні новини

Розшук ТЦК: чи можна вступити до вишу та які проблеми можуть виникнути

Добровільно-примусово: скільки грошей росіяни задонатили на війну

Комісія менша: як ФОП вигідніше сплачувати податки цього року

ТОП-Новини