Епоха безкоштовних даних для навчання штучного інтелекту добігає кінця. Оскільки власники платформ почали вимагати мільйони за доступ до своєї інформації, а дедалі більше видавців блокує веб-скрейпінг, розробники ШІ змушені шукати нові джерела. Для створення наступного покоління нейромереж компаніям потрібна специфічна інформація, яка ніколи не була у відкритому доступі.
Про це пише видання Quartz, повідомляють Dengi.ua.
Традиційні мовні моделі навчалися на загальнодоступних текстах і зображеннях з інтернету. Однак зараз фокус зміщується на глибоко персоналізовану інформацію: історію прослуховувань у Spotify, патерни написання електронних листів або поведінкову аналітику з Instagram. Ці масиви даних належать виключно користувачам.
На ринку вже з'являються стартапи (наприклад, Vana), які створюють інфраструктуру, щоб люди могли добровільно і за винагороду надавати свій цифровий слід для навчання ШІ. За оцінками експертів, якщо 100 млн людей поділяться даними тільки з п'яти платформ, це створить масив, який у 30 разів перевищує будь-який наявний набір даних.
Наступне покоління ШІ (робототехніка, безпілотні автомобілі та доповнена реальність) потребує надточних просторових даних, яких поки що не існує в потрібному масштабі. Наявні супутникові знімки не мають достатньої роздільної здатності, а класична аерозйомка занадто фрагментована. Тож такі компанії, як Spexi, почали масово залучати тисячі пілотів дронів для регулярного та детального сканування міст з висоти 80 метрів, створюючи надточні динамічні карти для навчання просторових моделей.
Третім великим джерелом стають внутрішні корпоративні архіви. Протягом останнього десятиліття бізнес накопичував терабайти неструктурованої інформації в хмарних сховищах. Однак експерти застерігають від "прокляття ChatGPT" - наївної спроби просто "згодувати" всі ці хаотичні дані мовній моделі. Для ефективного використання в ШІ корпоративна інформація має бути ретельно очищена, структурована та позбавлена бюрократичних бар'єрів між різними відділами. Розробники зазначають, що індустрія поступово відмовляється від ілюзій про швидкі та дешеві рішення, переходячи до прагматичного управління даними.
Як ми писали раніше, за останній рік провідні світові гіганти з різних секторів економіки втратили десятки мільярдів доларів своєї вартості.
Також ми вже писали, що індустрія переробки відходів робить ставку на штучний інтелект і робототехніку для вирішення глобальної проблеми сортування сміття.


