Эпоха бесплатных данных для обучения искусственного интеллекта подходит к концу. Поскольку владельцы платформ начали требовать миллионы за доступ к своей информации, а все больше издателей блокирует веб-скрейпинг, разработчики ИИ вынуждены искать новые источники. Для создания следующего поколения нейросетей компаниям нужна специфическая информация, которая никогда не была в открытом доступе.
Об этом пишет издание Quartz, сообщают Dengi.ua.
Читай также: $100 в час за ругань с ИИ: стартап платит за издевательства над чат-ботами
Традиционные языковые модели обучались на общедоступных текстах и изображениях из интернета. Однако сейчас фокус смещается на глубоко персонализированную информацию: историю прослушиваний в Spotify, паттерны написания электронных писем или поведенческую аналитику из Instagram. Эти массивы данных принадлежат исключительно пользователям.
На рынке уже появляются стартапы (например, Vana), которые создают инфраструктуру, чтобы люди могли добровольно и за вознаграждение предоставлять свой цифровой след для обучения ИИ. По оценкам экспертов, если 100 млн человек поделятся данными только с пяти платформ, это создаст массив, в 30 раз превышающий любой существующий набор данных.
Следующее поколение ИИ (робототехника, беспилотные автомобили и дополненная реальность) нуждается в сверхточных пространственных данных, которых пока не существует в нужном масштабе. Имеющиеся спутниковые снимки не имеют достаточного разрешения, а классическая аэросъемка слишком фрагментирована. Поэтому такие компании, как Spexi, начали массово привлекать тысячи пилотов дронов для регулярного и детального сканирования городов с высоты 80 метров, создавая сверхточные динамические карты для обучения пространственных моделей.
Третьим крупным источником становятся внутренние корпоративные архивы. В течение последнего десятилетия бизнес накапливал терабайты неструктурированной информации в облачных хранилищах. Однако эксперты предостерегают от «проклятия ChatGPT» — наивной попытки просто «скормить» все эти хаотичные данные языковой модели. Для эффективного использования в ИИ корпоративная информация должна быть тщательно очищена, структурирована и лишена бюрократических барьеров между различными отделами. Разработчики отмечают, что индустрия постепенно отказывается от иллюзий о быстрых и дешевых решениях, переходя к прагматичному управлению данными.
Как мы писали ранее, за последний год ведущие мировые гиганты из разных секторов экономики потеряли десятки миллиардов долларов своей стоимости.
Также мы уже писали, что индустрия переработки отходов делает ставку на искусственный интеллект и робототехнику для решения глобальной проблемы сортировки мусора.