«Ми живемо у часи, коли світ змагається за створення провідних базових моделей штучного інтелекту. Хоча обчислювальні потужності та архітектура мають значення, справжню довгострокову перевагу дають саме навчальні дані».
— Сандіп Чінчалі, головний AI-директор, Story
Одна з найгучніших подій цього місяця у сфері штучного інтелекту — демонстрація надпотужних фінансових ресурсів Meta, коли Марк Цукерберг активно залучає талановитих фахівців для створення команди Meta AI світового класу, зокрема за участю китайських науковців. На чолі — 28-річний Александер Ван, засновник Scale AI. Компанію він розвивав із нуля: зараз її ринкова капіталізація складає $29 млрд, а серед клієнтів — Міністерство оборони США, конкуренти на кшталт OpenAI, Anthropic і сама Meta. Всі ці гіганти покладаються на Scale AI у питаннях даних. Основний бізнес компанії — постачання масштабних, якісно розмічених навчальних датасетів.
Головний фактор — своєчасне усвідомлення ключової ролі даних для всієї AI-індустрії.
Три кити штучного інтелекту — це обчислення, моделі та дані. Модель — це тіло, обчислення — їжа, а дані — знання й досвід.
Зі зростанням великих мовних моделей фокус індустрії перемістився від архітектур до інфраструктури обчислень. Більшість флагманських моделей перейшли на трансформери, іноді експериментуючи з MoE чи MoRe. Провідні гравці або створюють власні суперкомп’ютерні кластери, або укладають контракти з хмарними гігантами на кшталт AWS. Коли обчислювальні ресурси гарантовані, у центрі уваги опиняються саме дані.
На відміну від класичних дата-компаній на кшталт Palantir, Scale AI будує міцний фундамент для штучного інтелекту. Компанія не просто аналізує наявні дані — вона генерує нові, залучає лабораторії експертів-тренерів і забезпечує якісно розмічені набори для навчання AI-моделей.
Навчання моделі штучного інтелекту — це два етапи: попереднє навчання та донавчання.
Попереднє навчання має спільне з тим, як дитина опановує мову: AI засвоює великі обсяги тексту й коду з інтернету, вчиться природній комунікації.
Донавчання — це вже формальна освіта: на цьому етапі модель отримує чітко структуровані завдання з правильними й неправильними відповідями. Так само, як школярів формує програма навчання, моделі розвивають конкретні навички на основі тематичних датасетів.
Тепер очевидно: необхідні обидва типи даних.
· Перший тип — дані з мінімальною обробкою, де кількість важливіша за якість. Зазвичай це веб-датасети з платформ на кшталт Reddit чи Twitter, відкритих літературних архівів, корпоративних сховищ.
· Другий — це спеціалізовані, ретельно підготовлені навчальні набори, які забезпечують розвиток конкретних навичок. Для них властиві ручна розмітка, чистка, фільтрація, людський зворотний зв’язок.
Разом ці масиви визначають структуру AI-ринку даних. Хоча технологічно все виглядає просто, поступово (зі зменшенням ефекту від масштабування обчислень) саме якість даних стає головною конкурентною перевагою.
У міру прогресу моделей саме вузькопрофільні, високоякісні дані визначають результати навчання. Можна порівняти: якщо підготовка моделі — це тренування майстра бойових мистецтв, то дані — це досконалий підручник, обчислення — особливе еліксирне підживлення, а сама модель — природний талант.
З галузевої позиції сектор AI-даних дає ефект складного відсотка: перші послідовно накопичувані дані стають дорожчими й ціннішими з часом.
На відміну від тисяч анотувальників на аутсорсі у Філіппінах чи Венесуелі для Scale AI, у Web3 є унікальна перевага — концепція DataFi.
Оптимальні переваги Web3 DataFi:
Оскільки доступ до публічних даних практично вичерпано, ключовим активом стають унікальні та приватні набори. Тут виникає питання довіри: продати свої дані централізованому оператору або перенести IP на блокчейн, контролювати права власності й через смартконтракти прозоро відслідковувати, хто, коли й навіщо використовує інформацію?
Для конфіденційних даних технології, як-от zero-knowledge proof та TEE-обладнання, дають гарантію: ніхто, окрім машин, не бачить ваші дані, і ризик витоків зникає.
Час переглянути класичні трудові моделі. Замість централізованого глобального «полювання на дешеву робочу силу», як у Scale AI, децентралізована архітектура Web3 і відкриті винагороди дають змогу різноманітним учасникам вносити дані й отримувати справедливу оплату.
Розподіл завдань з розмітки чи валідації підвищує різноманітність, знижує упередженість — це особливо цінно для високоякісних наборів.
Щоб уникнути ненадійності, використовуйте смартконтракти, які забезпечують відкриті, кодом прописані винагороди — це ефективніше, ніж закриті й ручні системи управління.
За умов згортання глобалізації організовувати дешево територіальні філії все складніше. Ончейн-розрахунки дозволяють обійти кордони та платити напряму без перепон.
Вічна проблема — комісії посередників. Замість централізованого дата-оператора блокчейн-платформи можуть виступати відкритими майданчиками, напряму поєднуючи продавців і покупців, як на Taobao.
Попит на ончейн-дані ШІ зростає і ускладнюється, але лише децентралізовані ринки зможуть масштабно і ефективно задовольнити та монетизувати цю потребу.
Хоча ШІ-інструменти відкрили легкий вхід, а децентралізований AI формує опір сучасним монополіям, багато рішень залишаються складними для пересічних користувачів. Запуск у децентралізованих обчислювальних мережах часто вимагає дорогого обладнання, а маркетплейси моделей виглядають обтяжливими.
На противагу цьому, Web3 дає унікальні можливості простим користувачам. Не потрібні експлуатаційні контракти — достатньо підключити криптогаманець. Можна постачати дані, розмічати результати моделей, оцінювати якість, працювати з простими AI-інструментами для творчості — часто взагалі без технічного порога для досвідчених учасників airdrop.
Туди, куди йдуть гроші, рухається й тенденція. $14,3 млрд інвестицій Meta у Scale AI й п’ятикратне зростання акцій Palantir підтверджують перспективи DataFi у Web2; у Web3 цей напрям привертає ще більше інвестицій. Ось ключові проекти:
Sahara AI, @SaharaLabsAI, $49 млн
Sahara AI створює децентралізовану суперинфраструктуру ШІ та маркетплейс даних. Її платформа Data Services Platform (DSP) стартує в бета 22 липня й винагороджує користувачів за внесок і маркування даних.
Посилання: app.saharaai.com
Yupp, @yupp_ai, $33 млн
Yupp — платформа зворотного зв’язку ШІ, де користувачі оцінюють відповіді моделей, порівнюють відповіді на той самий запит і голосують за найкращу. Накопичені Yupp-бали можна обміняти на стейблкоїни типу USDC.
Посилання: https://yupp.ai/
Vana, @vana, $23 млн
Vana дозволяє користувачам перетворювати особисті дані (активність в браузері, соцмережах) на цифрові активи. Дані акумулюються в DataDAO та Data Liquidity Pools для навчання AI із токеновими винагородами для контриб’юторів.
Посилання: https://www.vana.org/collectives
Chainbase, @ChainbaseHQ, $16,5 млн
Chainbase працює з ончейн-даними, структуруючи активність з 200+ блокчейнів у нові комерційні активи для розробників DApp. Дані індексуються й обробляються за допомогою Manuscript і Theia AI. Для роздрібних користувачів участь обмежена.
Sapien, @JoinSapien, $15,5 млн
Sapien конвертує масивні людські знання у якісні AI-дані для тренування моделей. Розмітку може виконувати кожен, якість забезпечується рецензуванням спільноти. Довгострокова репутація й стейкінг дозволяють максимізувати винагороду.
Посилання: https://earn.sapien.io/#hiw
Prisma X, @PrismaXai, $11 млн
Prisma X формує відкриту платформу для координації робототехніки із фізичним збором даних. Проект на ранній стадії, користувачі вже можуть заробляти через допомогу у зборі даних, дистанційну роботу чи участь у конкурсах із балами.
Посилання: https://app.prismax.ai/whitepaper
Masa, @getmasafi, $8,9 млн
Masa — провідник у Bittensor-екосистемі, розвиваючи підмережі даних і агентів. Датасабнет забезпечує реальний доступ через TEE для збору даних з X/Twitter. Вартість і складність участі для роздрібних користувачів поки високі.
Irys, @irys_xyz, $8,7 млн
Irys — платформа програмованого зберігання й обробки даних для ШІ та DApp. Можливості користувацьких внесків обмежені, але тестнет активно залучає нових учасників.
Посилання: https://bitomokx.irys.xyz/
ORO, @getoro_xyz, $6 млн
ORO дозволяє підключати соціальні, медичні, фінтех-акаунти чи виконувати дата-завдання для розвитку ШІ. Тестнет відкритий усім бажаючим.
Посилання: app.getoro.xyz
Gata, @Gata_xyz, $4 млн
Gata — децентралізований дата-шар із трьома продуктами: Data Agent (AI-агенти у браузері), All-in-one Chat (оцінка моделей з винагородою, аналогічно Yupp), GPT-to-Earn (розширення для збору діалогів ChatGPT).
Посилання: https://app.gata.xyz/dataAgent
https://chromewebstore.google.com/detail/hhibbomloleicghkgmldapmghagagfao?utm_source=item-share-cb
На сьогодні технічні бар’єри невисокі, але залучення активних користувачів і екосистеми швидко впливає на успіх. Платформі критично рано інвестувати в стимули та юзерський досвід: лише широка база користувачів допоможе виграти гонку за дані.
Як трудомісткі сервіси, дата-платформи мають вирішити питання управління та якості інформації. Для багатьох Web3-проектів характерна проблема «фермерів» — більшість учасників приходять за короткотривалим прибутком, нехтуючи якістю. Якщо допускати це, такі користувачі витіснять якісних контриб’юторів, дані втратять цінність, а покупців стане менше. Вже сьогодні Sahara, Sapien та інші проекти акцентують на контролі якості та формуванні довгострокових відносин із учасниками.
Ще одне питання — прозорість. Через «неможливий тріумвірат» блокчейну стартапи часто стартують із централізованою архітектурою, та в Web3 є чимало платформ із мізерною кількістю ончейн-даних і нечіткими зобов'язаннями щодо відкритості. Це шкодить DataFi у тривалій перспективі. Хочеться бачити більше команд, які прискорюють рух до реальної децентралізації, відкритості та прозорості.
Для масового впровадження DataFi потрібні дві речі: достатня кількість роздрібних учасників для «підживлення» AI-економіки та корпоративні замовники як основне джерело доходів у найближчій перспективі. У цьому плані Sahara AI, Vana та інші вже досягли вагомих результатів.
DataFi — це використання людського інтелекту для розвитку машинного, з прозорим і чесним винагородженням за допомогою смартконтрактів, і можливістю отримувати вигоди від зростання штучного інтелекту.
Тим, хто вагається у добу ШІ чи зберігає довіру до блокчейн-технологій в умовах крипторинку, участь у DataFi може стати доречним і своєчасним рішенням.