Нещодавно в журналі Nature з’явилася стаття, яка змусила наукову спільноту — та й нас — щиро здивуватись. Згідно з дослідженням, сучасні великі мовні моделі (LLM) та мультимодальні моделі (MLLM), які є основою курсів зі штучного інтелекту та AI навчання, формують уявлення про світ дуже подібно до людського мозку!
Ми уважно вивчили це дослідження і розповімо вам простими словами, чому воно таке важливе. Погнали!
Що за дослідження?
Уявіть: ви дивитеся на яблуко, собаку і стілець. Інтуїтивно розумієте — яблуко і собака «живі», а стілець — ні. А ще собака ближча до кішки, ніж до мікрохвильовки. Це — базова здатність людини групувати об’єкти за смислом. А чи можуть нейромережі, як-от ChatGPT або Gemini, робити те саме?
Щоб це перевірити, науковці зібрали 4,7 мільйона відповідей на завдання «знайди зайве». Вони створили базу з 1854 об’єктів — від тварин до техніки — та сформували мільйони тріо (наприклад: «альпака, антилопа, обладунки»). Завдання: вибрати, що з цього не пасує.
Участь взяли три «гравці»:
- Люди — тисячі користувачів з платформи Amazon Mechanical Turk.
- Мовна модель ChatGPT-3.5 — бачила лише текстові описи об’єктів (AI навчання у дії).
- Мультимодальна модель Gemini ProVision — бачила зображення (що стосується теми генерація зображень AI).
Як це працює?
На основі мільйонів відповідей дослідники створили так звані ментальні мапи — уявні простори, де кожен об’єкт має свою координату, а схожі об’єкти розташовані поруч.
Для побудови мап вони використали метод SPOS (Sparse Positive Similarity Embedding), який перетворив відповіді в 66-вимірний простір смислів. І найцікавіше: ці простори виявилися стабільними та логічними, а не випадковими.
Основні висновки
Нейромережі мислять як люди
- Нейромережі самостійно формують категорії, подібні до людських: тварини, їжа, техніка тощо.
- Навіть виміри в моделі мають сенс: одне групує їжу, інше — домашніх тварин, ще одне — транспорт.
- Модель Gemini, яка бачила картинки, навіть виділила категорії типу «ювелірні прикраси» або «дрібні об’єкти» — те, чого текстова ChatGPT не змогла.
Мультимодальні моделі ближче до людини
За допомогою аналізу RSA (Representational Similarity Analysis) науковці порівняли, наскільки подібні ментальні мапи:
- Gemini ближча до людини, ніж ChatGPT.
- Люди — візуальні майстри: ми краще розпізнаємо форми, кольори, текстури.
- ChatGPT — педант: створює дуже вузькі категорії (типу «заморожені десерти»), там, де люди кажуть просто «їжа».
Нейросітки та мозок працюють схоже
Дослідники порівняли ментальні карти моделей з fMRI-сканами мозку з проекту Natural Scenes Dataset. Виявилося, що об’єкти, які Gemini вважає схожими, викликають подібну активність у людській зоровій корі (зони FFA, EBA, PPA, RSC).
Це як нейромережа й мозок, ідучи різними шляхами, приходять до одного й того ж розуміння світу.
Що це означає?
Це дослідження — прорив у розумінні, як нейромережі розуміють світ. Вони не просто повторюють людські відповіді, а формують власні уявлення та категорії, подібні до наших. Це важливо і для AI навчання, і для розвитку курсів зі штучного інтелекту.
Що це дає науці?
Допомога в нейронауках
Аналізуючи, як штучний інтелект категоризує світ, ми можемо краще зрозуміти, як це робить наш мозок.
Філософське питання
Чи потрібен біологічний мозок, щоб «розуміти» світ?
Це дослідження натякає: ні. Достатньо складної нейромережі та великої кількості даних. І тут ми наближаємося до межі між імітацією й справжнім розумінням.
Недоліки дослідження
- Мало моделей: лише ChatGPT-3.5 і Gemini ProVision. Щоб зробити висновки про сучасні моделі (як у сучасних курсах ChatGPT), потрібні нові тести.
- Попередні описи: ChatGPT використовувала готові описи з WordNet, отже, могла просто «віддзеркалити» людське уявлення, а не створити власне.
- Кореляція ≠ тождество: навіть якщо мапи схожі, мозок і нейромережа працюють фундаментально по-різному.
- Чорна скринька: метод SPOS показує результат, але не пояснює, як саме виникають категорії.
Висновок
Це дослідження — потужний аргумент на користь того, що мультимодальні моделі штучного інтелекту (такі як Gemini) будують уявлення про світ, які дуже схожі на людські. Вони не лише нас імітують, а по-справжньому «вчаться бачити» так, як ми. І саме завдяки цьому штучний інтелект курс може ставати не лише технічним, а й глибоко гуманітарним.
Проте запитань ще багато:
— Як саме нейромережі приходять до своїх категорій?
— Наскільки вони універсальні?
— І чи мислять вони насправді?
Ми живемо у час, коли ІІ стрімко наближається до людського рівня сприйняття. І кожне нове дослідження — це ще один крок до розуміння як себе, так і машин.