Perplexity переводить частину AI-навантаження на ваш ноутбук

Гібридна система інференсу Perplexity: Майбутнє ШІ на стику локальних обчислень та хмарних потужностей

Створіть обліковий запис, щоб зберігати статті.Додати в GoogleДодайте Decrypt як ваші улюблені джерела, щоб бачити більше наших історій у Google.

Коротко

Компанія Perplexity анонсувала “гібридний агентний інференс” на Computex 2026 — систему, що автоматично розподіляє завдання штучного інтелекту між локальним пристроєм користувача та хмарними передовими моделями, без необхідності ручного налаштування.
Функція з’явиться в Perplexity Computer у липні, була продемонстрована на процесорах Intel Core Ultra Series 3 і наразі ексклюзивна для Windows PC-додатку.
Генеральний директор Аравінд Срінівас представив цей крок як шлях до ефективності витрат: дохід Perplexity зріс уп’ятеро до 500 мільйонів доларів, тоді як кількість персоналу збільшилася лише на 34%. Розвантаження інференсу на обладнання користувача допомагає підтримувати цей коефіцієнт.

Генеральний директор Perplexity Аравінд Срінівас виступив на Computex 2026 у Тайбеї 2 червня разом із генеральним директором Intel Ліп-Бу Таном, щоб анонсувати те, що компанія називає першим гібридним оркестратором інференсу для персональних комп’ютерів. Система, яка з’явиться в Perplexity Computer у липні, автоматично визначає, які частини завдання ШІ будуть виконуватися на вашій машині, а які — перенаправляються до потужніших моделей у хмарі, без необхідності вашого вибору.

«Сьогодні ми анонсуємо наступний крок для персональних комп’ютерів: перший гібридний оркестратор інференсу локального сервера», — заявили в Perplexity. «Він вирішує, яка робота повинна виконуватися на вашому пристрої, а яка — відправлятися до хмарних агентів, автоматично направляючи кожну частину завдання у правильне місце».

«Правильна мета для системи ШІ — надавати максимальну цінність токенів за ват для кожного користувача», — зазначила Perplexity в офіційному анонсі. Три конкуруючі тиски ускладнюють це: точність вимагає найпотужніших моделей, конфіденційність вимагає, щоб деякі дані ніколи не покидали вашу машину, а вартість вимагає, щоб ви не витрачали обчислювальні ресурси передової моделі на завдання, з яким може впоратися менша.

Рішення, яке Perplexity називає “гібридним агентним інференсом”, одночасно вирішує всі три проблеми. Компактна модель працює локально на вашому пристрої та діє як диспетчер, визначаючи, яка інформація є достатньо чутливою, щоб залишатися локальною, а які завдання потребують повної потужності хмарної передової моделі.

«Гібридний агентний інференс призначений для роботи, яка включає конфіденційні дані, але потребує потужного ШІ. Наприклад, фінансові записи, медична інформація та особисті файли», — пояснили в компанії. «Компактна модель працює локально на вашому пристрої, щоб визначати, коли конфіденційні дані також мають залишатися локальними. Тим часом, робота, що потребує повної потужності передової моделі, виконується на сервері».

Чи варто це уваги?

Інференс — процес запуску навченої моделі ШІ для генерації відповіді — це обчислювальна робота, яка відбувається щоразу, коли ви надсилаєте запит до чат-бота. Наразі майже вся вона виконується на віддалених серверах, що належать компаніям ШІ. Це означає, що ваші фінансові документи, медичні запити та приватні нотатки надходять на комп’ютер іншої особи, перш ніж ви отримаєте відповідь.

Саме тому ви бачите режими “Авто” або “низьке мислення” у своїх чат-ботах. Компанії ШІ завжди намагатимуться змусити користувачів використовувати найдешевший для них режим обробки запитів.

Срінівас прямо заявив про це. В інтерв’ю Bloomberg Television на Computex він відкрито сказав: «Ви не хочете, щоб усі ваші обчислення були централізовані на серверах, а все запускалося через найбільші моделі. Деякі компанії витрачають півмільярда доларів на місяць. Насправді вам потрібна ефективна цінність за ват на користувача». Передача роботи з інференсу на обладнання користувачів зменшує ці витрати — для Perplexity.

Локальний інференс є найкращим для цих компаній, оскільки він значно скорочує витрати, але має головну перевагу для користувачів ШІ: він зберігає ці дані на вашій машині. Компромісом завжди була потужність: менші моделі, що працюють локально, менш здатні, ніж великі, що знаходяться в центрах обробки даних.

Оркестратор Perplexity намагається досягти обох цілей. Прості завдання — узагальнення документа, який ви вже написали, форматування тексту, легка класифікація — виконуються локально. Складні міркування перенаправляються до хмари, в ідеалі без чутливих частин вашого завдання. Компанія стверджує, що це відбувається автоматично, посеред завдання, непомітно для користувача. Чи буде таке маршрутизація надійною на практиці, як це звучить під час демонстрації на Computex, покаже розгортання у липні.

Варто зробити одне уточнення: це не Perplexity роздає відкриту локальну модель, яку ви контролюєте. Локальний компонент — це компактна модель, яку Perplexity розгортає як частину свого додатку. Хмарний компонент все ще маршрутизується через сервери Perplexity. Користувачі, які прагнуть повністю офлайн-рішення для самостійного розміщення — подібного до того, що пропонують проєкти на кшталт MiniCPM5-1B — не знайдуть цього тут.

Цифри надають контекст для цього твердження. Дохід Perplexity зріс зі 100 мільйонів до 500 мільйонів доларів, тоді як кількість персоналу збільшилася лише на 34%, оголосив Срінівас у квітні. Компанія, яка маршрутизує запити між моделями, які вона не тренує, має сильні стимули тримати витрати на обчислення якомога нижчими. Передача частини навантаження з інференсу на пристрої користувачів — мільярди ПК, що вже знаходяться в обігу — є ефективним способом досягнення цього. Аргумент про конфіденційність є реальним, але він зручно узгоджується з фінансовим.

Хто ще це робить?

Кожен великий гравець у сфері ШІ зараз рухається до інференсу на пристрої або гібридного інференсу. Apple Intelligence виконує найчутливішу обробку локально на чіпах серії M. Microsoft Foundry Local досяг загальної доступності у квітні 2026 року, забезпечуючи повний інференс ШІ на Windows, macOS та Linux без залежності від хмари.

Nvidia анонсувала RTX Spark на тому ж Computex, де Perplexity зробила своє оголошення, спрямоване на локальний інференс LLM на ноутбуках і настільних комп’ютерах. Підхід Google, як повідомляв *Decrypt*, був більш суперечливим — Chrome мовчки встановлював 4-гігабайтну модель Gemini Nano без згоди користувача, а кнопка “AI Mode”, яку бачить більшість користувачів, навіть не використовує її.

Відмінність Perplexity полягає в рівні оркестрації. Замість того, щоб просити користувачів обирати локальний або хмарний варіант заздалегідь, система вирішує це для кожного завдання в реальному часі. Срінівас зазначив, що підхід є «незалежним від чіпа» — демонстрація на Computex працювала на Intel Core Ultra Series 3, але процесори Nvidia також підтримуються. Функція наразі є ексклюзивною для додатка Perplexity для Windows PC, а терміни ширшого розгортання ще не підтверджені.

Погляд Crypto Top: Інтеграція гібридного інференсу ШІ Perplexity може стимулювати децентралізовані обчислювальні мережі, коли користувачі зможуть монетизувати свої невикористані обчислювальні потужності для завдань ШІ. Це також може призвести до появи нових токенів, що представляють доступ до цих ресурсів або винагороджують за внесок у мережу.

Джерело: decrypt.co

No votes yet.

Please wait...

Гібридна система інференсу Perplexity: Майбутнє ШІ на стику локальних обчислень та хмарних потужностей

Коротко

Залишити відповідьСкасувати відповідь