Gemini 2.5: ИИ, который управляет браузером и открывает скрытые данные

Модель Gemini 2.5 от Google предлагает новую функциональность — она позволяет взаимодействовать с браузерным окном через нажатия, прокрутку и ввод текста, чтобы получить доступ к данным, которые недоступны через стандартные API. Это значит, что модель может "управлять" браузером, как человек, и извлекать информацию напрямую со страниц, обходя ограничения обычных программных интерфейсов.

Такая возможность расширяет спектр данных, с которыми может работать Gemini 2.5, позволяя получать свежую и точную информацию, доступную только на веб-страницах, но не предоставляемую API. Эта технология полезна для приложений, где нужно обрабатывать контент, недоступный программным способом, например, динамически изменяемые страницы или сайты.

Модель стала доступна для разработчиков. Интегрировать и тестировать её можно с помощью платформ Google AI Studio и Vertex AI.

Параллельно запущена публичная демонстрация возможностей модели. Она размещена в виртуальном браузере BrowserBase, где все желающие могут наблюдать за работой искусственного интеллекта в реальных условиях. В числе демонстрируемых задач — прохождение игры «2048» и анализ новостной ленты Hacker News для выявления наиболее обсуждаемых тем.