Создание ИИ-агента: кейс OpenAI для анализа больших данных

Представьте финансового аналитика в OpenAI. Еще год назад, чтобы сравнить выручку по регионам и клиентским сегментам, ему требовались часы кропотливой работы: сложная аналитика баз данных, включающая поиск нужных таблиц среди 70 000 наборов данных и написание сложных SQL-запросов. Сегодня тот же аналитик задает вопрос на естественном языке в Slack и через несколько минут получает готовый график. За этой революционной трансформацией стоит внутренний ИИ-агент, который изменил правила игры для 4000 сотрудников компании. Что поражает больше всего? Его создали всего два инженера за три месяца, при этом два инженера создали инструмент, 70% кода которого написал искусственный интеллект [3]. Это один из самых смелых примеров внедрения ИИ-агента внутри корпорации. В этой статье мы детально разберем этот кейс, опираясь на эксклюзивные комментарии Эммы Танг, руководителя отдела инфраструктуры данных OpenAI. Это не просто рассказ о технологическом прорыве, а глубокий анализ того, какие реальные барьеры мешают компаниям стать по-настоящему «умными» организациями и как их можно преодолеть.

Горизонтальный интеллект: один агент для 600 петабайт данных

Чтобы в полной мере оценить созданное OpenAI решение, необходимо сначала осознать масштаб проблемы, с которой столкнулась компания. Речь идет не просто о больших данных, а о поистине астрономических объемах, где ключевую роль играет анализ больших данных ИИ. Платформа данных компании OpenAI охватывает более 600 петабайт информации, разбросанной по 70 000 наборов данных [1]. В такой сложной и фрагментированной среде эффективный анализ больших данных с помощью ИИ усложнялся, и даже тривиальная, на первый взгляд, задача — найти нужную таблицу или проверить схему данных — превращалась в многочасовое исследование для аналитиков и инженеров. Этот информационный хаос становился серьезным барьером для оперативного принятия решений и тормозил инновации.

Ответом на этот вызов стал внутренний ИИ-агент, спроектированный как интеллектуальный интерфейс к этому океану информации. В его основе лежит мощная модель GPT-5.2 [2], которая позволяет сотрудникам взаимодействовать с данными на естественном языке. Вместо написания кода или навигации по сложным BI-инструментам, пользователь просто задает вопрос в привычной для себя среде — будь то корпоративный мессенджер Slack, интегрированная среда разработки (IDE) или специализированный веб-интерфейс. В считанные минуты агент самостоятельно находит нужные данные, обрабатывает их и представляет результат в наглядном виде: в форме графиков, интерактивных дашбордов или полноценных аналитических отчетов. Такой подход не просто ускоряет работу — он ее фундаментально меняет.

Внедрение ИИ-агентов позволяет демократизировать доступ к корпоративным данным, предоставляя нетехническим специалистам возможность проводить сложный анализ без знания SQL и схем данных. Это открывает новые горизонты для всех команд. Например, финансовый отдел теперь может мгновенно получать разбивку доходов по географии и когортам клиентов. Менеджеры по продукту в реальном времени отслеживают, как пользователи принимают новые функции, а инженеры могут оперативно диагностировать проблемы с производительностью, задав агенту прямой вопрос о причинах роста задержек в определенном компоненте системы и сравнив показатели с предыдущими периодами. Но истинная мощь и уникальность этого инструмента раскрываются в его «горизонтальной» природе. Большинство корпоративных ИИ-ассистентов работают в строгих вертикальных «колодцах», обслуживая один конкретный департамент — финансы, HR или маркетинг. Агент OpenAI, напротив, способен пересекать эти организационные границы. Как отмечает Эмма Танг, руководитель отдела инфраструктуры данных, это позволяет руководству в рамках одного запроса объединять метрики из совершенно разных областей: данные о продажах, показатели эффективности инженерных команд и аналитику по использованию продукта. Система самостоятельно находит связи и представляет целостную картину, разрушая информационные барьеры между отделами. Именно эта кросс-департаментная функциональность, по словам Танг, является ключевым стратегическим преимуществом и уникальной чертой разработанной платформы.

Под капотом: как Codex каталогизирует хаос и шесть слоев контекста

Когда перед вами 70 000 наборов данных, главная техническая проблема — это не скорость ответа, а поиск истины. Самой сложной задачей для команды OpenAI было научить ИИ-агента находить нужную таблицу в этом информационном хаосе. Решение оказалось нетривиальным и многогранным, а его ядром стал Codex. В этой системе он выполняет тройную функцию. Во-первых, он служит интерфейсом для взаимодействия с пользователем. Во-вторых, именно Codex сгенерировал более 70% кода самого агента, что позволило двум инженерам создать его за три месяца. Но его третья, самая важная роль, — это асинхронный процесс, который работает в фоновом режиме, методично каталогизируя данные. Codex — это модель искусственного интеллекта от OpenAI, специально обученная для понимания и написания программного кода. В статье она используется не только для генерации кода самого ИИ-агента, но и для анализа данных, помогая системе находить нужные таблицы и понимать их структуру.

Каждый день этот процесс «прочесывает» ключевые таблицы данных, анализирует код их конвейеров и извлекает критически важные метаданные: кто владелец таблицы, каковы ее зависимости, по каким ключам ее можно объединять с другими и какие таблицы похожи на нее по содержанию. Ключевым фактором успеха здесь является использование ИИ не только для ответов на запросы, но и для автоматической каталогизации и обогащения метаданных в огромных и сложных информационных ландшафтах. Результаты этого анализа сохраняются не в обычной реляционной базе, а используется специальная векторная база данных для ИИ. Так что такое векторная база данных? Это специализированный тип базы данных, предназначенный для хранения и поиска информации на основе ее смысловой близости, а не точного совпадения. Простыми словами, векторная база данных позволяет ИИ-агенту быстро находить нужные таблицы данных, сопоставляя значение вопроса пользователя (например, «доходы») с описаниями таблиц, даже если они сформулированы по-разному.

Однако обогащение от Codex — это лишь один из шести слоев контекста, которые агент использует для принятия решений. Архитектура его «знаний» включает:

  1. Метаданные схемы: базовая информация о столбцах и типах данных.
  2. Курируемые описания: созданные экспертами аннотации к важным таблицам.
  3. Институциональные знания: информация, извлеченная из внутренних документов в Slack, Google Docs и Notion.
  4. Память обучения: исправления и уточнения из предыдущих диалогов с пользователями.
  5. Живые запросы: в крайнем случае агент может напрямую запрашивать хранилище данных.
  6. Обогащение Codex: вышеупомянутый автоматический анализ.

Чтобы ориентироваться в этом многообразии, система ранжирует источники. Например, канонические дашборды и отчеты для руководства, в которые аналитики уже вложили время для верификации, помечаются как «источник истины» и получают наивысший приоритет. Такой подход жизненно важен, поскольку автоматическая каталогизация с помощью ИИ может вносить системные, труднообнаружимые ошибки. Неправильная интерпретация одной ключевой таблицы приведет к каскаду неверных выводов во всей компании, поэтому многоуровневая проверка и приоритизация источников — не роскошь, а необходимость.

Битва с самоуверенностью: промпт-инжиниринг и прагматичная безопасность

Даже при наличии шести слоев контекста команда OpenAI столкнулась с главной поведенческой проблемой агента — его излишней самоуверенностью. Как и многие большие языковые модели, он стремился как можно быстрее выбрать таблицу данных и приступить к анализу, что часто приводило к неверным выводам. Решение этой проблемы было найдено через промпт инжиниринг — по сути, это процесс создания и оптимизации текстовых запросов для получения от языковой модели наиболее точных и релевантных ответов. В данном случае метод использовался, чтобы заставить ИИ-агента быть менее поспешным и проводить более тщательный анализ.

Используя методы промт-инжиниринга, команда разработала промпт, который звучит почти как наставление для младшего аналитика: «Прежде чем ты побежишь вперед с этим, я хочу, чтобы ты провел дополнительную проверку, является ли эта таблица правильной. Пожалуйста, изучи больше источников, прежде чем создавать реальные данные». Этот подход, заставляющий модель «замедлиться и подумать», значительно повысил качество результатов. В ходе экспериментов также выяснилось, что меньший, но более качественный и тщательно отобранный контекст работает лучше, чем попытка «скормить» модели все доступные данные. Однако стоит признать, что зависимость от промпт-инжиниринга — это хрупкое решение. Незначительное обновление базовой модели может сломать всю логику работы агента, требуя постоянной и дорогостоящей доработки.

Эффективность и надежность ИИ-агента напрямую зависят от качества промпт-инжиниринга, который позволяет управлять поведением модели, и от прозрачности его работы для построения доверия пользователей. Чтобы сотрудники не воспринимали инструмент как «черный ящик», команда внедрила три ключевых механизма. Во-первых, агент транслирует свои рассуждения в реальном времени, показывая, какие таблицы он выбрал и почему. Во-вторых, у пользователя есть возможность в любой момент прервать анализ и скорректировать его. Наконец, по завершении каждой задачи модель проводит самооценку, отвечая на вопрос: «Как, по-твоему, все прошло?».

Когда дело доходит до безопасности, подход команды удивляет своим прагматизмом. Вместо сложных техник ИИ-согласования были внедрены простые, но надежные барьеры. В основе лежит строгий контроль доступа: агент всегда использует личный токен пользователя, поэтому видит только те данные, к которым у сотрудника и так есть допуск. Кроме того, он работает исключительно в приватных каналах или личных интерфейсах. Наконец, возможность записи данных строго ограничена временной тестовой схемой, которая периодически очищается и не может быть использована для обмена информацией.

Стратегия OpenAI и скрытые риски: платформа вместо продукта

Несмотря на очевидный коммерческий потенциал, OpenAI не планирует превращать своего внутреннего агента данных в коробочный продукт. Этот ход раскрывает более масштабную и хитрую бизнес-стратегию: компания позиционирует себя не как продавец готовых решений, а как поставщик фундаментальной платформы. Идея в том, чтобы предоставить бизнесу мощные строительные блоки — API и базовые модели, — из которых клиенты будут самостоятельно конструировать кастомизированные решения, идеально заточенные под их уникальные данные и процессы. Все инструменты, использованные для создания внутреннего агента, включая Responses API, Evals API и модель GPT-5.2, уже общедоступны.

Масштаб, в котором сама OpenAI использует собственные «кубики», служит лучшей рекламой этого подхода. По внутренним данным, Codex используют 95% инженеров в OpenAI, и он проверяет все pull-реквесты перед их слиянием [4]. Инструмент давно вышел за пределы чисто инженерных задач, помогая нетехническим командам организовывать информацию и готовить аналитические справки.

Однако за этой привлекательной моделью «собери сам» скрывается ряд серьезных рисков для компаний-клиентов. Ключевая проблема — формирование жесткой зависимости от платформы, или Vendor Lock-in. Компании, стремящиеся избежать этого, начинают искать аналоги OpenAI, предлагающие большую гибкость или открытый исходный код. Интегрируя бизнес-критическую функцию в экосистему OpenAI, компания становится крайне уязвимой к любым изменениям ценовой политики, обновлению API или даже цензурным ограничениям со стороны провайдера. Эта стратегическая зависимость порождает каскад других рисков. Экономический риск заключается в неконтролируемом росте расходов на API-вызовы при масштабировании на тысячи сотрудников. Технический риск связан с постоянной угрозой «галлюцинаций» и чрезмерной самоуверенностью моделей, которую признают даже их создатели. Наконец, самый коварный — операционный риск: постепенная деградация аналитических компетенций персонала. Чрезмерное доверие к ИИ-агенту снижает способность сотрудников к критическому мышлению и самостоятельной верификации данных, превращая их в операторов промптов. Таким образом, выбор платформы OpenAI — это компромисс между гибкостью и зависимостью, требующий трезвой оценки долгосрочных последствий.

Неизбежное будущее аналитики и его ‘непривлекательная’ цена

Опыт OpenAI подводит нас к главному, хоть и не самому вдохновляющему выводу, озвученному Эммой Танг. Настоящим барьером на пути к созданию эффективных корпоративных ИИ-агентов является не сложность моделей, а «непривлекательная» необходимость в качественном управлении данными. Их чистота, аннотирование и наличие четких «источников истины» — это тот фундамент, без которого самые передовые алгоритмы остаются бессильны. Заглядывая вперед, OpenAI планирует развивать систему в сторону архитектуры мультиагентных систем — это концепция, в которой несколько независимых ИИ-агентов работают вместе, выполняя разные задачи и взаимодействуя друг с другом для достижения общей цели. Например, один агент может специализироваться на поиске данных, другой — на их анализе, а третий — на проверке результатов. Впрочем, нельзя игнорировать и долю скепсиса: тезис о первичности данных может быть и PR-ходом, который удобно смещает фокус с недостатков самой модели на проблемы клиента. Какое будущее ждет эту технологию? Можно выделить три вероятных сценария. Позитивный предполагает, что ИИ-агенты станут стандартом, экспоненциально ускоряя принятие решений. Нейтральный отводит им роль нишевого инструмента для зрелых компаний, ограниченного высокой стоимостью. Негативный же сценарий рисует картину громких провалов из-за неверных данных, подрыва доверия и возврата к традиционным BI-платформам. Независимо от того, какой путь окажется доминирующим, предостережение Танг звучит предельно ясно. В ближайшие годы произойдет неизбежное разделение: на одной стороне окажутся компании, которые приняли «непривлекательную» цену цифровой трансформации и внедрили технологию, а на другой — те, кто безнадежно отстал.

Часто задаваемые вопросы

Как ИИ-агент OpenAI изменил процесс работы с данными для сотрудников?

ИИ-агент OpenAI трансформировал работу с данными, позволяя сотрудникам задавать вопросы на естественном языке в Slack, IDE или веб-интерфейсе. Вместо многочасового поиска и написания SQL-запросов, аналитики получают готовые графики и отчеты за минуты. Это демократизировало доступ к корпоративным данным для 4000 сотрудников, включая нетехнических специалистов.

Что такое «горизонтальный интеллект» ИИ-агента OpenAI и в чем его уникальность?

«Горизонтальный интеллект» ИИ-агента OpenAI означает его способность пересекать организационные границы и объединять метрики из разных департаментов, таких как продажи, инженерия и использование продукта. В отличие от большинства корпоративных ассистентов, работающих в «вертикальных колодцах», агент OpenAI представляет целостную картину, разрушая информационные барьеры между отделами. Это является ключевым стратегическим преимуществом разработанной платформы.

Как модель Codex используется в ИИ-агенте OpenAI для каталогизации данных?

Модель Codex выполняет тройную функцию в ИИ-агенте: служит интерфейсом, генерирует 70% кода агента и асинхронно каталогизирует данные. Ежедневно Codex анализирует ключевые таблицы, их конвейеры и извлекает метаданные, такие как владелец, зависимости и ключи объединения. Результаты сохраняются в векторной базе данных, что позволяет агенту быстро находить нужные таблицы по смысловой близости запроса.

Почему OpenAI использует промпт-инжиниринг для борьбы с «самоуверенностью» ИИ-агента?

OpenAI использует промпт-инжиниринг для борьбы с излишней самоуверенностью ИИ-агента, который стремился слишком быстро выбрать таблицу и начать анализ, что часто приводило к неверным выводам. Методы промпт-инжиниринга, такие как наставление «замедлиться и подумать», заставляют модель проводить более тщательный анализ и изучать больше источников. Это значительно повысило качество результатов, хотя и является хрупким решением.

Какие риски для компаний-клиентов связаны со стратегией OpenAI по предоставлению платформы вместо готового продукта?

Стратегия OpenAI по предоставлению платформы вместо готового продукта несет для клиентов риски, включая Vendor Lock-in, когда компания становится зависимой от экосистемы OpenAI. Это влечет экономический риск из-за неконтролируемого роста расходов на API-вызовы и технический риск, связанный с «галлюцинациями» моделей. Также существует операционный риск деградации аналитических компетенций персонала из-за чрезмерного доверия к ИИ-агенту.

Jimbeardt

author & editor_