Как устроен Glean Work AI: корпоративный поиск нового уровня
Разбираем архитектуру Glean Work AI: гибридный поиск, knowledge graph и AI-агенты для корпоративных данных

IT-архитектор и консультант с опытом в разработке и внедрении стратегий цифровой трансформации, построении хранилищ данных и аналитики, оптимизации процессов и управлении командами разработки.
AI-платформы становятся новой точкой роста для корпораций: они объединяют поиск, аналитику и работу с данными в единую экосистему. Сегодня мы рассмотрим одну из таких платформ, чтобы лучше понять, что представляет собой этот класс решений.

Гибридная поисковая система (Hybrid Search)
Glean использует сочетание:
- Семантического поиска, основанного на обученных языковых моделях, которые понимают контекст («self-learning language model»).
- Лексического поиска, оптимизированного для справления с разнообразной корпоративной информацией (например, короткие сообщения Slack).
- Наличие графа знаний (knowledge graph) для отображения связей между людьми, проектами, контентом и активностью внутри компании, что позволяет учитывать авторитет, релевантность и взаимоотношения
Платформа на Google Cloud
Архитектура построена на компонентах Google Cloud:
- Dataflow — для извлечения, обработки и обогащения данных, построения тренировочных данных Google Cloud.
- BigQuery — для хранения аналитических данных о поведении пользователей, показателей удовлетворенности, визуализации в Looker Studio Google Cloud.
- Vertex AI (с TPU) — для обучения моделей, создания эмбеддингов и обслуживания векторного поиска Google Cloud.
- В инфраструктуре также используются: GKE (Kubernetes Engine), Cloud SQL, Cloud Storage, Pub/Sub, IAM, Cloud Tasks, Cloud KMS и т.д.
Коннекторы и индексирование
- Подключение к более чем 100 корпоративным источникам данных (документы, коммуникационные платформы и т.п.).
- Контент и разрешения учитываются через контент- и идентификационные коннекторы, данные сохраняются в индексах и графе знаний
- Система использует роли и права доступа (permissions-aware search) — пользователи видят только те документы, к которым имеют доступ
Архитектура исполнения запросов и клиентская часть

- Пользователь заходит на глобальный веб-клиент (например, app.glean.com), который служит для аутентификации и перенаправляет на конкретный Query Endpoint (QE) в облачном проекте клиента.
- После входа все взаимодействие — запросы и результаты — обмениваются непосредственно между клиентом и QE через HTTPS, проходя аутентификацию SSO
- Поток данных: коннекторы получают данные, webhook уведомления поддерживают синхронизацию, информация сохраняется в документном и идентичном хранилищах, затем индексируется и индекс обновляется

Azure- и AWS-версия / On-prem
- Сотрудничество с Dell Technologies позволяет запускать Glean on prem, обеспечивая приватность, безопасность и локальную инфраструктуру
- Amazon ориентированная версия:
При установке через AWS Marketplace разворачивается CloudFormation, Lambda, CodeBuild, EKS, RDS, S3, ELB, WAF и т.п.
Используются RDS, S3, модели на SageMaker, Apache Flink — создается векторный поиск и RAG (Retrieval-Augmented Generation) архитектура для Glean Chat
Agentic Reasoning / AI-агенты и Glean Chat
Glean развивает архитектуру агентного рассуждения, где AI агенты способны:
- Понимать контекст компании через поиск и граф знаний.
- Интерпретировать запросы, строя и выполняя многошаговые процессы с использованием внутренних шаблонов и блоков — гибрид подход, основанный на знании и генеративных моделях
- Поддерживается RAG — система сначала извлекает факты, затем прогоняет LLM модель, чтобы сгенерировать ответ

Безопасность и SDLC

Для self‑hosted моделей доступна интегрированная система внутри сетей клиента, с поддержкой сетевых настроек и требований безопасности.
Документация по потокам данных, модели совместной ответственности, облачной/on‑prem архитектуре — доступна в Security & Architecture Hub.
Минусы платформы
В настоящий момент нет поддержки MCP (планируется к реализации)
Платформа не поддерживает прямую работу с DWH, фокусируясь больше на неструктурированном контенте (разговорный) и метаданных.

Источники изображений:
Glean.com
Рубрики
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Профиль
Контакты
Социальные сети
Рубрики


