🔍 AI-Ops • MCP Server • Terraform • Amazon Q

Serverless
Troubleshooter

Time de agentes IA especializados que provisionam e diagnosticam infraestrutura serverless AWS usando MCP Servers para contexto atualizado.

Abordagem estruturada e profissional — não é vibe coding.

O Problema

📋

Logs Espalhados

Logs fragmentados entre múltiplas Lambdas no CloudWatch, difíceis de correlacionar.

🔗

Traces Fragmentados

X-Ray mostra segmentos isolados. Correlação manual entre serviços é lenta.

🔐

Erros de IAM

AccessDeniedException em produção. Qual role? Qual permissão? Qual recurso?

⏱️

Diagnóstico Manual

RequestID → CloudWatch → X-Ray → IAM → Root Cause. Minutos ou horas.

A Solução

MCP Servers dão ao Amazon Q Developer acesso direto aos dados de observabilidade. O agente recebe um RequestID e faz tudo sozinho.

1

Usuário reporta erro

"Investigue o RequestID abc-123"
2

Agente usa MCP Tools

search_logs → search_trace → search_lambda_config
3

Diagnóstico em ~3s

"Falta dynamodb:PutItem. Adicione esta policy: {...}"

Arquitetura

Stack Serverless

API Gateway
Producer Lambda
SQS Queue
Consumer Lambda
DynamoDB

CI/CD (Zero Secrets)

feature/*
PR→
develop
PR→
main

GitHub Actions + OIDC → AWS (sem access keys)

Time de Agentes IA

Agentes especializados com skills e responsabilidades claras. Cada um usa MCP Servers específicos.

🎯

@orchestrator

Coordenador

Analisa requisições, delega para agentes certos, consolida resultados.

MCP: todos
🏗️

@infra-agent

Infraestrutura

Terraform HCL, IAM least privilege, provisionamento AWS.

MCP: terraform, aws-docs
🚀

@deploy-agent

Deploy & CI/CD

GitHub Actions, terraform apply, rollback, environments.

MCP: terraform, kubernetes
🔍

@observability-agent

Diagnóstico

CloudWatch Logs, X-Ray traces, análise de incidentes em tempo real.

MCP: troubleshooter, aws-docs

MCP Servers

Contexto atualizado para a LLM — não depende do treinamento do modelo.

🔧 serverless-troubleshooter

Custom (Python + boto3)

  • search_logs — CloudWatch por RequestID
  • search_trace — X-Ray segments e erros
  • search_lambda_config — Runtime, IAM, triggers

📘 terraform

Oficial

Documentação e best practices atualizadas do Terraform. Garante HCL correto.

📙 aws-docs

Oficial

Documentação oficial da AWS. Limites, configurações e exemplos atualizados.

📗 kubernetes

Oficial

Documentação do K8s para expansão futura com EKS.

Demo — Diagnóstico Real

demo/run.py
$ python run.py --auto

Cenários de Erro

ERROR

Permission Denied

AccessDeniedException: dynamodb:PutItem

Agente encontra log de erro + sugere policy IAM exata.

TIMEOUT

Lambda Timeout

Task timed out after 1.00 seconds

Agente encontra REPORT + sugere aumentar timeout/memória.

THROTTLE

DynamoDB Throttle

ProvisionedThroughputExceededException

Agente encontra trace com latência + sugere on-demand.

Stack Técnica

Agente IAAmazon Q Developer
MCP ServersPython + boto3 (custom) + oficiais
IaCTerraform (remote state S3)
ComputeAWS Lambda (Python 3.11)
MessagingAmazon SQS
DatabaseAmazon DynamoDB (on-demand)
APIAPI Gateway (HTTP API)
ObservabilidadeCloudWatch + X-Ray
CI/CDGitHub Actions + OIDC
HostingS3 + CloudFront + OAC