Principais Lições
1. Agentes de IA Evoluem Além dos Simples Chatbots
A palavra agente, em nossa jornada para construir agentes poderosos neste livro, segue esta definição do dicionário. Isso também significa que o termo assistente será sinônimo de agente.
Definindo inteligência. Agentes de IA são mais do que meras interfaces de conversação; são entidades projetadas para agir, exercer poder e produzir efeitos em nome de uma inteligência orientadora. Essa definição ampla abrange diversas formas, desde assistentes simples até sistemas autônomos complexos. A distinção central está na capacidade de tomar decisões independentes e executar ações, ultrapassando a simples recuperação de informações.
Espectro de interação. As interações dos agentes com Grandes Modelos de Linguagem (LLMs) situam-se em um espectro: interação direta com o usuário, agentes/assistentes como proxies (como o DALL-E 3 no ChatGPT), agentes que atuam em nome dos usuários (com aprovação) e agentes totalmente autônomos que tomam decisões independentes. Embora poderosos, agentes autônomos trazem preocupações éticas e de segurança devido à sua natureza autodirigida, exigindo um design cuidadoso e supervisão constante.
Inteligência colaborativa. Para problemas complexos, sistemas multiagentes utilizam "perfis" ou "personas" especializadas que trabalham em conjunto. Um agente controlador pode orquestrar tarefas entre um agente programador e um agente testador, promovendo ciclos internos de feedback e avaliação. Essa abordagem colaborativa amplifica os benefícios dos agentes individuais, permitindo execução paralela de tarefas e redução de erros em atribuições complexas.
2. LLMs Formam o Núcleo, Mas Agentes Adicionam Ação
Para nossa jornada de construir agentes poderosos neste livro, focamos na classe de LLMs chamados modelos de conclusão de chat.
Fundação generativa. Grandes Modelos de Linguagem (LLMs), especialmente aqueles baseados em Transformers Pré-treinados Generativos (GPTs), são modelos generativos treinados para criar conteúdo, e não apenas para prever ou classificar. São definidos por seu vasto conjunto de dados de treinamento, arquitetura (como número de parâmetros), treinamento específico para casos de uso (por exemplo, conclusões de chat) e processos de ajuste fino. Modelos de conclusão de chat, otimizados para refinamento iterativo, são ideais para desenvolvimento de agentes devido à sua natureza conversacional.
Além da interação direta. Embora a interação direta com LLMs seja poderosa, os agentes elevam sua utilidade ao fornecer estrutura e capacidades externas. Um agente atua como intermediário, interpretando solicitações do usuário, formulando prompts ótimos e orquestrando ferramentas externas. Essa camada de abstração permite que os LLMs realizem tarefas para as quais não foram originalmente projetados, como interagir com serviços externos ou gerenciar fluxos de trabalho complexos, tornando-os mais versáteis.
Seleção estratégica de LLM. Escolher o LLM adequado para um agente envolve avaliar critérios como desempenho em tarefas específicas (por exemplo, programação), tamanho do modelo (impactando hardware e velocidade), caso de uso (conclusões de chat para agentes), dados de treinamento e custo. Para aprendizado e pesquisa, modelos comerciais como o GPT-4 Turbo são frequentemente recomendados devido às suas capacidades e facilidade de acesso, embora alternativas open-source estejam avançando rapidamente e possam ser hospedadas localmente com ferramentas como o LM Studio.
3. Engenharia de Prompt Eficaz é Fundamental
Engenharia de prompt é um campo novo e emergente que busca estruturar uma metodologia para construir prompts.
Inteligência orientadora. Engenharia de prompt é a arte e ciência de elaborar mensagens para Grandes Modelos de Linguagem (LLMs) a fim de obter respostas melhores, mais consistentes e desejadas. É um processo iterativo, onde refinar consultas e fornecer contexto melhora significativamente a qualidade da resposta do LLM. Essa disciplina é crucial para transformar capacidades genéricas dos LLMs em comportamentos direcionados de agentes, garantindo precisão e relevância.
Instruções claras. Uma estratégia central envolve escrever instruções claras, incluindo táticas como fornecer consultas detalhadas, adotar personas específicas, usar delimitadores para separar conteúdos, especificar instruções passo a passo, oferecer exemplos e definir o tamanho da resposta. Essas táticas asseguram que o LLM compreenda a tarefa, seu papel e o formato esperado da resposta, minimizando ambiguidades e melhorando a precisão. Por exemplo, pedir "3 exemplos" ou "resuma em 50 palavras" orienta a saída.
Poder das personas. Adotar personas é uma tática particularmente poderosa, permitindo que agentes enquadrem todas as respostas dentro de um papel, histórico ou personalidade definidos. Por exemplo, instruir um agente culinário a "falar como Julia Child" não só adiciona um tom divertido, mas também orienta seus conselhos gastronômicos. Essa abordagem baseada em personas é fundamental para criar perfis especializados e envolventes, tornando as interações mais naturais e eficazes.
4. Ações e Ferramentas Estendem as Capacidades dos Agentes
Ações, portanto, são extensões dos plugins — elas conferem a um plugin suas habilidades.
Empoderamento externo. Agentes vão além da simples conversação ao utilizar "ações", "ferramentas" ou "habilidades" para interagir com o mundo externo. Essas capacidades, frequentemente encapsuladas como plugins ou funções, permitem que agentes realizem tarefas como buscar na web, chamar APIs, gerar imagens ou executar código. Essa interação externa transforma um LLM de um respondedor passivo em um participante ativo em fluxos de trabalho complexos, possibilitando impacto no mundo real.
Chamada de função da OpenAI. A OpenAI introduziu uma especificação padrão para definir essas interfaces acionáveis, permitindo que LLMs reconheçam solicitações do usuário que correspondam à descrição de uma função e extraiam os parâmetros necessários. O LLM não executa a função diretamente, mas retorna a chamada de função sugerida e seus argumentos, que um sistema externo processa. Essa delegação permite o uso poderoso e contextualizado de ferramentas, como demonstrado pelos plugins do ChatGPT.
Papel do Semantic Kernel. O Semantic Kernel (SK) da Microsoft é uma estrutura robusta para construir e gerenciar essas ações de agentes, referindo-se a elas como "plugins semânticos". O SK pode encapsular tanto "funções semânticas" (modelos de prompt) quanto "funções nativas" (operações baseadas em código) em plugins reutilizáveis. Isso permite criar uma "interface GPT" que expõe qualquer serviço ou API por meio de linguagem natural, tornando-a acessível a interfaces de chat ou outros agentes, como uma API de banco de dados de filmes.
5. Sistemas Multiagentes Enfrentam Problemas Complexos Colaborativamente
Sistemas multiagentes incorporam muitas das mesmas ferramentas usadas por sistemas de agente único, mas se beneficiam da capacidade de fornecer feedback e avaliação externos a outros agentes.
Inteligência colaborativa. Sistemas multiagentes aprimoram a resolução de problemas distribuindo tarefas entre agentes especializados que se comunicam e colaboram. Essa configuração permite feedback e avaliação internos, reduzindo significativamente erros e melhorando a qualidade das soluções em comparação com abordagens de agente único. Agentes podem se especializar em papéis distintos, como "programador" e "testador", trabalhando em conjunto para alcançar um objetivo comum.
Poder conversacional do AutoGen. A plataforma AutoGen da Microsoft exemplifica sistemas multiagentes conversacionais, onde agentes se comunicam usando linguagem natural. Um agente "UserProxy" pode orquestrar tarefas, direcionando um "AssistantAgent" para gerar código, depois avaliando sua saída e fornecendo feedback. Esse ciclo iterativo continua até que a tarefa seja satisfatoriamente concluída, substituindo a supervisão humana em muitos casos e até instalando pacotes necessários.
Abordagem estruturada do CrewAI. O CrewAI, projetado para aplicações empresariais, oferece uma abordagem mais estruturada com agentes baseados em papéis e autônomos. Suporta gerenciamento de tarefas sequenciais e hierárquicas, permitindo que agentes se concentrem em áreas específicas de um objetivo. Ferramentas de observabilidade como o AgentOps são cruciais para monitorar essas interações complexas, acompanhando desempenho, custos e identificando ineficiências na colaboração entre agentes, revelando, por exemplo, como a geração de uma única piada pode custar mais de 50 centavos.
6. Agentes Autônomos Requerem Controle Estruturado (Árvores de Comportamento)
Árvores de comportamento são um padrão consolidado usado para controlar robótica e IA em jogos.
Orquestrando a complexidade. Agentes autônomos, capazes de tomar decisões independentes, necessitam de mecanismos robustos de controle. Árvores de comportamento, um padrão originado na robótica e IA para jogos, fornecem uma estrutura modular e escalável para orquestrar comportamentos complexos de agentes. Elas definem uma hierarquia de nós — seletores, sequências, condições e ações — que ditam o fluxo de execução com base em sucesso ou falha.
Lógica de execução. Diferentemente da lógica booleana tradicional, árvores de comportamento operam com estados de "sucesso" ou "falha". A execução flui de cima para baixo, da esquerda para a direita, com nós compostos (seletores, sequências) determinando quais nós filhos executar. Essa estrutura clara e intuitiva torna as árvores de comportamento excelentes para depuração e visualização do processo decisório do agente, garantindo autonomia previsível e controlada, como uma IA decidindo comer uma maçã ou uma pera.
Árvores de Comportamento Agentes (ABTs). Quando aplicadas a agentes de IA, tornam-se Árvores de Comportamento Agentes (ABTs), onde prompts direcionam ações e condições. Ferramentas como o GPT Assistants Playground facilitam a construção de ABTs com assistentes OpenAI, permitindo fluxos de trabalho complexos como desafios de programação ou postagens em redes sociais. ABTs podem combinar interações isoladas de agentes com threads conversacionais, aproveitando as forças de ambos os padrões para revisão imparcial e comportamentos emergentes.
7. Memória e Conhecimento Aumentam o Contexto do Agente (RAG)
Recuperação em aplicações de agentes e chat é um mecanismo para obter conhecimento a ser armazenado, geralmente externo e duradouro.
Enriquecimento contextual. Agentes precisam tanto de conhecimento quanto de memória para fornecer contexto relevante aos seus prompts, ultrapassando as limitações dos dados de treinamento iniciais. Conhecimento refere-se a aumentar prompts com informações de documentos externos e não estruturados (como PDFs ou códigos), enquanto memória diz respeito a contextualizar prompts com histórico de conversas, fatos ou preferências. Ambos dependem de padrões de "geração aumentada por recuperação" (RAG).
Fluxo de trabalho RAG. O processo RAG envolve várias etapas: carregar documentos, transformá-los em "pedaços" manejáveis, incorporar esses pedaços em vetores de alta dimensão e armazená-los em um banco de dados vetorial (ex.: Chroma DB). Quando uma consulta é feita, ela também é incorporada, e uma "busca por similaridade semântica" recupera os pedaços mais relevantes, que então enriquecem o prompt do LLM para gerar uma resposta mais informada. Isso é mais eficaz do que enviar o documento inteiro.
Tipos de memória. A memória do agente espelha funções cognitivas humanas, categorizadas em sensorial, curto prazo (histórico de conversação) e longo prazo (semântica, episódica, procedural). A memória de longo prazo, especialmente a semântica, permite que agentes armazenem e recuperem fatos, conceitos e até preferências. Plataformas como Nexus possibilitam a criação de armazenamentos de memória configuráveis, onde LLMs processam conversas em memórias semanticamente relevantes, aprimorando interações personalizadas e reduzindo redundâncias por meio de compressão.
8. Avaliação Sistemática é Fundamental para o Desempenho do Agente (Prompt Flow)
Avaliar o desempenho de prompts/perfis não é algo que normalmente fazemos usando medidas de acurácia ou porcentagem correta.
Além da intuição. Embora a engenharia iterativa de prompts seja eficaz, avaliar sistematicamente o desempenho de prompts e perfis de agentes é crucial para construir agentes de IA confiáveis. Isso envolve definir critérios e padrões claros para medir o quão bem um agente realiza sua tarefa, indo além do julgamento subjetivo para uma mensuração objetiva. Essa abordagem sistemática assegura melhorias genuínas e saídas consistentes.
Poder do Prompt Flow. O Prompt Flow da Microsoft, uma ferramenta open source, destaca-se nessa avaliação sistemática. Permite que desenvolvedores construam, testem e comparem múltiplas variações de prompts em escala, aproveitando processamento em lote multithread. Essa capacidade é inestimável para avaliar rapidamente o desempenho de diferentes perfis de agentes, configurações de LLM (ex.: temperatura, tokens máximos) e até comparar modelos distintos, como GPT-3.5 versus GPT-4.
Rubricas e fundamentação. A avaliação no Prompt Flow frequentemente utiliza "rubricas" — conjuntos estruturados de critérios e escalas de avaliação — para analisar respostas de prompts. "Fundamentação" refere-se ao alinhamento da resposta com esses critérios, objetivos e contexto pré-definidos. Usando um segundo LLM para avaliar automaticamente as respostas contra uma rubrica, desenvolvedores podem estabelecer bases objetivas, comparar variantes de perfis e refinar iterativamente seus agentes para desempenho ideal, garantindo que recomendações atendam a critérios específicos.
9. Raciocínio e Planejamento Impulsionam a Inteligência do Agente
Embora um LLM não seja projetado para raciocinar, o material de treinamento fornecido ao modelo inclui entendimento de raciocínio, planejamento e pensamento.
Elicitação da inteligência. Embora LLMs não sejam treinados inerentemente para "raciocinar" ou "planejar", a engenharia cuidadosa de prompts pode evocar esses comportamentos ao aproveitar o vasto conhecimento embutido em seus dados de treinamento. Raciocínio envolve compreender processos de pensamento e aplicar ações para resolver tarefas, enquanto planejamento é a capacidade de ordenar essas ações para alcançar um objetivo. Essas habilidades são cruciais para agentes que enfrentam problemas complexos e de múltiplas etapas.
Cadeia de Pensamento (CoT). O prompting CoT é uma técnica poderosa que guia LLMs por um processo de resolução de problemas, fornecendo exemplos que demonstram passos explícitos de raciocínio. Isso incentiva o LLM a "pensar passo a passo", decompondo desafios complexos em partes gerenciáveis e mostrando sua lógica interna. Esse método melhora significativamente a precisão em problemas intrincados, como paradoxos de viagem no tempo ou enigmas matemáticos.
Raciocínio avançado. Técnicas como "Zero-shot CoT" (usando frases como "Vamos pensar passo a passo" sem exemplos) e "Encadeamento de Prompts" (sequência de múltiplos prompts para decompor e resolver um problema) aprimoram ainda mais o raciocínio. "Auto-consistência" gera múltiplas soluções e seleciona a mais frequente, enquanto "Árvore de Pensamento" (ToT) explora múltiplos caminhos de raciocínio, avaliando cada passo para eliminar os inválidos. Esses métodos, embora computacionalmente intensivos, expandem os limites da resolução de problemas pelos LLMs.
10. Ciclos de Feedback Garantem Melhoria Contínua do Agente
Planejamento só vai até certo ponto, e um elemento frequentemente não reconhecido é o feedback.
Inteligência adaptativa. Embora planejamento e raciocínio sejam críticos, o feedback é o componente essencial, muitas vezes negligenciado, que permite aos agentes se adaptarem e melhorarem continuamente. Mecanismos de feedback permitem que agentes aprendam com sua execução, corrijam erros e refinem estratégias, indo além de planos estáticos para comportamentos dinâmicos e autocorretivos. Isso é vital para agentes que operam em ambientes imprevisíveis ou em evolução.
Feedback interno e externo. O feedback pode ser integrado internamente em um LLM (como visto em modelos avançados da OpenAI, como o Strawberry, que pode autocriticar-se e sugerir melhorias) ou externamente por meio de supervisão humana ou outros agentes avaliadores. Por exemplo, se o plano de um agente falha, um feedback explícito pode orientá-lo a revisar suas suposições, ajustar sua abordagem ou até modificar suas instruções internas para tarefas similares futuras. Isso ajuda a corrigir erros, como calcular incorretamente dias em viagens no tempo.
Aplicação em diversos sistemas. O feedback é crucial em várias aplicações de agentes: assistentes pessoais aprendem preferências do usuário, bots de atendimento ao cliente refinam respostas com base em pesquisas de satisfação, e agentes autônomos ajustam fluxos de trabalho complexos. Em sistemas multiagentes colaborativos, agentes fornecem feedback uns aos outros, promovendo um ambiente coletivo de aprendizado. Feedback rigoroso, combinado com avaliação, constrói confiança no desempenho do agente e impulsiona melhorias a longo prazo.
11. Plataformas de Agentes Facilitam Desenvolvimento e Implantação
Nexus é uma plataforma open source desenvolvida junto com este livro para ensinar os conceitos centrais de construção de agentes de IA completos.
Simplificando a complexidade. A proliferação de ferramentas e frameworks para agentes de IA destaca a necessidade de plataformas que simplifiquem o desenvolvimento e a implantação. Plataformas como Nexus, AutoGen e CrewAI abstraem grande parte da complexidade subjacente da interação com LLMs, orquestração de ferramentas e coordenação multiagente, permitindo que desenvolvedores foquem na lógica do agente e na resolução de problemas. Isso reduz a barreira de entrada para construir sistemas sofisticados de IA.
Arquitetura modular. Nexus, construído com Streamlit para sua interface web intuitiva, exemplifica uma plataforma modular de agentes. Descobre e integra dinamicamente componentes de agentes como perfis/personas, ações/ferramentas, armazenamentos de conhecimento/memória e planejadores por meio de um sistema de plugins. Essa arquitetura permite fácil customização e extensão, possibilitando que usuários experimentem diferentes combinações de capacidades de agentes, desde uma persona "IA falante" até ações específicas de busca na Wikipedia.
Implementação prática. Essas plataformas oferecem ambientes concretos para construir e testar agentes. Por exemplo, Nexus permite que usuários definam personas de agentes, anexem ações personalizadas (
Resumo das Resenhas
Agentes de IA em Ação recebe críticas mistas, com avaliações que variam de 1 a 5 estrelas. Alguns leitores elogiam o enfoque prático e a abrangência na criação de agentes de IA, enquanto outros apontam a dependência excessiva de ferramentas de terceiros e a falta de profundidade. As opiniões positivas destacam o valor do livro para quem deseja aprender a construir agentes de IA, especialmente utilizando as capacidades da OpenAI. Já as críticas negativas mencionam conteúdos desatualizados, uso excessivo de trechos de código e explicações insuficientes dos conceitos fundamentais. Vários leitores também ressaltam o ritmo acelerado das mudanças na área, que torna partes do livro rapidamente obsoletas.
Outros Também Leram