Iniciar teste gratuito
Searching...
SoBrief
Português
EnglishEnglish
EspañolSpanish
简体中文Chinese
繁體中文Chinese (Traditional)
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
AI Agents in Action

AI Agents in Action

Build, orchestrate, and deploy autonomous multi-agent systems
por Micheal Lanham 2025 344 páginas
3.11
76 avaliações
Ouvir
Experimente o Acesso Completo por 3 Dias
Desbloqueie o áudio e muito mais!
Continuar

Principais Lições

1. Agentes de IA Evoluem Além dos Simples Chatbots

A palavra agente, em nossa jornada para construir agentes poderosos neste livro, segue esta definição do dicionário. Isso também significa que o termo assistente será sinônimo de agente.

Definindo inteligência. Agentes de IA são mais do que meras interfaces de conversação; são entidades projetadas para agir, exercer poder e produzir efeitos em nome de uma inteligência orientadora. Essa definição ampla abrange diversas formas, desde assistentes simples até sistemas autônomos complexos. A distinção central está na capacidade de tomar decisões independentes e executar ações, ultrapassando a simples recuperação de informações.

Espectro de interação. As interações dos agentes com Grandes Modelos de Linguagem (LLMs) situam-se em um espectro: interação direta com o usuário, agentes/assistentes como proxies (como o DALL-E 3 no ChatGPT), agentes que atuam em nome dos usuários (com aprovação) e agentes totalmente autônomos que tomam decisões independentes. Embora poderosos, agentes autônomos trazem preocupações éticas e de segurança devido à sua natureza autodirigida, exigindo um design cuidadoso e supervisão constante.

Inteligência colaborativa. Para problemas complexos, sistemas multiagentes utilizam "perfis" ou "personas" especializadas que trabalham em conjunto. Um agente controlador pode orquestrar tarefas entre um agente programador e um agente testador, promovendo ciclos internos de feedback e avaliação. Essa abordagem colaborativa amplifica os benefícios dos agentes individuais, permitindo execução paralela de tarefas e redução de erros em atribuições complexas.

2. LLMs Formam o Núcleo, Mas Agentes Adicionam Ação

Para nossa jornada de construir agentes poderosos neste livro, focamos na classe de LLMs chamados modelos de conclusão de chat.

Fundação generativa. Grandes Modelos de Linguagem (LLMs), especialmente aqueles baseados em Transformers Pré-treinados Generativos (GPTs), são modelos generativos treinados para criar conteúdo, e não apenas para prever ou classificar. São definidos por seu vasto conjunto de dados de treinamento, arquitetura (como número de parâmetros), treinamento específico para casos de uso (por exemplo, conclusões de chat) e processos de ajuste fino. Modelos de conclusão de chat, otimizados para refinamento iterativo, são ideais para desenvolvimento de agentes devido à sua natureza conversacional.

Além da interação direta. Embora a interação direta com LLMs seja poderosa, os agentes elevam sua utilidade ao fornecer estrutura e capacidades externas. Um agente atua como intermediário, interpretando solicitações do usuário, formulando prompts ótimos e orquestrando ferramentas externas. Essa camada de abstração permite que os LLMs realizem tarefas para as quais não foram originalmente projetados, como interagir com serviços externos ou gerenciar fluxos de trabalho complexos, tornando-os mais versáteis.

Seleção estratégica de LLM. Escolher o LLM adequado para um agente envolve avaliar critérios como desempenho em tarefas específicas (por exemplo, programação), tamanho do modelo (impactando hardware e velocidade), caso de uso (conclusões de chat para agentes), dados de treinamento e custo. Para aprendizado e pesquisa, modelos comerciais como o GPT-4 Turbo são frequentemente recomendados devido às suas capacidades e facilidade de acesso, embora alternativas open-source estejam avançando rapidamente e possam ser hospedadas localmente com ferramentas como o LM Studio.

3. Engenharia de Prompt Eficaz é Fundamental

Engenharia de prompt é um campo novo e emergente que busca estruturar uma metodologia para construir prompts.

Inteligência orientadora. Engenharia de prompt é a arte e ciência de elaborar mensagens para Grandes Modelos de Linguagem (LLMs) a fim de obter respostas melhores, mais consistentes e desejadas. É um processo iterativo, onde refinar consultas e fornecer contexto melhora significativamente a qualidade da resposta do LLM. Essa disciplina é crucial para transformar capacidades genéricas dos LLMs em comportamentos direcionados de agentes, garantindo precisão e relevância.

Instruções claras. Uma estratégia central envolve escrever instruções claras, incluindo táticas como fornecer consultas detalhadas, adotar personas específicas, usar delimitadores para separar conteúdos, especificar instruções passo a passo, oferecer exemplos e definir o tamanho da resposta. Essas táticas asseguram que o LLM compreenda a tarefa, seu papel e o formato esperado da resposta, minimizando ambiguidades e melhorando a precisão. Por exemplo, pedir "3 exemplos" ou "resuma em 50 palavras" orienta a saída.

Poder das personas. Adotar personas é uma tática particularmente poderosa, permitindo que agentes enquadrem todas as respostas dentro de um papel, histórico ou personalidade definidos. Por exemplo, instruir um agente culinário a "falar como Julia Child" não só adiciona um tom divertido, mas também orienta seus conselhos gastronômicos. Essa abordagem baseada em personas é fundamental para criar perfis especializados e envolventes, tornando as interações mais naturais e eficazes.

4. Ações e Ferramentas Estendem as Capacidades dos Agentes

Ações, portanto, são extensões dos plugins — elas conferem a um plugin suas habilidades.

Empoderamento externo. Agentes vão além da simples conversação ao utilizar "ações", "ferramentas" ou "habilidades" para interagir com o mundo externo. Essas capacidades, frequentemente encapsuladas como plugins ou funções, permitem que agentes realizem tarefas como buscar na web, chamar APIs, gerar imagens ou executar código. Essa interação externa transforma um LLM de um respondedor passivo em um participante ativo em fluxos de trabalho complexos, possibilitando impacto no mundo real.

Chamada de função da OpenAI. A OpenAI introduziu uma especificação padrão para definir essas interfaces acionáveis, permitindo que LLMs reconheçam solicitações do usuário que correspondam à descrição de uma função e extraiam os parâmetros necessários. O LLM não executa a função diretamente, mas retorna a chamada de função sugerida e seus argumentos, que um sistema externo processa. Essa delegação permite o uso poderoso e contextualizado de ferramentas, como demonstrado pelos plugins do ChatGPT.

Papel do Semantic Kernel. O Semantic Kernel (SK) da Microsoft é uma estrutura robusta para construir e gerenciar essas ações de agentes, referindo-se a elas como "plugins semânticos". O SK pode encapsular tanto "funções semânticas" (modelos de prompt) quanto "funções nativas" (operações baseadas em código) em plugins reutilizáveis. Isso permite criar uma "interface GPT" que expõe qualquer serviço ou API por meio de linguagem natural, tornando-a acessível a interfaces de chat ou outros agentes, como uma API de banco de dados de filmes.

5. Sistemas Multiagentes Enfrentam Problemas Complexos Colaborativamente

Sistemas multiagentes incorporam muitas das mesmas ferramentas usadas por sistemas de agente único, mas se beneficiam da capacidade de fornecer feedback e avaliação externos a outros agentes.

Inteligência colaborativa. Sistemas multiagentes aprimoram a resolução de problemas distribuindo tarefas entre agentes especializados que se comunicam e colaboram. Essa configuração permite feedback e avaliação internos, reduzindo significativamente erros e melhorando a qualidade das soluções em comparação com abordagens de agente único. Agentes podem se especializar em papéis distintos, como "programador" e "testador", trabalhando em conjunto para alcançar um objetivo comum.

Poder conversacional do AutoGen. A plataforma AutoGen da Microsoft exemplifica sistemas multiagentes conversacionais, onde agentes se comunicam usando linguagem natural. Um agente "UserProxy" pode orquestrar tarefas, direcionando um "AssistantAgent" para gerar código, depois avaliando sua saída e fornecendo feedback. Esse ciclo iterativo continua até que a tarefa seja satisfatoriamente concluída, substituindo a supervisão humana em muitos casos e até instalando pacotes necessários.

Abordagem estruturada do CrewAI. O CrewAI, projetado para aplicações empresariais, oferece uma abordagem mais estruturada com agentes baseados em papéis e autônomos. Suporta gerenciamento de tarefas sequenciais e hierárquicas, permitindo que agentes se concentrem em áreas específicas de um objetivo. Ferramentas de observabilidade como o AgentOps são cruciais para monitorar essas interações complexas, acompanhando desempenho, custos e identificando ineficiências na colaboração entre agentes, revelando, por exemplo, como a geração de uma única piada pode custar mais de 50 centavos.

6. Agentes Autônomos Requerem Controle Estruturado (Árvores de Comportamento)

Árvores de comportamento são um padrão consolidado usado para controlar robótica e IA em jogos.

Orquestrando a complexidade. Agentes autônomos, capazes de tomar decisões independentes, necessitam de mecanismos robustos de controle. Árvores de comportamento, um padrão originado na robótica e IA para jogos, fornecem uma estrutura modular e escalável para orquestrar comportamentos complexos de agentes. Elas definem uma hierarquia de nós — seletores, sequências, condições e ações — que ditam o fluxo de execução com base em sucesso ou falha.

Lógica de execução. Diferentemente da lógica booleana tradicional, árvores de comportamento operam com estados de "sucesso" ou "falha". A execução flui de cima para baixo, da esquerda para a direita, com nós compostos (seletores, sequências) determinando quais nós filhos executar. Essa estrutura clara e intuitiva torna as árvores de comportamento excelentes para depuração e visualização do processo decisório do agente, garantindo autonomia previsível e controlada, como uma IA decidindo comer uma maçã ou uma pera.

Árvores de Comportamento Agentes (ABTs). Quando aplicadas a agentes de IA, tornam-se Árvores de Comportamento Agentes (ABTs), onde prompts direcionam ações e condições. Ferramentas como o GPT Assistants Playground facilitam a construção de ABTs com assistentes OpenAI, permitindo fluxos de trabalho complexos como desafios de programação ou postagens em redes sociais. ABTs podem combinar interações isoladas de agentes com threads conversacionais, aproveitando as forças de ambos os padrões para revisão imparcial e comportamentos emergentes.

7. Memória e Conhecimento Aumentam o Contexto do Agente (RAG)

Recuperação em aplicações de agentes e chat é um mecanismo para obter conhecimento a ser armazenado, geralmente externo e duradouro.

Enriquecimento contextual. Agentes precisam tanto de conhecimento quanto de memória para fornecer contexto relevante aos seus prompts, ultrapassando as limitações dos dados de treinamento iniciais. Conhecimento refere-se a aumentar prompts com informações de documentos externos e não estruturados (como PDFs ou códigos), enquanto memória diz respeito a contextualizar prompts com histórico de conversas, fatos ou preferências. Ambos dependem de padrões de "geração aumentada por recuperação" (RAG).

Fluxo de trabalho RAG. O processo RAG envolve várias etapas: carregar documentos, transformá-los em "pedaços" manejáveis, incorporar esses pedaços em vetores de alta dimensão e armazená-los em um banco de dados vetorial (ex.: Chroma DB). Quando uma consulta é feita, ela também é incorporada, e uma "busca por similaridade semântica" recupera os pedaços mais relevantes, que então enriquecem o prompt do LLM para gerar uma resposta mais informada. Isso é mais eficaz do que enviar o documento inteiro.

Tipos de memória. A memória do agente espelha funções cognitivas humanas, categorizadas em sensorial, curto prazo (histórico de conversação) e longo prazo (semântica, episódica, procedural). A memória de longo prazo, especialmente a semântica, permite que agentes armazenem e recuperem fatos, conceitos e até preferências. Plataformas como Nexus possibilitam a criação de armazenamentos de memória configuráveis, onde LLMs processam conversas em memórias semanticamente relevantes, aprimorando interações personalizadas e reduzindo redundâncias por meio de compressão.

8. Avaliação Sistemática é Fundamental para o Desempenho do Agente (Prompt Flow)

Avaliar o desempenho de prompts/perfis não é algo que normalmente fazemos usando medidas de acurácia ou porcentagem correta.

Além da intuição. Embora a engenharia iterativa de prompts seja eficaz, avaliar sistematicamente o desempenho de prompts e perfis de agentes é crucial para construir agentes de IA confiáveis. Isso envolve definir critérios e padrões claros para medir o quão bem um agente realiza sua tarefa, indo além do julgamento subjetivo para uma mensuração objetiva. Essa abordagem sistemática assegura melhorias genuínas e saídas consistentes.

Poder do Prompt Flow. O Prompt Flow da Microsoft, uma ferramenta open source, destaca-se nessa avaliação sistemática. Permite que desenvolvedores construam, testem e comparem múltiplas variações de prompts em escala, aproveitando processamento em lote multithread. Essa capacidade é inestimável para avaliar rapidamente o desempenho de diferentes perfis de agentes, configurações de LLM (ex.: temperatura, tokens máximos) e até comparar modelos distintos, como GPT-3.5 versus GPT-4.

Rubricas e fundamentação. A avaliação no Prompt Flow frequentemente utiliza "rubricas" — conjuntos estruturados de critérios e escalas de avaliação — para analisar respostas de prompts. "Fundamentação" refere-se ao alinhamento da resposta com esses critérios, objetivos e contexto pré-definidos. Usando um segundo LLM para avaliar automaticamente as respostas contra uma rubrica, desenvolvedores podem estabelecer bases objetivas, comparar variantes de perfis e refinar iterativamente seus agentes para desempenho ideal, garantindo que recomendações atendam a critérios específicos.

9. Raciocínio e Planejamento Impulsionam a Inteligência do Agente

Embora um LLM não seja projetado para raciocinar, o material de treinamento fornecido ao modelo inclui entendimento de raciocínio, planejamento e pensamento.

Elicitação da inteligência. Embora LLMs não sejam treinados inerentemente para "raciocinar" ou "planejar", a engenharia cuidadosa de prompts pode evocar esses comportamentos ao aproveitar o vasto conhecimento embutido em seus dados de treinamento. Raciocínio envolve compreender processos de pensamento e aplicar ações para resolver tarefas, enquanto planejamento é a capacidade de ordenar essas ações para alcançar um objetivo. Essas habilidades são cruciais para agentes que enfrentam problemas complexos e de múltiplas etapas.

Cadeia de Pensamento (CoT). O prompting CoT é uma técnica poderosa que guia LLMs por um processo de resolução de problemas, fornecendo exemplos que demonstram passos explícitos de raciocínio. Isso incentiva o LLM a "pensar passo a passo", decompondo desafios complexos em partes gerenciáveis e mostrando sua lógica interna. Esse método melhora significativamente a precisão em problemas intrincados, como paradoxos de viagem no tempo ou enigmas matemáticos.

Raciocínio avançado. Técnicas como "Zero-shot CoT" (usando frases como "Vamos pensar passo a passo" sem exemplos) e "Encadeamento de Prompts" (sequência de múltiplos prompts para decompor e resolver um problema) aprimoram ainda mais o raciocínio. "Auto-consistência" gera múltiplas soluções e seleciona a mais frequente, enquanto "Árvore de Pensamento" (ToT) explora múltiplos caminhos de raciocínio, avaliando cada passo para eliminar os inválidos. Esses métodos, embora computacionalmente intensivos, expandem os limites da resolução de problemas pelos LLMs.

10. Ciclos de Feedback Garantem Melhoria Contínua do Agente

Planejamento só vai até certo ponto, e um elemento frequentemente não reconhecido é o feedback.

Inteligência adaptativa. Embora planejamento e raciocínio sejam críticos, o feedback é o componente essencial, muitas vezes negligenciado, que permite aos agentes se adaptarem e melhorarem continuamente. Mecanismos de feedback permitem que agentes aprendam com sua execução, corrijam erros e refinem estratégias, indo além de planos estáticos para comportamentos dinâmicos e autocorretivos. Isso é vital para agentes que operam em ambientes imprevisíveis ou em evolução.

Feedback interno e externo. O feedback pode ser integrado internamente em um LLM (como visto em modelos avançados da OpenAI, como o Strawberry, que pode autocriticar-se e sugerir melhorias) ou externamente por meio de supervisão humana ou outros agentes avaliadores. Por exemplo, se o plano de um agente falha, um feedback explícito pode orientá-lo a revisar suas suposições, ajustar sua abordagem ou até modificar suas instruções internas para tarefas similares futuras. Isso ajuda a corrigir erros, como calcular incorretamente dias em viagens no tempo.

Aplicação em diversos sistemas. O feedback é crucial em várias aplicações de agentes: assistentes pessoais aprendem preferências do usuário, bots de atendimento ao cliente refinam respostas com base em pesquisas de satisfação, e agentes autônomos ajustam fluxos de trabalho complexos. Em sistemas multiagentes colaborativos, agentes fornecem feedback uns aos outros, promovendo um ambiente coletivo de aprendizado. Feedback rigoroso, combinado com avaliação, constrói confiança no desempenho do agente e impulsiona melhorias a longo prazo.

11. Plataformas de Agentes Facilitam Desenvolvimento e Implantação

Nexus é uma plataforma open source desenvolvida junto com este livro para ensinar os conceitos centrais de construção de agentes de IA completos.

Simplificando a complexidade. A proliferação de ferramentas e frameworks para agentes de IA destaca a necessidade de plataformas que simplifiquem o desenvolvimento e a implantação. Plataformas como Nexus, AutoGen e CrewAI abstraem grande parte da complexidade subjacente da interação com LLMs, orquestração de ferramentas e coordenação multiagente, permitindo que desenvolvedores foquem na lógica do agente e na resolução de problemas. Isso reduz a barreira de entrada para construir sistemas sofisticados de IA.

Arquitetura modular. Nexus, construído com Streamlit para sua interface web intuitiva, exemplifica uma plataforma modular de agentes. Descobre e integra dinamicamente componentes de agentes como perfis/personas, ações/ferramentas, armazenamentos de conhecimento/memória e planejadores por meio de um sistema de plugins. Essa arquitetura permite fácil customização e extensão, possibilitando que usuários experimentem diferentes combinações de capacidades de agentes, desde uma persona "IA falante" até ações específicas de busca na Wikipedia.

Implementação prática. Essas plataformas oferecem ambientes concretos para construir e testar agentes. Por exemplo, Nexus permite que usuários definam personas de agentes, anexem ações personalizadas (

Última atualização:

Report Issue

Resumo das Resenhas

3.11 de 5
Média de 76 avaliações do Goodreads e Amazon.

Agentes de IA em Ação recebe críticas mistas, com avaliações que variam de 1 a 5 estrelas. Alguns leitores elogiam o enfoque prático e a abrangência na criação de agentes de IA, enquanto outros apontam a dependência excessiva de ferramentas de terceiros e a falta de profundidade. As opiniões positivas destacam o valor do livro para quem deseja aprender a construir agentes de IA, especialmente utilizando as capacidades da OpenAI. Já as críticas negativas mencionam conteúdos desatualizados, uso excessivo de trechos de código e explicações insuficientes dos conceitos fundamentais. Vários leitores também ressaltam o ritmo acelerado das mudanças na área, que torna partes do livro rapidamente obsoletas.

Your rating:
3.99
172 avaliações
Want to read the full book?

Sobre o Autor

Micheal Lanham é o autor de "Agentes de IA em Ação", um livro dedicado ao design e à implementação de agentes autônomos de inteligência artificial. O trabalho de Lanham explora diversas ferramentas e estruturas para a construção desses agentes, incluindo as capacidades da OpenAI, GPT Nexus, LangChain e CrewAI. A sua abordagem privilegia aplicações práticas e o aprendizado através da experiência, oferecendo aos leitores exemplos de código e explicações detalhadas sobre técnicas de desenvolvimento de agentes. Lanham demonstra um domínio notável em áreas como planeamento, sistemas multiagentes e gestão de memória para agentes de IA. O seu estilo de escrita destaca-se pela precisão técnica e clareza, embora alguns leitores considerem a estrutura do conteúdo um desafio. A obra de Lanham reflete a natureza em rápida evolução da tecnologia de IA e as suas múltiplas aplicações.

Follow
Ouvir
Now playing
AI Agents in Action
0:00
-0:00
Now playing
AI Agents in Action
0:00
-0:00
1x
Queue
Home
Swipe
Library
Get App
Try Full Access for 3 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
Read unlimited summaries. Free users get 3 per month
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 4
📜 Unlimited History
Free users are limited to 4
📥 Unlimited Downloads
Free users are limited to 1
Risk-Free Timeline
Today: Get Instant Access
Listen to full summaries of 26,000+ books. That's 12,000+ hours of audio!
Day 2: Trial Reminder
We'll send you a notification that your trial is ending soon.
Day 3: Your subscription begins
You'll be charged on Jun 9,
cancel anytime before.
Consume 2.8× More Books
2.8× more books Listening Reading
Our users love us
600,000+ readers
Trustpilot Rating
TrustPilot
4.6 Excellent
This site is a total game-changer. I've been flying through book summaries like never before. Highly, highly recommend.
— Dave G
Worth my money and time, and really well made. I've never seen this quality of summaries on other websites. Very helpful!
— Em
Highly recommended!! Fantastic service. Perfect for those that want a little more than a teaser but not all the intricate details of a full audio book.
— Greg M
Save 62%
Yearly
$119.88 $44.99/year/yr
$3.75/mo
Monthly
$9.99/mo
Start a 3-Day Free Trial
3 days free, then $44.99/year. Cancel anytime.
Unlock a world of fiction & nonfiction books
26,000+ books for the price of 2 books
Read any book in 10 minutes
Discover new books like Tinder
Request any book if it's not summarized
Read more books than anyone you know
#1 app for book lovers
Lifelike & immersive summaries
30-day money-back guarantee
Download summaries in EPUBs or PDFs
Cancel anytime in a few clicks
Scanner
Find a barcode to scan

We have a special gift for you
Open
38% OFF
DISCOUNT FOR YOU
$79.99
$49.99/year
only $4.16 per month
Continue
2 taps to start, super easy to cancel
Settings
General
Widget
Loading...
We have a special gift for you
Open
38% OFF
DISCOUNT FOR YOU
$79.99
$49.99/year
only $4.16 per month
Continue
2 taps to start, super easy to cancel