مهندسی پرامپت برای هوش مصنوعی مولد | خلاصه, صوت, نقل‌قول‌ها, سؤالات متداول

Q: What is *Prompt Engineering for Generative AI: Future-Proof Inputs for Reliable AI Outputs* by James Phoenix about?

Comprehensive guide to prompting: The book provides an in-depth exploration of prompt engineering for generative AI models, including both text and image generation. Five core principles: It introduces five foundational, model-agnostic principles for crafting effective prompts, ensuring skills remain relevant as AI evolves. Practical focus: Readers learn actionable techniques for improving AI output reliability, accuracy, and creativity, with real-world coding examples. Covers broad AI landscape: The book addresses large language models (LLMs), vector databases, autonomous agents, and diffusion models, offering a holistic view of generative AI workflows.

Q: Why should I read *Prompt Engineering for Generative AI* by James Phoenix?

Future-proof your AI skills: The book equips readers with enduring, transferable skills for working with current and future AI models. Improve AI output quality: It teaches how to design prompts that reduce hallucinations, increase reliability, and optimize token usage. Industry relevance: Endorsed by AI leaders, the book is positioned as essential reading for anyone aiming to work effectively with AI in production. Hands-on learning: Includes practical code snippets and workflow examples, making it suitable for both beginners and experienced practitioners.

Q: What are the five core principles of prompt engineering in *Prompt Engineering for Generative AI*?

Give Direction: Clearly specify the desired style, persona, or task to guide the AI’s reasoning and output. Specify Format: Define the expected output format (e.g., JSON, lists, markdown) to ensure structured, machine-readable responses. Provide Examples: Use few-shot or one-shot examples to demonstrate ideal outputs, improving consistency and reducing ambiguity. Evaluate Quality: Systematically test and refine prompts using metrics or human feedback to optimize performance. Divide Labor: Break complex tasks into smaller subtasks or chains for better control, debugging, and output quality.

Q: How does *Prompt Engineering for Generative AI* explain working with Large Language Models (LLMs) for text generation?

LLM foundations: The book covers tokenization, vector representations, and transformer architecture, providing an intuitive understanding of how LLMs like GPT-4 generate text. Probabilistic outputs: It explains the non-deterministic nature of LLMs and why prompt design is crucial for reliable results. Model comparisons: Readers learn about major LLMs (OpenAI’s GPT, Google’s Gemini, Meta’s Llama, Anthropic’s Claude), their strengths, and context window limitations. Practical techniques: The book demonstrates methods for generating structured outputs, simplifying text, translation, and sentiment analysis.

Q: What are the best practices for text generation with ChatGPT and other LLMs in *Prompt Engineering for Generative AI*?

Structured output generation: Techniques for producing bullet lists, hierarchical outlines, and machine-readable formats like JSON/YAML are explained with code examples. Simplification and translation: The book shows how to prompt LLMs to explain complex topics simply or translate between languages and code. Classification and sentiment analysis: It covers prompt engineering for zero-shot and few-shot classification, including handling mixed sentiments. Evaluation and iteration: Readers learn to systematically test and refine prompts for improved accuracy and reliability.

Q: How does *Prompt Engineering for Generative AI* address handling large documents and LLM context window limitations?

Chunking strategies: The book details methods for splitting text by sentence, paragraph, topic, or token count to fit within LLM context windows. Sliding window technique: Overlapping chunks are recommended to preserve semantic context and minimize information loss. Recursive splitting: Recursive character splitting by multiple delimiters helps maintain structure and meaning in manageable chunks. Improved processing efficiency: These strategies enable effective processing of long documents without exceeding model limits.

Q: How does *Prompt Engineering for Generative AI* explain the use of vector databases like FAISS and Pinecone?

Embeddings and similarity search: The book introduces embeddings as high-dimensional vectors for semantic search, enabling retrieval beyond keyword matching. Document chunking for retrieval: It emphasizes chunking large documents into meaningful pieces to improve retrieval accuracy and reduce token usage. Retrieval-Augmented Generation (RAG): Readers learn how to inject relevant document chunks into prompts, reducing hallucinations and improving answer relevance. Practical tools: The book covers using FAISS (local) and Pinecone (hosted) for storing and querying embeddings.

Q: What are autonomous agents and how does *Prompt Engineering for Generative AI* cover them?

Agent architecture: Agents are described as systems that perceive inputs, have goals, and act in loops to solve complex tasks. ReAct framework: The book explains the Reason and Act (ReAct) method, where LLMs iteratively reason, observe, and act using tools. Memory integration: It covers both short-term and long-term memory for maintaining context and storing knowledge. Tool usage: Readers learn to extend agent capabilities with custom functions and prebuilt toolkits.

Q: How does *Prompt Engineering for Generative AI* approach image generation with diffusion models like Stable Diffusion and Midjourney?

Diffusion model fundamentals: The book explains how these models generate images by denoising random noise conditioned on text prompts. Model comparisons: It compares DALL-E, Midjourney, and Stable Diffusion, highlighting their unique features and community aspects. Prompt engineering for images: Techniques include using format and style modifiers, negative prompts, and weighted terms to control output. Advanced image techniques: Inpainting, outpainting, and conditioning on input images are covered for greater creative control.

Q: What advanced techniques for Stable Diffusion and image generation does *Prompt Engineering for Generative AI* teach?

Model customization: Instructions for running Stable Diffusion locally or via API, including setting seeds and guidance scales for quality control. ControlNet and SAM: The book introduces ControlNet for conditioning on input images and Segment Anything Model (SAM) for automatic segmentation. DreamBooth fine-tuning: Readers learn to fine-tune models on custom subjects for personalized image generation. AUTOMATIC1111 Web UI: A feature-rich interface is recommended for managing models, prompts, and advanced image generation workflows.

Summary Reviews Similar سؤالات متداول Author

۳ روز دسترسی کامل رایگان

قفل گوش دادن و امکانات بیشتر را باز کنید!

ادامه

نکات کلیدی

۱. تسلط بر پنج اصل مهندسی پرامپت

بهترین منبع کتابی که تاکنون درباره مهندسی پرامپت خوانده‌ام.

مهندسی پرامپت اهمیت فراوانی دارد. کیفیت خروجی هوش مصنوعی به شدت به ورودی وابسته است و مهندسی پرامپت، یعنی فرایند تولید نتایج مطلوب به‌صورت قابل اعتماد، مهارتی ضروری به شمار می‌آید. با پیشرفت مدل‌های هوش مصنوعی، پرامپت‌های ساده ممکن است برای وظایف تک‌مرحله‌ای قابل قبول باشند، اما در کاربردهای تولیدی، سرمایه‌گذاری روی پرامپت‌های مهندسی‌شده برای تضمین دقت، قابلیت اطمینان و صرفه‌جویی در هزینه‌ها حیاتی است. اشتباهات در پرامپت‌نویسی می‌تواند منجر به هدررفت منابع محاسباتی و صرف زمان برای اصلاح شود.

پنج اصل بنیادین. مهندسی پرامپت مؤثر بر پایه پنج اصل جاودانه و مستقل از مدل بنا شده است که تعامل با هوش مصنوعی را بهبود می‌بخشد، چه در تولید متن و چه تصویر. این اصول به مشکلات رایجی مانند دستورالعمل‌های مبهم، خروجی‌های بدون قالب‌بندی، نبود نمونه، ارزیابی محدود و وظایف یکپارچه می‌پردازند. با به‌کارگیری این اصول، توسعه‌دهندگان می‌توانند نتایج قابل اعتماد از مدل‌های هوش مصنوعی استخراج کنند و آن‌ها را از ابزارهای غیرقابل پیش‌بینی به اجزای قابل اتکا در سیستم‌های خودکار تبدیل نمایند.

اصول موفقیت:

جهت‌دهی: سبک مورد نظر را توصیف کنید یا به یک شخصیت مرجع اشاره کنید.
تعیین قالب: قوانین و ساختار خروجی مورد نیاز (مثلاً JSON، فهرست گلوله‌ای) را مشخص کنید.
ارائه نمونه‌ها: نمونه‌های متنوعی از انجام صحیح وظیفه (یادگیری چندنمونه‌ای) را وارد کنید.
ارزیابی کیفیت: خطاها را شناسایی و پاسخ‌ها را رتبه‌بندی کنید تا عملکرد بهینه شود.
تقسیم کار: وظایف پیچیده را به چند مرحله زنجیره‌ای تقسیم کنید تا وضوح و شفافیت افزایش یابد.

۲. درک مدل‌های پایه‌ای هوش مصنوعی برای تولید متن و تصویر

مدل‌های زبان بزرگ (LLM) و مدل‌های انتشار مانند ChatGPT و DALL-E پتانسیلی بی‌سابقه دارند.

مدل‌های زبان بزرگ: جوهر زبان. مدل‌های تولید متن یا مدل‌های زبان بزرگ مانند سری GPT از OpenAI، Gemini از گوگل و Llama از متا، بر روی داده‌های عظیمی آموزش دیده‌اند تا متن‌های انسانی‌مانند را درک و تولید کنند. این مدل‌ها متن را به بردارهای عددی تبدیل می‌کنند، با استفاده از معماری ترنسفورمر روابط متنی را می‌فهمند و سپس به‌صورت احتمالاتی توکن بعدی را پیش‌بینی می‌کنند. این قابلیت به آن‌ها امکان انجام وظایف متنوعی از نگارش محتوا تا تولید کد را می‌دهد و آن‌ها را به ابزارهای چندکاره برای خودکارسازی تبدیل می‌کند.

مدل‌های انتشار: خلق تصویر از نویز. مدل‌های انتشار مانند DALL-E، Midjourney و Stable Diffusion، تصاویر را از متن با افزودن و سپس حذف تدریجی نویز تصادفی تولید می‌کنند. آن‌ها یاد می‌گیرند تصاویر را بر اساس توصیفات پاک‌سازی کنند و به‌طور مؤثر متن را به نمایش‌های بصری در فضای نهان پیوسته نگاشت می‌کنند. این فرایند به آن‌ها امکان تقلید سبک‌های هنری و موضوعات مختلف را می‌دهد و متن را به محتوای بصری خیره‌کننده تبدیل می‌کند و راه‌های جدیدی برای بیان خلاقانه باز می‌کند.

تمایزات کلیدی مدل‌ها:

مدل‌های زبان بزرگ: تمرکز بر تولید، درک و استدلال متنی.
مدل‌های انتشار: تخصص در تولید تصویر از متن.
داده‌های آموزشی: هر دو بر داده‌های عظیم متکی‌اند و سوگیری‌های آن‌ها را به ارث می‌برند.
پارامترها: مدل‌هایی مانند GPT-4 دارای تریلیون‌ها پارامتر هستند و نیازمند منابع محاسباتی عظیم برای آموزش‌اند.

۳. استانداردسازی تولید متن با تکنیک‌های عملی پرامپت‌نویسی

تکنیک‌های ساده پرامپت‌نویسی به شما کمک می‌کند خروجی و قالب‌های مدل‌های زبان بزرگ را به حداکثر برسانید.

خروجی ساختاریافته کلید موفقیت است. هنگام ادغام مدل‌های زبان بزرگ در سیستم‌های تولیدی، قالب‌های خروجی یکنواخت و قابل پردازش اهمیت فراوانی دارند. اگرچه این مدل‌ها می‌توانند قالب‌های متنوعی مانند فهرست‌ها، JSON، YAML یا حتی کد تولید کنند، دستور صریح به مدل درباره ساختار مورد نظر (مثلاً «فقط JSON معتبر بازگردان»، «هرگز از نماد بک‌تیک استفاده نکن») از بروز خطاهای پردازشی جلوگیری می‌کند و قابلیت استفاده برنامه‌نویسی را تضمین می‌نماید. ارائه نمونه‌هایی از قالب مطلوب به‌طور قابل توجهی قابلیت اطمینان را افزایش می‌دهد و نیاز به پردازش پسینی پیچیده را کاهش می‌دهد.

اهمیت زمینه و وضوح. مدل‌های زبان بزرگ می‌توانند به‌عنوان عامل‌های هوشمند عمل کنند و در صورت ابهام پرسش، درخواست اطلاعات بیشتر نمایند که منجر به تصمیم‌گیری‌های آگاهانه‌تر می‌شود. تکنیک‌هایی مانند «توضیح برای پنج‌ساله» موضوعات پیچیده را ساده می‌کنند، در حالی که «تفکیک سبک نوشتار» امکان استخراج و تکرار ویژگی‌های خاص نوشتاری (لحن، واژگان، ساختار) را برای تولید محتوای یکنواخت فراهم می‌آورد. این روش‌ها توانایی هوش مصنوعی را در ارائه پاسخ‌های سفارشی و با کیفیت بالا افزایش می‌دهند.

تکنیک‌های عملی برای تولید متن:

تولید فهرست/JSON/YAML: طول، قالب و اجتناب از توضیحات را مشخص کنید.
توضیح برای پنج‌ساله: متن پیچیده را برای فهم گسترده‌تر ساده کنید.
درخواست زمینه: مدل را تشویق کنید برای پاسخ بهتر اطلاعات بیشتری بخواهد.
تفکیک سبک نوشتار: ویژگی‌های سبک را استخراج و به محتوای جدید اعمال کنید.
خلاصه‌سازی: متون طولانی را حتی با محدودیت پنجره زمینه‌ای با تقسیم‌بندی خلاصه کنید.
تحلیل احساسات: احساس متن را (مثبت، منفی، خنثی) با دستورالعمل‌ها و نمونه‌های واضح طبقه‌بندی کنید.
از کم به زیاد: مسائل پیچیده را به گام‌های متوالی تقسیم کنید تا راه‌حل‌های دقیق ارائه شود.
نقش‌دهی: شخصیت خاصی را به مدل اختصاص دهید تا سبک و محتوای پاسخ را هدایت کند.
اجتناب از توهمات: مدل را وادار کنید فقط از متن مرجع ارائه شده استفاده کند.
زمان تفکر بدهید: تشویق به استدلال گام‌به‌گام برای نتایج دقیق‌تر.

۴. ساخت جریان‌های کاری پیشرفته LLM با فریم‌ورک‌هایی مانند LangChain

برای مقابله ماهرانه با چالش‌های پیچیده هوش مصنوعی مولد، آشنایی با LangChain، یک فریم‌ورک متن‌باز، بسیار مفید است.

LangChain: هماهنگ‌سازی مدل‌های زبان بزرگ. برای مسائل پیچیده هوش مصنوعی مولد مانند خلاصه‌سازی کتاب‌های کامل یا استدلال‌های پیچیده، فریم‌ورک‌هایی مانند LangChain ارزشمندند. LangChain انتزاعات مدولار برای تعامل با LLMها فراهم می‌کند و به توسعه‌دهندگان امکان افزایش آگاهی داده و عامل‌مندی می‌دهد. این فریم‌ورک ادغام مدل‌های متنوع (OpenAI، Anthropic و غیره) را با ارائه رابط یکپارچه ساده می‌کند و مهندسی پرامپت و ارزیابی مدل را تسهیل می‌نماید.

زنجیره‌ها و قالب‌های پرامپت. قدرت اصلی LangChain در «زنجیره‌ها» (یا Runnables) و «قالب‌های پرامپت» نهفته است. زنجیره‌ها امکان اجرای متوالی عملیات LLM را فراهم می‌آورند و وظایف پیچیده را به مراحل قابل مدیریت تقسیم می‌کنند. قالب‌های پرامپت امکان تولید پرامپت‌های قابل بازتولید و اعتبارسنجی شده را با پشتیبانی از متغیرهای ورودی پویا و نمونه‌های چندنمونه‌ای فراهم می‌آورند. زبان بیان LangChain (LCEL) با استفاده از عملگر لوله (|) اجزا را به هم متصل می‌کند و جریان‌های کاری را شهودی و کارآمد می‌سازد.

اجزای پیشرفته برای وظایف پیچیده:

تجزیه‌کننده‌های خروجی: پاسخ‌های متنی LLM را به قالب‌هایی مانند JSON به‌صورت خودکار ساختاربندی می‌کنند (مثلاً تجزیه‌کننده Pydantic).
ارزیابی‌های LangChain: عملکرد پرامپت را با استفاده از معیارهای ارزیابی می‌سنجند و اغلب از LLMهای هوشمندتر (مانند GPT-4) برای ارزیابی مدل‌های کوچک‌تر بهره می‌برند.
فراخوانی توابع: به LLMها امکان اجرای توابع از پیش تعریف‌شده (مثلاً فراخوانی API، تعامل با پایگاه داده) را با تولید پاسخ‌های JSON شامل نام تابع و آرگومان‌ها می‌دهد.
تجزیه وظایف و زنجیره‌سازی پرامپت: اهداف کلان را به زیرمسائل تقسیم کرده و چندین فراخوانی LLM را به‌صورت زنجیره‌ای برای افزایش تدریجی دانش به کار می‌گیرد.

۵. بهره‌گیری از پایگاه‌های داده برداری و RAG برای هوش مصنوعی متنی-زمینه‌ای

پایگاه داده برداری ابزاری است که معمولاً برای ذخیره داده‌های متنی به گونه‌ای استفاده می‌شود که امکان جستجو بر اساس شباهت یا معنای مفهومی فراهم گردد.

بردارها: زبان به صورت اعداد. کلمات و تصاویر می‌توانند به صورت بردارهای عددی با ابعاد بالا (بردارهای نهفته) نمایش داده شوند، جایی که شباهت معنایی با نزدیکی در فضای نهان منعکس می‌شود. این بردارها که توسط مدل‌هایی مانند text-embedding-ada-002 از OpenAI یا Sentence Transformers از Hugging Face تولید می‌شوند، برای درک زمینه و روابط فراتر از تطابق دقیق کلمات کلیدی حیاتی‌اند. دقت این بردارها کاملاً به داده‌های آموزشی و سوگیری‌های مدل نهفته بستگی دارد.

پایگاه‌های داده برداری: جستجوی معنایی. این پایگاه‌ها بردارهای نهفته را ذخیره می‌کنند و امکان جستجوی مؤثر بر اساس شباهت معنایی را به جای تطابق کلمات کلیدی سنتی فراهم می‌آورند. این فناوری اساس الگوی بازیابی افزوده‌شده (RAG) است که توهمات هوش مصنوعی را به طور قابل توجهی کاهش می‌دهد با تزریق پویا داده‌های مرتبط و خارجی به پرامپت‌ها. RAG برای ارائه دانش به‌روز یا حوزه‌های تخصصی که مدل LLM روی آن‌ها آموزش ندیده، حیاتی است و دقت و قابلیت اطمینان را افزایش می‌دهد.

روند کاری و مزایای RAG:

تقسیم‌بندی: اسناد بزرگ به بخش‌های کوچک‌تر و حفظ‌کننده زمینه تقسیم می‌شوند (مثلاً با تقسیم بازگشتی کاراکتر).
نمایه‌سازی: این بخش‌ها و بردارهای نهفته آن‌ها در پایگاه داده برداری ذخیره می‌شوند (مثلاً FAISS برای محلی، Pinecone برای میزبانی شده).
بازیابی: جستجوی k سند با بیشترین شباهت معنایی به پرسش کاربر.
تزریق زمینه: اسناد بازیابی شده به پرامپت LLM به عنوان زمینه پاسخ وارد می‌شوند.
مزایا: کاهش توهمات، ارائه اطلاعات به‌روز، امکان حافظه بلندمدت برای چت‌بات‌ها و کاهش هزینه‌های توکن با ارسال تنها زمینه مرتبط.

۶. توسعه عامل‌های خودکار با استدلال و ابزارها

این فصل به اهمیت استدلال زنجیره‌ای و توانایی مدل‌های زبان بزرگ در حل مسائل پیچیده به عنوان عامل می‌پردازد.

عامل‌ها: هوش مصنوعی هدفمند. عامل‌های خودکار، مدل‌های زبان بزرگ را فراتر از تولید متن ساده می‌برند و به آن‌ها امکان می‌دهند محیط‌ها را درک کنند، تصمیم بگیرند و اقداماتی برای رسیدن به اهداف از پیش تعیین‌شده انجام دهند. رفتار عامل توسط ورودی‌ها (داده‌های حسی، متن)، تابع هدف/پاداش و اقدامات موجود (ابزارها) کنترل می‌شود. برای LLMها، ورودی‌ها عمدتاً متنی‌اند، اهداف در پرامپت تعریف می‌شوند و اقدامات از طریق ابزارهای یکپارچه مانند فراخوانی API یا تعامل با سیستم فایل اجرا می‌شوند.

زنجیره تفکر و ReAct. استدلال زنجیره تفکر (CoT) مدل‌های زبان بزرگ را هدایت می‌کند تا مسائل پیچیده را به گام‌های منطقی کوچک‌تر تقسیم کنند و راه‌حل‌های جامع‌تری ارائه دهند. چارچوب ReAct بر پایه CoT است و به مدل اجازه می‌دهد افکار تولید کند، با استفاده از ابزارها تصمیم به اقدام بگیرد و سپس نتایج را مشاهده کند. این حلقه تکراری «مشاهده، تفکر، اقدام، مشاهده» ادامه می‌یابد تا راه‌حلی یافت شود و عامل‌ها قادر به حل مسائل چندمرحله‌ای می‌شوند.

اجزای کلیدی عامل‌ها:

ابزارها: توابع از پیش تعریف‌شده (مثلاً ماشین حساب، جستجوی گوگل، توابع پایتون سفارشی) که قابلیت‌های LLM را فراتر از تولید متن گسترش می‌دهند.
حافظه: برای حفظ زمینه در تعاملات حیاتی است. LangChain انواع مختلف حافظه (مثلاً ConversationBufferMemory، ConversationSummaryMemory) را برای ذخیره تاریخچه گفتگو یا خلاصه مکالمات ارائه می‌دهد.
برنامه‌ریزی و اجرای عامل: استراتژی‌هایی مانند «برنامه‌ریزی و اجرا» (مثلاً BabyAGI) برنامه‌ریزی وظایف را از اجرا جدا می‌کند، در حالی که «درخت افکار» مسیرهای استدلال متعددی را برای حل مسائل پیچیده بررسی می‌کند.
کال‌بک‌ها: سیستم کال‌بک LangChain امکان نظارت و اشکال‌زدایی اجرای عامل را فراهم می‌کند و رویدادهایی مانند شروع LLM، استفاده از ابزار و خطاها را پیگیری می‌کند.

۷. به‌کارگیری روش‌های استاندارد برای تولید تصویر

در این فصل، از تکنیک‌های استاندارد برای به حداکثر رساندن خروجی و قالب‌های مدل‌های انتشار استفاده خواهید کرد.

تغییر دهنده‌های قالب و سبک. ساده‌ترین و در عین حال قدرتمندترین تکنیک در تولید تصویر هوش مصنوعی، مشخص کردن قالب مورد نظر (مثلاً «عکس استوک»، «نقاشی روغنی»، «هیروگلیف‌های مصر باستان») و سبک هنری (مثلاً «به سبک ون گوگ»، «استودیو گیبلی») است. این تغییر دهنده‌ها به طور قابل توجهی ظاهر و محتوای تصویر را تغییر می‌دهند و امکان خلق بی‌نهایت ایده خلاقانه را فراهم می‌آورند. درک چگونگی تأثیر قالب‌ها و سبک‌های مختلف بر خروجی برای هدایت مؤثر مدل انتشار ضروری است.

اصلاح تولید تصویر:

تقویت‌کننده‌های کیفیت: افزودن عباراتی مانند «4k»، «بسیار زیبا» یا «پرطرفدار در ArtStation» می‌تواند کیفیت تصویر را به طور ظریف بهبود بخشد بدون تغییر چشمگیر سبک، زیرا این عبارات با تصاویر باکیفیت در داده‌های آموزشی مرتبط بوده‌اند.
پرامپت‌های منفی: استفاده از --no (Midjourney) یا جعبه‌های پرامپت منفی (Stable Diffusion) به کاربران امکان می‌دهد عناصر ناخواسته (مثلاً «قاب»، «دیوار»، «کارتون») را مشخص کنند و به تفکیک مفاهیم درهم‌آمیخته در داده‌های آموزشی کمک می‌کند.
وزن‌دهی به کلمات: تنظیم تأثیر کلمات یا مفاهیم خاص در پرامپت (مثلاً :: در Midjourney، () در Stable Diffusion) کنترل دقیق‌تری بر ترکیب و سبک تصویر فراهم می‌آورد.
پرامپت‌نویسی با تصویر (Img2Img): ارائه تصویر پایه همراه با متن (مثلاً لینک‌های تصویر Midjourney، تب Img2Img در Stable Diffusion) سبک، صحنه یا ترکیب‌بندی مدل را هدایت می‌کند و به عنوان نمونه بصری قدرتمندی عمل می‌کند.

۸. باز کردن کنترل پیشرفته تصویر با Stable Diffusion

بیشتر کارها با تصاویر هوش مصنوعی تنها به تکنیک‌های ساده مهندسی پرامپت نیاز دارند، اما ابزارهای قدرتمندتری برای کنترل خلاقانه‌تر خروجی یا آموزش مدل‌های سفارشی برای وظایف خاص وجود دارد.

AUTOMATIC1111: رابط کاربری حرفه‌ای. در حالی که تولید تصویر پایه می‌تواند از طریق APIها یا رابط‌های ساده انجام شود، رابط وب Stable Diffusion از AUTOMATIC1111 کنترل بی‌نظیری ارائه می‌دهد و دسترسی به افزونه‌های جامعه متن‌باز فعال را ممکن می‌سازد. این رابط امکان تنظیم دقیق پارامترهایی مانند گام‌های نمونه‌برداری، مقیاس CFG و بذر تصادفی را فراهم می‌کند و از ویژگی‌های پیشرفته‌ای مانند وزن‌دهی پرامپت و ویرایش پرامپت (تغییر پرامپت در حین تولید برای اثرات ظ

آخرین بروزرسانی: August 21, 2025

Report Issue

خلاصه نقدها

3.62 از 5

میانگین ۱۳۴ امتیاز از Goodreads و Amazon.

کتاب «مهندسی پرسش برای هوش مصنوعی مولد» نظرات متفاوتی را به خود جلب کرده است. خوانندگان از پوشش مفاهیم پایه‌ای و ارائه‌ی راهنمایی‌های عملی در زمینه‌ی طراحی پرسش‌های مؤثر استقبال کرده‌اند. با این حال، بسیاری از تمرکز زیاد کتاب بر نمونه‌های کد که ممکن است به سرعت منسوخ شوند، انتقاد کرده‌اند. برخی نیز آن را تکراری و فاقد بررسی عمیق اصول مهندسی پرسش دانسته‌اند. اگرچه کتاب به‌خاطر دسترسی‌پذیری و توضیحات روشن مورد تحسین قرار گرفته، اما تعادل آن میان درک مفهومی و پیاده‌سازی فنی مورد سؤال است. در مجموع، این اثر به‌عنوان منبعی مفید برای برنامه‌نویسانی که می‌خواهند در زمینه‌ی هوش مصنوعی مولد مهارت کسب کنند، با وجود محدودیت‌هایش شناخته می‌شود.

Want to read the full book?

Amazon Kindle Audible

دیگران نیز خوانده‌اند

Nexus

Yuval Noah Harari

A Brief History of Information Networks from the Stone Age to AI

Paths, Dangers, Strategies

3.85

۲۱٬۰۰۰+

فراگیر

Build a Large Language Model

Building Applications with Foundation Models

Jensen Huang and the Making of a Tech Giant

The Capture of the World's Greatest Company

Build, orchestrate, and deploy autonomous multi-agent systems

Dreams and Nightmares in Sam Altman's OpenAI

4.01

۱۱٬۰۰۰+

Grokking Algorithms An Illustrated Guide For Programmers and Other Curious People

Aditya Y. Bhargava

4.41

۵٬۰۰۰+

The Staff Engineer's Path

Tanya Reilly

A Guide for Individual Contributors Navigating Growth and Change

4.37

۲٬۰۰۰+

سؤالات متداول

What is Prompt Engineering for Generative AI: Future-Proof Inputs for Reliable AI Outputs by James Phoenix about?

Comprehensive guide to prompting: The book provides an in-depth exploration of prompt engineering for generative AI models, including both text and image generation.
Five core principles: It introduces five foundational, model-agnostic principles for crafting effective prompts, ensuring skills remain relevant as AI evolves.
Practical focus: Readers learn actionable techniques for improving AI output reliability, accuracy, and creativity, with real-world coding examples.
Covers broad AI landscape: The book addresses large language models (LLMs), vector databases, autonomous agents, and diffusion models, offering a holistic view of generative AI workflows.

Why should I read Prompt Engineering for Generative AI by James Phoenix?

Future-proof your AI skills: The book equips readers with enduring, transferable skills for working with current and future AI models.
Improve AI output quality: It teaches how to design prompts that reduce hallucinations, increase reliability, and optimize token usage.
Industry relevance: Endorsed by AI leaders, the book is positioned as essential reading for anyone aiming to work effectively with AI in production.
Hands-on learning: Includes practical code snippets and workflow examples, making it suitable for both beginners and experienced practitioners.

What are the five core principles of prompt engineering in Prompt Engineering for Generative AI?

Give Direction: Clearly specify the desired style, persona, or task to guide the AI’s reasoning and output.
Specify Format: Define the expected output format (e.g., JSON, lists, markdown) to ensure structured, machine-readable responses.
Provide Examples: Use few-shot or one-shot examples to demonstrate ideal outputs, improving consistency and reducing ambiguity.
Evaluate Quality: Systematically test and refine prompts using metrics or human feedback to optimize performance.
Divide Labor: Break complex tasks into smaller subtasks or chains for better control, debugging, and output quality.

How does Prompt Engineering for Generative AI explain working with Large Language Models (LLMs) for text generation?

LLM foundations: The book covers tokenization, vector representations, and transformer architecture, providing an intuitive understanding of how LLMs like GPT-4 generate text.
Probabilistic outputs: It explains the non-deterministic nature of LLMs and why prompt design is crucial for reliable results.
Model comparisons: Readers learn about major LLMs (OpenAI’s GPT, Google’s Gemini, Meta’s Llama, Anthropic’s Claude), their strengths, and context window limitations.
Practical techniques: The book demonstrates methods for generating structured outputs, simplifying text, translation, and sentiment analysis.

What are the best practices for text generation with ChatGPT and other LLMs in Prompt Engineering for Generative AI?

Structured output generation: Techniques for producing bullet lists, hierarchical outlines, and machine-readable formats like JSON/YAML are explained with code examples.
Simplification and translation: The book shows how to prompt LLMs to explain complex topics simply or translate between languages and code.
Classification and sentiment analysis: It covers prompt engineering for zero-shot and few-shot classification, including handling mixed sentiments.
Evaluation and iteration: Readers learn to systematically test and refine prompts for improved accuracy and reliability.

How does Prompt Engineering for Generative AI address handling large documents and LLM context window limitations?

Chunking strategies: The book details methods for splitting text by sentence, paragraph, topic, or token count to fit within LLM context windows.
Sliding window technique: Overlapping chunks are recommended to preserve semantic context and minimize information loss.
Recursive splitting: Recursive character splitting by multiple delimiters helps maintain structure and meaning in manageable chunks.
Improved processing efficiency: These strategies enable effective processing of long documents without exceeding model limits.

How does Prompt Engineering for Generative AI explain the use of vector databases like FAISS and Pinecone?

Embeddings and similarity search: The book introduces embeddings as high-dimensional vectors for semantic search, enabling retrieval beyond keyword matching.
Document chunking for retrieval: It emphasizes chunking large documents into meaningful pieces to improve retrieval accuracy and reduce token usage.
Retrieval-Augmented Generation (RAG): Readers learn how to inject relevant document chunks into prompts, reducing hallucinations and improving answer relevance.
Practical tools: The book covers using FAISS (local) and Pinecone (hosted) for storing and querying embeddings.

What are autonomous agents and how does Prompt Engineering for Generative AI cover them?

Agent architecture: Agents are described as systems that perceive inputs, have goals, and act in loops to solve complex tasks.
ReAct framework: The book explains the Reason and Act (ReAct) method, where LLMs iteratively reason, observe, and act using tools.
Memory integration: It covers both short-term and long-term memory for maintaining context and storing knowledge.
Tool usage: Readers learn to extend agent capabilities with custom functions and prebuilt toolkits.

How does Prompt Engineering for Generative AI approach image generation with diffusion models like Stable Diffusion and Midjourney?

Diffusion model fundamentals: The book explains how these models generate images by denoising random noise conditioned on text prompts.
Model comparisons: It compares DALL-E, Midjourney, and Stable Diffusion, highlighting their unique features and community aspects.
Prompt engineering for images: Techniques include using format and style modifiers, negative prompts, and weighted terms to control output.
Advanced image techniques: Inpainting, outpainting, and conditioning on input images are covered for greater creative control.

What advanced techniques for Stable Diffusion and image generation does Prompt Engineering for Generative AI teach?

Model customization: Instructions for running Stable Diffusion locally or via API, including setting seeds and guidance scales for quality control.
ControlNet and SAM: The book introduces ControlNet for conditioning on input images and Segment Anything Model (SAM) for automatic segmentation.
DreamBooth fine-tuning: Readers learn to fine-tune models on custom subjects for personalized image generation.
AUTOMATIC1111 Web UI: A feature-rich interface is recommended for managing models, prompts, and advanced image generation workflows.

How does Prompt Engineering for Generative AI guide building AI-powered applications, such as blog post generators?

End-to-end workflow: The book walks through topic research, outline generation, text creation, and title optimization for unique, SEO-friendly blog posts.
LangChain integration: Readers learn to chain LLM calls, manage memory, and retrieve relevant information from vector databases.
AI-generated images: It demonstrates automating illustration creation using meta-prompting and Stable Diffusion.
User interface prototyping: Gradio is suggested for rapid frontend development and user feedback collection.

What are the best quotes from Prompt Engineering for Generative AI by James Phoenix and what do they mean?

On prompt evaluation: “Without testing the writing style, it would be hard to guess which prompting strategy would win.” — Emphasizes the need for systematic prompt testing and iteration.
On embedding quality: “The accuracy of the vectors is wholly reliant on the accuracy of the model you use to generate the embeddings.” — Highlights the importance of choosing the right embedding model for reliable AI retrieval.
On unique context: “Giving an LLM unique answers provides unique context, and this allows an LLM to generate richer, more nuanced responses.” — Stresses the value of personalized input for high-quality AI outputs.
On prompt editing: “Prompt editing is an advanced technique that gets deep into the actual workings of the diffusion model.” — Reflects the creative potential and complexity of advanced prompt manipulation.

درباره نویسنده

جیمز فونیکس نویسنده‌ی کتاب «مهندسی پرسش برای هوش مصنوعی مولد» است. اگرچه اطلاعات محدودی درباره‌ی نویسنده در متن ارائه شده وجود دارد، اما می‌توان نتیجه گرفت که فونیکس در زمینه‌ی هوش مصنوعی و مهندسی پرسش تخصص دارد. این کتاب به جنبه‌های مختلف هوش مصنوعی مولد می‌پردازد، از جمله تولید متن و تصویر، و همچنین ابزارهایی مانند LangChain و Stable Diffusion را معرفی می‌کند. سبک نگارش فونیکس به گونه‌ای است که مفاهیم پیچیده را به‌روشنی و به‌سادگی توضیح می‌دهد. با این حال، برخی خوانندگان اشاره کرده‌اند که بخش‌هایی از کتاب ممکن است با کمک هوش مصنوعی نوشته شده باشد. رویکرد نویسنده ترکیبی از مبانی نظری و نمونه‌های عملی کدنویسی است، هرچند تعادل میان این دو بخش در میان خوانندگان مورد بحث و اختلاف نظر قرار گرفته است.

Compare Features	Free	Pro
📖 Read Summaries Read unlimited summaries. Free users get 3 per month
🎧 Listen to Summaries Listen to unlimited summaries in 40 languages	—
❤️ Unlimited Bookmarks Free users are limited to 4	—
📜 Unlimited History Free users are limited to 4	—
📥 Unlimited Downloads Free users are limited to 1	—

People love SoBrief

Join our global community of 600,000+ readers

★★★★★

This site is a total game-changer. I've been flying through book summaries like never before. Highly, highly recommend.

— Dave G

Worth my money and time, and really well made. I've never seen this quality of summaries on other websites. Very helpful!

— Em

Highly recommended!! Fantastic service. Perfect for those that want a little more than a teaser but not all the intricate details of a full audio book.

— Greg M