Apêndice C: Glossário

Este glossário contém definições concisas dos principais termos técnicos utilizados ao longo do livro. Os termos estão organizados alfabeticamente para facilitar a consulta rápida.


A

Attention (Atenção)
Mecanismo que permite ao modelo focar em partes relevantes da entrada ao processar cada token. Ver Self-Attention e Multi-Head Attention.
Attention Head
Uma das múltiplas “cabeças” paralelas em Multi-Head Attention, cada uma aprendendo padrões diferentes de dependências entre tokens.
Approximate Nearest Neighbors (ANN)
Algoritmos que encontram vizinhos aproximadamente mais próximos em espaços de alta dimensionalidade, sacrificando precisão perfeita por velocidade. Usado em vector databases para busca eficiente.

B

BM25 (Best Matching 25)
Algoritmo clássico de ranking baseado em keyword search que considera frequência de termos e comprimento do documento. Frequentemente combinado com embeddings em hybrid search.
BERT (Bidirectional Encoder Representations from Transformers)
Modelo encoder-only pré-treinado bidirecional, pioneiro em representações contextualizadas. Base para muitos modelos de embeddings.
Bi-Encoder
Arquitetura que codifica query e documentos independentemente, permitindo pré-computação de embeddings. Usado em Sentence Transformers.

C

Causal Mask (Máscara Causal)
Máscara de atenção que impede tokens de “verem” tokens futuros, essencial para modelos decoder-only como GPT.
Chain-of-Thought (CoT)
Técnica de prompting que induz o modelo a raciocinar passo-a-passo antes de responder. Melhora performance em tarefas de raciocínio complexo.
Chunking
Processo de dividir documentos longos em segmentos menores para processamento eficiente. Estratégias incluem fixed-size, sentence-based, e semantic chunking.
Contrastive Learning
Método de treinamento que aproxima representações de exemplos similares e afasta exemplos dissimilares. Usado em fine-tuning de embeddings.
Cosine Similarity (Similaridade Cosseno)
Métrica que mede similaridade entre vetores através do ângulo entre eles. Valor entre -1 e 1; quanto mais próximo de 1, mais similares.

D

Decoder-Only
Arquitetura Transformer que usa apenas a parte decoder, como GPT. Especializada em geração de texto autoregressiva.
Dense Embeddings
Representações vetoriais de alta dimensionalidade onde a maioria dos valores é não-zero. Capturam significado semântico melhor que representações esparsas.
Distributed Tracing
Técnica de observabilidade que rastreia requisições através de múltiplos serviços. Essencial para debugar sistemas de agentes distribuídos.

E

Embeddings
Representações vetoriais densas de texto, imagens ou outros dados que capturam significado semântico em espaço contínuo.
Encoder-Only
Arquitetura Transformer que usa apenas a parte encoder, como BERT. Especializada em tarefas de compreensão e classificação.
Emergent Capabilities (Capacidades Emergentes)
Habilidades que surgem em modelos grandes não explicitamente treinadas, como In-Context Learning e Chain-of-Thought. Geralmente aparecem acima de ~10B parâmetros.

F

FAISS (Facebook AI Similarity Search)
Biblioteca de busca de similaridade vetorial desenvolvida pela Meta. Suporta indexação flat e ANN para escalabilidade.
Few-Shot Learning
Capacidade do modelo aprender nova tarefa a partir de poucos exemplos (tipicamente 2-10) fornecidos no prompt. Ver In-Context Learning.
Fine-Tuning
Processo de adaptar modelo pré-treinado para tarefa ou domínio específico através de treinamento adicional em dataset especializado.
Foundation Model (Modelo Base)
Modelo de larga escala pré-treinado em dados diversos, que serve como base para adaptação a múltiplas tarefas. Exemplos: GPT-4, Claude, Llama.

G

GPT (Generative Pre-trained Transformer)
Família de modelos decoder-only desenvolvidos pela OpenAI. Pioneiros em demonstrar poder de scale e In-Context Learning.

H

HNSW (Hierarchical Navigable Small World)
Algoritmo de indexação ANN que constrói grafo hierárquico para busca eficiente de vizinhos próximos. Usado em vector databases como FAISS e Qdrant.
Hybrid Search
Combinação de keyword search (ex: BM25) com semantic search (embeddings) para melhor recall e precisão.

I

In-Context Learning (ICL)
Capacidade de LLMs aprenderem novas tarefas a partir de exemplos no prompt, sem atualizar pesos do modelo. Inclui zero-shot, few-shot e many-shot learning.
Instruction Tuning
Fine-tuning especializado onde modelo aprende a seguir instruções em linguagem natural. Melhora usabilidade e alinhamento com intenções humanas.

K

KV-Cache (Key-Value Cache)
Otimização que cacheia keys e values da atenção em gerações anteriores, evitando recomputação. Reduz latência em geração autoregressiva.
Keyword Search
Busca baseada em correspondência exata de palavras-chave. Complementa semantic search em hybrid search.

L

LLM (Large Language Model)
Modelo de linguagem de larga escala (tipicamente bilhões de parâmetros) treinado em grandes corpus de texto. Exemplos: GPT-4, Claude, Llama.
LLM-as-Judge
Técnica de avaliação onde LLM avalia qualidade de saídas de outro LLM. Útil quando métricas automáticas são insuficientes.
Load Balancing
Distribuição de requisições entre múltiplos modelos/endpoints para otimizar latência, custo e disponibilidade.
LoRA (Low-Rank Adaptation)
Técnica de fine-tuning eficiente que treina matrizes de baixo rank ao invés de todos os pesos. Reduz drasticamente memória e custo.

M

Many-Shot Learning
Variante de In-Context Learning com dezenas a centenas de exemplos no prompt. Requer context window muito grande.
Multi-Head Attention
Mecanismo que executa múltiplas operações de atenção em paralelo (attention heads), cada uma capturando padrões diferentes.
MRR (Mean Reciprocal Rank)
Métrica de avaliação que mede a posição média do primeiro resultado relevante. Usado em semantic search.

N

NDCG (Normalized Discounted Cumulative Gain)
Métrica de ranking que considera tanto relevância quanto posição dos resultados. Valores mais altos indicam melhor ranking.

P

PEFT (Parameter-Efficient Fine-Tuning)
Família de técnicas de fine-tuning que atualizam apenas pequena fração dos parâmetros. Inclui LoRA, Prefix Tuning, Adapters.
Positional Encoding
Sinal adicionado aos embeddings de entrada para informar ao modelo a posição de cada token na sequência.
Precision@k
Proporção de resultados relevantes entre os top-k retornados. Métrica comum em semantic search.
Prompt Engineering
Arte e ciência de desenhar prompts eficazes para obter comportamento desejado de LLMs. Inclui técnicas como ICL, CoT, ReAct.

Q

Quantization (Quantização)
Técnica de compressão que reduz precisão numérica dos pesos (ex: FP32 → INT8). Reduz memória e acelera inferência com perda mínima de qualidade.
QLoRA (Quantized LoRA)
Combinação de quantização com LoRA para fine-tuning ultra-eficiente. Permite treinar modelos 70B em GPUs consumer.

R

RAG (Retrieval-Augmented Generation)
Técnica que combina semantic search com geração de LLM. Modelo primeiro recupera documentos relevantes, depois gera resposta baseada neles.
ReAct (Reasoning + Acting)
Padrão que entrelaça raciocínio (Chain-of-Thought) com ações (uso de ferramentas). Modelo alterna entre pensar e agir.
Recall@k
Proporção de documentos relevantes recuperados entre os top-k. Complementa Precision@k em avaliação.

S

Self-Attention
Mecanismo central do Transformer onde cada token “presta atenção” a todos os outros tokens (respeitando causal mask em decoders).
Self-Consistency
Técnica que gera múltiplas cadeias de raciocínio CoT e usa voting majoritário para escolher resposta final. Melhora robustez.
Semantic Chunking
Estratégia de chunking que divide documentos em fronteiras semanticamente coerentes, ao invés de tamanho fixo.
Semantic Search
Busca baseada em significado semântico usando embeddings, ao invés de correspondência exata de palavras. Essencial para RAG.
Sentence Transformers (SBERT)
Família de modelos baseados em BERT otimizados para gerar embeddings de sentenças. Usa arquitetura bi-encoder.

T

Temperature
Hiperparâmetro que controla aleatoriedade na geração. Valores altos (>1) = mais criativo; valores baixos (<0.5) = mais determinístico.
Tokenization
Processo de dividir texto em unidades atômicas (tokens) processadas pelo modelo. Algoritmos comuns: BPE, WordPiece, Unigram.
Transformer
Arquitetura neural baseada em attention que revolucionou NLP. Base de todos os LLMs modernos. Proposta por Vaswani et al. (2017).

V

Vector Database
Banco de dados especializado em armazenar e buscar embeddings eficientemente. Exemplos: FAISS, Pinecone, Weaviate, Chroma, Qdrant.

Z

Zero-Shot Learning
Capacidade do modelo executar tarefa sem exemplos no prompt, apenas com instrução em linguagem natural. Funciona bem para tarefas comuns.

Siglas e Abreviações

Sigla Significado Definição
ANN Approximate Nearest Neighbors Algoritmos de busca aproximada de vizinhos
BERT Bidirectional Encoder Representations from Transformers Modelo encoder-only pré-treinado
BPE Byte-Pair Encoding Algoritmo de tokenização subword
CoT Chain-of-Thought Técnica de prompting com raciocínio passo-a-passo
FAISS Facebook AI Similarity Search Biblioteca de busca vetorial
GPT Generative Pre-trained Transformer Família de modelos decoder-only da OpenAI
HNSW Hierarchical Navigable Small World Algoritmo de indexação ANN
ICL In-Context Learning Aprendizado via exemplos no prompt
LoRA Low-Rank Adaptation Técnica de fine-tuning eficiente
LLM Large Language Model Modelo de linguagem de larga escala
MRR Mean Reciprocal Rank Métrica de avaliação de ranking
NDCG Normalized Discounted Cumulative Gain Métrica de qualidade de ranking
NLP Natural Language Processing Processamento de Linguagem Natural
PEFT Parameter-Efficient Fine-Tuning Fine-tuning eficiente em parâmetros
QLoRA Quantized LoRA LoRA com quantização
RAG Retrieval-Augmented Generation Geração aumentada por recuperação
SBERT Sentence-BERT Sentence Transformers baseados em BERT

Referências Cruzadas

Para mais detalhes sobre termos específicos, consulte:

  • Transformers e Attention: Capítulo 1
  • Emergent Capabilities, ICL, CoT: Capítulos 2 e 4
  • Fine-Tuning, LoRA, PEFT: Capítulo 3
  • Prompting Techniques: Capítulo 4
  • Load Balancing, Observability: Capítulo 5
  • Embeddings, Vector Databases, Semantic Search: Capítulo 6

Última atualização: 2025-01-07 Termos: 60+