Apêndice C: Glossário

Este glossário contém definições concisas dos principais termos técnicos utilizados ao longo do livro. Os termos estão organizados alfabeticamente para facilitar a consulta rápida.

A

Attention (Atenção): Mecanismo que permite ao modelo focar em partes relevantes da entrada ao processar cada token. Ver Self-Attention e Multi-Head Attention.
Attention Head: Uma das múltiplas “cabeças” paralelas em Multi-Head Attention, cada uma aprendendo padrões diferentes de dependências entre tokens.
Approximate Nearest Neighbors (ANN): Algoritmos que encontram vizinhos aproximadamente mais próximos em espaços de alta dimensionalidade, sacrificando precisão perfeita por velocidade. Usado em vector databases para busca eficiente.

B

BM25 (Best Matching 25): Algoritmo clássico de ranking baseado em keyword search que considera frequência de termos e comprimento do documento. Frequentemente combinado com embeddings em hybrid search.
BERT (Bidirectional Encoder Representations from Transformers): Modelo encoder-only pré-treinado bidirecional, pioneiro em representações contextualizadas. Base para muitos modelos de embeddings.
Bi-Encoder: Arquitetura que codifica query e documentos independentemente, permitindo pré-computação de embeddings. Usado em Sentence Transformers.

C

Causal Mask (Máscara Causal): Máscara de atenção que impede tokens de “verem” tokens futuros, essencial para modelos decoder-only como GPT.
Chain-of-Thought (CoT): Técnica de prompting que induz o modelo a raciocinar passo-a-passo antes de responder. Melhora performance em tarefas de raciocínio complexo.
Chunking: Processo de dividir documentos longos em segmentos menores para processamento eficiente. Estratégias incluem fixed-size, sentence-based, e semantic chunking.
Contrastive Learning: Método de treinamento que aproxima representações de exemplos similares e afasta exemplos dissimilares. Usado em fine-tuning de embeddings.
Cosine Similarity (Similaridade Cosseno): Métrica que mede similaridade entre vetores através do ângulo entre eles. Valor entre -1 e 1; quanto mais próximo de 1, mais similares.

D

Decoder-Only: Arquitetura Transformer que usa apenas a parte decoder, como GPT. Especializada em geração de texto autoregressiva.
Dense Embeddings: Representações vetoriais de alta dimensionalidade onde a maioria dos valores é não-zero. Capturam significado semântico melhor que representações esparsas.
Distributed Tracing: Técnica de observabilidade que rastreia requisições através de múltiplos serviços. Essencial para debugar sistemas de agentes distribuídos.

E

Embeddings: Representações vetoriais densas de texto, imagens ou outros dados que capturam significado semântico em espaço contínuo.
Encoder-Only: Arquitetura Transformer que usa apenas a parte encoder, como BERT. Especializada em tarefas de compreensão e classificação.
Emergent Capabilities (Capacidades Emergentes): Habilidades que surgem em modelos grandes não explicitamente treinadas, como In-Context Learning e Chain-of-Thought. Geralmente aparecem acima de ~10B parâmetros.

F

FAISS (Facebook AI Similarity Search): Biblioteca de busca de similaridade vetorial desenvolvida pela Meta. Suporta indexação flat e ANN para escalabilidade.
Few-Shot Learning: Capacidade do modelo aprender nova tarefa a partir de poucos exemplos (tipicamente 2-10) fornecidos no prompt. Ver In-Context Learning.
Fine-Tuning: Processo de adaptar modelo pré-treinado para tarefa ou domínio específico através de treinamento adicional em dataset especializado.
Foundation Model (Modelo Base): Modelo de larga escala pré-treinado em dados diversos, que serve como base para adaptação a múltiplas tarefas. Exemplos: GPT-4, Claude, Llama.

G

GPT (Generative Pre-trained Transformer): Família de modelos decoder-only desenvolvidos pela OpenAI. Pioneiros em demonstrar poder de scale e In-Context Learning.

H

HNSW (Hierarchical Navigable Small World): Algoritmo de indexação ANN que constrói grafo hierárquico para busca eficiente de vizinhos próximos. Usado em vector databases como FAISS e Qdrant.
Hybrid Search: Combinação de keyword search (ex: BM25) com semantic search (embeddings) para melhor recall e precisão.

I

In-Context Learning (ICL): Capacidade de LLMs aprenderem novas tarefas a partir de exemplos no prompt, sem atualizar pesos do modelo. Inclui zero-shot, few-shot e many-shot learning.
Instruction Tuning: Fine-tuning especializado onde modelo aprende a seguir instruções em linguagem natural. Melhora usabilidade e alinhamento com intenções humanas.

K

KV-Cache (Key-Value Cache): Otimização que cacheia keys e values da atenção em gerações anteriores, evitando recomputação. Reduz latência em geração autoregressiva.
Keyword Search: Busca baseada em correspondência exata de palavras-chave. Complementa semantic search em hybrid search.

L

LLM (Large Language Model): Modelo de linguagem de larga escala (tipicamente bilhões de parâmetros) treinado em grandes corpus de texto. Exemplos: GPT-4, Claude, Llama.
LLM-as-Judge: Técnica de avaliação onde LLM avalia qualidade de saídas de outro LLM. Útil quando métricas automáticas são insuficientes.
Load Balancing: Distribuição de requisições entre múltiplos modelos/endpoints para otimizar latência, custo e disponibilidade.
LoRA (Low-Rank Adaptation): Técnica de fine-tuning eficiente que treina matrizes de baixo rank ao invés de todos os pesos. Reduz drasticamente memória e custo.

M

Many-Shot Learning: Variante de In-Context Learning com dezenas a centenas de exemplos no prompt. Requer context window muito grande.
Multi-Head Attention: Mecanismo que executa múltiplas operações de atenção em paralelo (attention heads), cada uma capturando padrões diferentes.
MRR (Mean Reciprocal Rank): Métrica de avaliação que mede a posição média do primeiro resultado relevante. Usado em semantic search.

N

NDCG (Normalized Discounted Cumulative Gain): Métrica de ranking que considera tanto relevância quanto posição dos resultados. Valores mais altos indicam melhor ranking.

P

PEFT (Parameter-Efficient Fine-Tuning): Família de técnicas de fine-tuning que atualizam apenas pequena fração dos parâmetros. Inclui LoRA, Prefix Tuning, Adapters.
Positional Encoding: Sinal adicionado aos embeddings de entrada para informar ao modelo a posição de cada token na sequência.
Precision@k: Proporção de resultados relevantes entre os top-k retornados. Métrica comum em semantic search.
Prompt Engineering: Arte e ciência de desenhar prompts eficazes para obter comportamento desejado de LLMs. Inclui técnicas como ICL, CoT, ReAct.

Q

Quantization (Quantização): Técnica de compressão que reduz precisão numérica dos pesos (ex: FP32 → INT8). Reduz memória e acelera inferência com perda mínima de qualidade.
QLoRA (Quantized LoRA): Combinação de quantização com LoRA para fine-tuning ultra-eficiente. Permite treinar modelos 70B em GPUs consumer.

R

RAG (Retrieval-Augmented Generation): Técnica que combina semantic search com geração de LLM. Modelo primeiro recupera documentos relevantes, depois gera resposta baseada neles.
ReAct (Reasoning + Acting): Padrão que entrelaça raciocínio (Chain-of-Thought) com ações (uso de ferramentas). Modelo alterna entre pensar e agir.
Recall@k: Proporção de documentos relevantes recuperados entre os top-k. Complementa Precision@k em avaliação.

S

Self-Attention: Mecanismo central do Transformer onde cada token “presta atenção” a todos os outros tokens (respeitando causal mask em decoders).
Self-Consistency: Técnica que gera múltiplas cadeias de raciocínio CoT e usa voting majoritário para escolher resposta final. Melhora robustez.
Semantic Chunking: Estratégia de chunking que divide documentos em fronteiras semanticamente coerentes, ao invés de tamanho fixo.
Semantic Search: Busca baseada em significado semântico usando embeddings, ao invés de correspondência exata de palavras. Essencial para RAG.
Sentence Transformers (SBERT): Família de modelos baseados em BERT otimizados para gerar embeddings de sentenças. Usa arquitetura bi-encoder.

T

Temperature: Hiperparâmetro que controla aleatoriedade na geração. Valores altos (>1) = mais criativo; valores baixos (<0.5) = mais determinístico.
Tokenization: Processo de dividir texto em unidades atômicas (tokens) processadas pelo modelo. Algoritmos comuns: BPE, WordPiece, Unigram.
Transformer: Arquitetura neural baseada em attention que revolucionou NLP. Base de todos os LLMs modernos. Proposta por Vaswani et al. (2017).

V

Vector Database: Banco de dados especializado em armazenar e buscar embeddings eficientemente. Exemplos: FAISS, Pinecone, Weaviate, Chroma, Qdrant.

Z

Zero-Shot Learning: Capacidade do modelo executar tarefa sem exemplos no prompt, apenas com instrução em linguagem natural. Funciona bem para tarefas comuns.

Siglas e Abreviações

Sigla	Significado	Definição
ANN	Approximate Nearest Neighbors	Algoritmos de busca aproximada de vizinhos
BERT	Bidirectional Encoder Representations from Transformers	Modelo encoder-only pré-treinado
BPE	Byte-Pair Encoding	Algoritmo de tokenização subword
CoT	Chain-of-Thought	Técnica de prompting com raciocínio passo-a-passo
FAISS	Facebook AI Similarity Search	Biblioteca de busca vetorial
GPT	Generative Pre-trained Transformer	Família de modelos decoder-only da OpenAI
HNSW	Hierarchical Navigable Small World	Algoritmo de indexação ANN
ICL	In-Context Learning	Aprendizado via exemplos no prompt
LoRA	Low-Rank Adaptation	Técnica de fine-tuning eficiente
LLM	Large Language Model	Modelo de linguagem de larga escala
MRR	Mean Reciprocal Rank	Métrica de avaliação de ranking
NDCG	Normalized Discounted Cumulative Gain	Métrica de qualidade de ranking
NLP	Natural Language Processing	Processamento de Linguagem Natural
PEFT	Parameter-Efficient Fine-Tuning	Fine-tuning eficiente em parâmetros
QLoRA	Quantized LoRA	LoRA com quantização
RAG	Retrieval-Augmented Generation	Geração aumentada por recuperação
SBERT	Sentence-BERT	Sentence Transformers baseados em BERT

Referências Cruzadas

Para mais detalhes sobre termos específicos, consulte:

Transformers e Attention: Capítulo 1
Emergent Capabilities, ICL, CoT: Capítulos 2 e 4
Fine-Tuning, LoRA, PEFT: Capítulo 3
Prompting Techniques: Capítulo 4
Load Balancing, Observability: Capítulo 5
Embeddings, Vector Databases, Semantic Search: Capítulo 6

Última atualização: 2025-01-07 Termos: 60+