› Tokenização: BPE e por que palavras viram pedaços
Por que 'tokenizer' vira 1 token e 'tokenização' vira 3? O algoritmo por trás da quebra — e por que ele cobra mais caro de quem escreve em português.
Trilha conceitual — teoria que ajuda a usar Claude melhor
← cd ../artigosPor que 'tokenizer' vira 1 token e 'tokenização' vira 3? O algoritmo por trás da quebra — e por que ele cobra mais caro de quem escreve em português.
Achei que aumentar effort fazia o modelo ficar 'mais inteligente'. Faz, mas com asterisco — custa tokens, tempo e dinheiro. Como funciona, quando ativar, quando deixar quieto.
Token é a unidade que o modelo processa, e a unidade que você paga. Não é palavra. Essa diferença muda como você pensa em prompt, contexto e custo.
A peça que destravou tudo. Uma analogia primeiro, depois Q/K/V sem matemática pesada, e por que isso muda como o Claude responde aos seus prompts.
O preditor de token tem uma arquitetura bem específica por baixo. Atenção, Q/K/V, multi-head, posicional, decoder-only — e por que cada um disso muda decisões reais no dia a dia.