O limite dos LLMs: por que linguagem não basta para entender espaço

O verdadeiro raciocínio espacial exige computação sobre dados do mundo real, algo para o qual os grandes modelos de linguagem (LLMs) nunca foram projetados.

Os grandes modelos de linguagem (LLMs) se tornaram extremamente capazes. Eles escrevem código, analisam documentos, resumem pesquisas e respondem perguntas complexas em diversos domínios. Por isso, é tentador assumir que eles também entendem o mundo físico.

Mas quando modelos de linguagem são questionados sobre localizações, rotas, distâncias ou relações espaciais do mundo real, eles frequentemente falham. Ainda que de maneira sutil.

A razão para isso é simples. LLMs são construídos para prever texto, não para realizar cálculos espaciais ou avaliar como o mundo real realmente funciona.

Considere uma consulta simples:

“Encontre a padaria mais próxima da Praça da Sé, em São Paulo”.

Um modelo de linguagem pode pesquisar na web, recuperar avaliações e sugerir uma padaria próxima. Mas quando validamos a resposta em um mapa real, a recomendação pode não ser, de fato, a localização mais próxima.

Isso acontece porque o modelo está inferindo proximidade a partir de descrições textuais, e não calculando distância usando coordenadas geográficas e redes viárias. Pedir para um LLM calcular relações espaciais é como pedir para alguém navegar por uma cidade usando apenas avaliações de restaurantes e blogs de viagem, em vez de um mapa e uma bússola.

Para determinar a resposta real, um sistema precisa:

identificar as coordenadas do parque

identificar padarias candidatas

calcular distâncias pela malha viária

selecionar a localização acessível mais próxima

Isso é computação geoespacial, não inferência linguística.

Navegação: onde o texto falha

Consultas relacionadas à navegação expõem essa limitação de forma ainda mais clara. Ao receber a solicitação:

“Me leve do MASP ao Parque Ibirapuera”

Um modelo de linguagem pode produzir direções plausíveis passo a passo. Mas, quando comparamos essas instruções com a rede viária real, o caminho gerado frequentemente:

corta ruas incorretamente

ignora rotas disponíveis

produz trajetos ineficientes ou impossíveis

calcula distâncias incorretamente

Isso acontece porque navegação exige calcular uma rota sobre um grafo com milhões de segmentos viários, e não prever uma sequência de frases.

Relações espaciais não são linguísticas

Um problema mais profundo pode ser ilustrado por esse exemplo:

“Encontre um restaurante italiano no meio do caminho entre o Allianz Parque e Santa Cecília”

Um modelo de linguagem pode recomendar um restaurante popular no centro da cidade, muitas vezes com base em dados de treinamento que já podem estar desatualizados. Sistemas modernos de IA Geenerativa complementam isso com ferramentas para recuperar informações mais recentes, reduzindo erros óbvios, como sugerir lugares que já não existem. Mas, mesmo com dados atualizados, o problema mais difícil permanece: determinar se um lugar é realmente relevante no espaço, se está de fato “próximo”, significativamente “no caminho” ou viável de alcançar em condições reais. É nesse ponto que a compreensão de linguagem termina e o raciocínio espacial começa.

Mas determinar se uma localização está à mesma distância de dois pontos exige:

geocodificar ambas as localizações

calcular o ponto médio entre elas

avaliar os restaurantes candidatos em relação a esse ponto médio

Sem esses cálculos, o modelo está apenas adivinhando com base em padrões textuais.

LLMs são preditores de padrões linguísticos. Eles raciocinam sobre representações linguísticas do espaço, e não sobre o espaço em si. Distância é uma propriedade geométrica, não linguística.

O problema do mundo dinâmico

Mesmo quando as perguntas envolvem informações em tempo real, o mesmo problema aparece.

“Considerando as condições atuais de trânsito, qual seria o ETA de Santo André até Guarulhos?”

Um modelo de linguagem pode produzir uma resposta baseada em tempos médios de viagem vistos durante o treinamento ou recuperados por ferramentas de busca. No entanto, essas respostas refletem condições históricas ou genéricas. Elas não consideram restrições em tempo real, como obras, bloqueios temporários ou interrupções no tráfego, nem garantem que a rota calculada seja realmente válida nessas condições.

Mas a resposta real depende de:

fluxo atual do trânsito

incidentes nas vias

restrições temporárias

otimização de rota nas condições atuais

Sem acesso a sinais espaciais em tempo real e mecanismos de roteamento, o modelo consegue apenas aproximar.

A ilusão do conhecimento espacial

Essas falhas frequentemente surpreendem as pessoas porque os LLMs parecem saber muito sobre o mundo. Modelos de linguagem conseguem identificar cidades e pontos turísticos, lembrar distâncias aproximadas, descrever bairros e sugerir locais populares.

Mas esse conhecimento vem de associações textuais aprendidas durante o treinamento — e não de computação espacial.

O modelo sabe que:

“Pinacoteca fica perto do Museu do Futebol.”

Mas ele não conhece as coordenadas, a topologia ou a rede viária necessárias para calcular uma rota até lá.

O mundo físico não é apenas informação, é estrutura

Modelos de linguagem operam sobre tokens e probabilidades, não sobre gráficos espaciais, dados em tempo real ou algoritmos determinísticos. Assim como na matemática, eles aproximam resultados com base em padrões, em vez de realizar cálculos exatos. Mas, diferentemente da matemática, o raciocínio espacial também precisa considerar condições dinâmicas do mundo real, tornando abordagens puramente baseadas em linguagem fundamentalmente insuficientes.

Quando os LLMs funcionam — e quando não funcionam

LLMs são excelentes em processar, gerar e interpretar linguagem humana.

Mas eles têm dificuldade em tarefas que exigem raciocínio lógico (roteamento e cálculos geométricos), precisão factual em tempo real (conteúdo espacial dinâmico) e frequentemente enfrentam limitações em matemática básica, lógica e memória de longo prazo — todos elementos fundamentais da inteligência espacial, que são problemas essencialmente computacionais, não linguísticos.

O que isso significa para os Agentes de IA orientados à localização

À medida que sistemas de agentes de IA evoluem de responder perguntas para executar tarefas no mundo real, essa distinção se torna crítica.

Planejar jornadas, coordenar logística, entender o trânsito e encontrar localizações com base em restrições espaciais exigem raciocínio espacial confiável.

E raciocínio espacial exige algo diferente da previsão de linguagem.

LLMs são excepcionais em entender o que um usuário deseja, mas determinar como essa solicitação se conecta ao mundo físico exige computação determinística sobre dados reais de localização.

Se você tem interesse nesse assunto e quer saber mais sobre Inteligência Artificial aplicada à tecnologia de localização, converse com os especialistas da Near.

Texto original: https://www.here.com/learn/blog/llm-spatial-reasoning-vs-language-prediction