GEO

Por qué tu web no aparece en ChatGPT (y cómo arreglarlo)

Las 7 razones por las que tu web no aparece en ChatGPT y cómo arreglar cada una: SSR, schema, autoridad, citas externas, contenido estructurado.

Publicado · 2026-05-086 min de lectura

Si abriste ChatGPT, le preguntaste por tu categoría y tu marca no salió mencionada en ninguna respuesta, no es mala suerte. Hay razones técnicas y de contenido específicas. Este post las cubre en orden de probabilidad, con cómo diagnosticar cada una y cómo arreglarla.

Si todavía no auditaste, hazlo primero (5 minutos): Cómo aparecer en ChatGPT: guía técnica 2026.

Razón 1: tu web es CSR puro (SPA sin SSR)

Es la causa más común y la más invisible. Si tu sitio fue construido con React, Vue, Svelte o cualquier framework SPA y se renderiza del lado cliente sin SSR, los crawlers de los LLMs ven una página vacía.

Cómo diagnosticar:

Abre tu sitio en navegador. Click derecho → "View page source" (o Cmd/Ctrl+U).
Si ves todo el contenido de la página renderizado en HTML, OK.
Si ves un <div id="root"></div> vacío y un <script> cargando JS, el LLM no lee tu contenido.

Cómo arreglar:

Migra a Next.js, Remix, SvelteKit o equivalente con SSR/SSG.
Si no puedes migrar el frontend completo, considera al menos pre-renderizar las páginas críticas (landing, blog, páginas de servicio) con servicios como Prerender.io.

Razón 2: tu schema.org está vacío o mal

Sin schema, el LLM tiene que inferir qué tipo de entidad eres del texto plano. Con schema, lo sabe directo. Y los LLMs prefieren no inferir cuando hay ambigüedad: si no saben qué eres, no te citan.

Cómo diagnosticar:

Abre Schema Markup Validator y pega tu URL.
Si no devuelve ningún schema, no tienes nada.
Si devuelve Organization sin más, el mínimo. Te falta.
Lo ideal: Organization o ProfessionalService, WebSite, y por página: Article con Person author, BreadcrumbList, FAQPage cuando aplique.

Cómo arreglar:

Implementa JSON-LD en el <head> con los tipos correctos. Si usas Next.js, el patrón estándar es generar el JSON desde un módulo central y serializarlo dentro de <script type="application/ld+json">.
Verifica con Schema Validator y con Google Rich Results Test.

Razón 3: autoridad de dominio cero

Los LLMs (especialmente cuando responden sin browsing en tiempo real) priorizan citar marcas que aparecen en muchos sitios de autoridad. Si nadie te enlaza, nadie te menciona en publicaciones, no estás en directorios reconocidos, el LLM no tiene señal de que existes.

Cómo diagnosticar:

Busca tu marca + ciudad en Google sin comillas. ¿Aparecen menciones en sitios de terceros (no propios)? Si solo sales tú mismo, autoridad cero.
Búscate en Wikipedia. ¿Tienes página? ¿Te citan en alguna?
Búscate en publicaciones grandes mexicanas (Forbes México, Expansión, Marketing4eCommerce). ¿Hay menciones?

Cómo arreglar (proceso lento, 6-12 meses):

Outreach a 5 publicaciones de tu industria pidiendo entrevista o columna de opinión.
Participar como ponente en eventos relevantes (genera mención + link en sitio del evento).
Casos de estudio publicados con clientes reales (con permiso, link recíproco).
Estar en directorios verticales reconocidos (no farms de enlaces, sino directorios reales como Clutch, GoodFirms para agencias).

Razón 4: contenido genérico sin opinión clara

Si tu copy es "somos los líderes en soluciones digitales innovadoras", el LLM no tiene nada que extraer. Frases vacías no se citan. Lo que se cita son datos verificables, frases con postura, ejemplos concretos.

Cómo diagnosticar:

Abre 3 páginas tuyas (home, una de servicio, un blog post).
Cuenta: ¿cuántas afirmaciones tienen un dato con fuente y link? ¿Cuántas frases tienen sentido leídas solas, fuera de contexto?
Si la mayoría es prosa de marca sin datos, no eres extractable.

Cómo arreglar:

Reescribe las páginas críticas con foco en datos, no en marca.
Cada afirmación importante debe tener una fuente con link, idealmente externa.
Frases auto-contenidas: cada oración del párrafo debe poder ser citada sola.

Razón 5: bloqueas a los AI bots en robots.txt sin saberlo

Algunas marcas, mal aconsejadas, agregaron bloqueos contra GPTBot y similares pensando que "Google es lo único que importa" o por miedo a entrenamiento de IA. El resultado: cero presencia en ChatGPT y demás.

Cómo diagnosticar:

Abre tudominio.com/robots.txt.
Busca líneas como User-agent: GPTBot seguidas de Disallow: /. Si están, estás bloqueado.
Otros agentes a verificar: ChatGPT-User, ClaudeBot, Claude-Web, PerplexityBot, Google-Extended, Amazonbot, CCBot, Bytespider.

Cómo arreglar:

Para cada agente que quieras permitir, agrega User-agent: NombreBot seguido de Allow: /.
Considera dejar abiertos al menos los 4 mayoritarios (GPTBot, ClaudeBot, PerplexityBot, Google-Extended). Bloquearlos es un autogol.

Razón 6: tu contenido es solo en español pero el corpus es 90% inglés

Los LLMs grandes (GPT, Claude, Gemini) fueron entrenados con corpus mayoritariamente en inglés. Para preguntas en español, los modelos hacen traducciones internas y pueden no encontrar suficiente material en español sobre tu nicho.

Esto no significa "publica solo en inglés". Significa:

Si tu mercado es México/LATAM, sí publicas en español, pero también publica una versión en inglés cuando el tema sea técnico (devs leen en inglés).
Para temas universales (GEO, schema.org, Next.js), tener versión EN te da ventaja de cita.

Cómo diagnosticar:

Pregunta a ChatGPT en español por tu tema → ve qué cita.
Pregunta lo mismo en inglés → ve qué cita. Si lo segundo es más rico, hay corpus desbalanceado en tu nicho.

Cómo arreglar:

Configura i18n en tu sitio si todavía no.
Publica blog post en EN para los temas más técnicos. ChatGPT a veces busca en EN aunque la pregunta sea en ES.

Razón 7: tu sitemap y arquitectura no ayudan a la indexación profunda

Si tu sitemap.xml es estático del 2022 o no existe, si tu arquitectura no tiene jerarquía clara (Home → Categoría → Servicio), si tu internal linking es desorganizado, los crawlers (de Google y de IA) tienen dificultad para descubrir tus mejores páginas.

Cómo diagnosticar:

Abre tudominio.com/sitemap.xml. ¿Existe? ¿Está actualizado (lastmod cerca de hoy)?
Cuenta cuántos clicks hay desde tu home a tu mejor blog post. Si son más de 3, el contenido está enterrado.
Verifica en Google Search Console qué páginas Google indexó vs cuántas tienes. Si el ratio es bajo (50% o menos), arquitectura mal.

Cómo arreglar:

Sitemap dinámico que se regenere en cada deploy.
Arquitectura con máximo 3 niveles desde home a contenido.
Internal linking entre artículos del mismo cluster (cada blog post enlaza a 2-3 más relevantes).

Diagnóstico rápido: cuál es tu caso

Tabla de decisión:

| Síntoma | Razón probable | |---|---| | Tu sitio es SPA en React/Vue, view-source vacío | #1 (CSR sin SSR) | | Schema Validator no encuentra nada | #2 (schema vacío) | | Buscar tu marca solo te muestra a ti mismo | #3 (autoridad cero) | | Tus textos son "líderes en soluciones..." | #4 (contenido sin opinión) | | robots.txt tiene Disallow para bots de IA | #5 (bloqueo accidental) | | Tu contenido solo existe en español | #6 (corpus desbalanceado) | | Sitemap viejo o sin sitemap | #7 (arquitectura) |

Lo más común que vemos en sitios B2B mexicanos: #1 + #2 + #4 al mismo tiempo. Tres bloqueantes que se refuerzan: el LLM no lee tu HTML, no sabe quién eres, y aunque lo supiera no tendrías frases citables.

Si cuando hicieras el diagnóstico te resultaron 3 o más razones aplicando, el camino es rework profundo, no parche. Escríbenos y te hacemos auditoría técnica gratis con prioridades por impacto.