19Feb

Contenidos duplicados y el problema de los ?replytocom en WordPress.

contenidos duplicado wordpress

contenidos duplicado wordpress

WordPress es un gestor de contenidos poderoso pero no por eso está exento de “problemillas” como el del uso del archivo wp-cron.

En este artículo voy a exponer  otro de los problemas de WordPress, en este caso relacionado con la creación automática de contenidos duplicados.

Si tu sitio web ha sido penalizado por Google Panda es posible que uno de los factores que influyeran sea el que te comento hoy. Según he podido investigar varios blogs reconocidos que fueron afectados por Panda recuperaron sus niveles de tráfico tras resolver este problema de duplicidad de contenidos.

El problema de los enlaces ?replytocom.

¿De qué se trata todo esto? Pues bien WordPress genera una página adicional por cada nuevo comentario en uno de tus artículos.

¿Y que contiene esa nueva página? Muy simple, el mismo artículo y los comentarios previos más el nuevo.

¿Cuán grave es el problema? Bastante grave. Imagina que escribes un post X y que recibe 5 comentarios. Pues ya tienes 6 páginas con el mismo artículo repetido, la original más otra por cada uno de los comentarios. Imagina ahora que ese artículo en vez de 5 comentarios recibe 50…

¿Qué formato tienen estas páginas? http://tudominio.com/postX/?replytocom=UnNumeroAleatorio

Contenidos duplicados en WordPress

Contenidos duplicados

 

¿Pero dónde están, yo no las veo ? Ni las verás, WordPress funciona usando una base de datos. Las páginas no existen físicamente sino que se crean de forma dinámica al ser solicitadas por un navegador web.

Todo problema tiene solución.

Aquí hay tres posibles escenarios:

  1. Google ha indexado tus páginas ?replytocom y te ha penalizado.
  2. Google las ha indexado pero aun no te ha penalizado.
  3. Google aun no las ha indexado.

En los dos primeros casos te conviene actuar para des indexar esas páginas y prevenir que vuelvan a ser indexadas. En el tercero, obviamente, te conviene prevenir que puedan ser indexadas.

¿Cómo se hace?

La solución es muy fácil, usar Google Webmaster Tools, Robots.txt y/o el plugin WordPress SEO by Yoast (no obligatorio).

Primero lo primero.

Necesitas saber si Google te ha indexado alguna de estas páginas. Para esto solo tienes que abrir el buscador y escribir lo siguiente:

site:tudominio.com replytocom

Google solo ha indexado una de mis páginas:

Abraham Laria ?replytocom

Abraham Laria ?replytocom

 

Por lo tanto para ilustrar mejor este artículo he decidido tomar como ejemplo el blog de Frank Scipion: lifestylealcuadrado.com. Este es uno de los mejores blogs sobre marketing online en español y Franck, aunque no le conozco personalmente, es alguien a quien admiro y me sirve de inspiración.

Primer paso:

ingresosalcuadrado replytocom

ingresosalcuadrado replytocom

 

Segundo paso:

ingresosalcuadrado ?replytocom

ingresosalcuadrado ?replytocom

 

Si al realizar la búsqueda Google no devuelve resultados para tu sitio estás de suerte. Solo te toca prevenir.

Usando Google Webmaster Tools.

Básicamente lo que haremos aquí es decirle a Google que comience a des indexar las páginas ?replytocom que ha indexado. No es un proceso inmediato puede durar semanas e incluso algunos meses dependiendo de la cantidad de urls indexadas.  En algunos casos no se des indexan todas las páginas, puede que queden unas pocas.

Asumiendo que ya has dado de alta tu sitio en  Google Webmaster Tools ve a con “Configuración” y selecciona “Parámetros de URL”. Si aparece la variable ?replytocom haz click en editar. Ver siguiente imagen.

Google Webmaster Tools

Google Webmaster Tools

 

y luego seleccionar como en la próxima imagen:

 

replytocom nourl

replytocom nourl

 

Robots.txt

Añadir el siguiente código a tu archivo robots.txt:

Disallow: *?replytocom

Esta opción solo debes usarla en alguno de los dos casos siguientes:

  1. Google no ha indexado tus páginas.
  2. Google ha terminado de des indexar tus páginas.

Básicamente le estamos diciendo a Google que al revisar nuestro sitio no tome en cuenta las páginas que contengan ?replytocom.

Si colocas esta línea de código en tu archivo robots.txt habiendo Google indexado tus páginas y sin haber solicitado su des indexación impedirás que Google pueda hacer su trabajo y las urls quedaran indexadas. No lo uses hasta que concluya la des indexación.

Mucho me temo que Franck Scipion ha cometido este error en su blog no habiendo des indexado antes las urls que contienen ?replytocom. Lo más probable es que no haya notado este problema.

robots.txt

robots.txt

 

Franck, por si lees este post: Al hacer Disallow:  /*?* en tu blog automáticamente imposibilitas que Google des indexe tus urls ?replytocom si en algún momento decides des indexarlas.

Usar WordPress SEO by Yoast.

Este es un plugin para manejar el SEO de tu sitio web al estilo de otros como All in One SEO Pack pero permite eliminar la variable ?replytocom al final de la url. Si tienes http://tudominio.com/postX/?replitocom=123 este plugin hará que se quede en http://tudominio.com/postX/. Con lo cual al ser igual al post original estas páginas no serán creadas y se elimina la posible duplicación de contenidos antes de que ocurra.

Solo tienes que ir a la sección de permalinks en la configuración del plugin y marcar la casilla que permite eliminar los ¿replytocom. Puedes descargar el plugin aquí.

Si no deseas usar otro plugin más con las dos primeras opciones es más que suficiente.

Resumiendo

  1. Si tu sitio no ha sido indexado aun: Usa el robots.txt y eso es todo aunque no está demás  usar Google Webmaster Tools.
  2. Si ya fue indexado: Usa GWT para des indexarlo. Posteriormente usa robots.txt y mantén activo GWT.
  3. Adicionalmente puedes usar el plugin WordPress SEO by Yoast. Su uso es opcional y NO sustituye a los dos pasos anteriores si tus urls ya han sido indexadas. Aunque es un excelente plugin para SEO en ocasiones suele presentar problemas de compatibilidad con algunas plantillas y plugins. Úsalo a discreción.

Espero que te haya sido útil este artículo. ¿Se ha visto tu blog afectado por este problema? Déjame saber en los comentarios.

Internet Marketing en 20 LeccionesObtén mi libro gratis, lección tras lección durante 20 semanas o compra AHORA MISMO la edición completa más 3 lecciones extra por solo $3.99 USDComprar Internet Marketing en 20 Lecciones

compartir en redes sociales

Comentarios

  1. Hola. Una pregunta. Si al hacer la búsqueda en Google aparecen los resultados pero indica que no se dispone de descripción por bloqueo de robots.txt como los vistos en el ejemplo, deduzco que no existirá contenido duplicado ya que no aparecen las descripciones de los resultados. ¿Es esto correcto?

    Por otro lado si en WMT no aparece nada en parámetros URL ¿qué significa exactamente?

    Gracias.

  2. Otro comentario que me he dejado. Por lo que comentas parece como si dijeras que si hay páginas ya indexadas el fichero robots.txt no sirve sino que tienes que desindexar por WMT. Yo creo que robots.txt desindexa aunque tengamos páginas previamente indexadas. Es decir, que si tenemos páginas del tipo ?replytocom indexadas y posteriormente añadimos en el fichero robots.txt la exclusión del ?replytocom o /*?* Google debería desindexar esas páginas independientemente del uso en WMT. A través de WMT parámetros URL es otra forma de poderlo hacer. No sé si estoy equivocado al respecto. Saludos.

    • Hola Ricardo:
      Según he estado averiguando a través de muchos artículos al respecto parece ser que Google necesita poder acceder al sitio web durante el proceso de desindexar las urls, supongo que para hacer algún tipo de comprobación. Yo no tenía conocimiento de este error hasta hace muy poco por lo que no puedo exponer mis propios resultados. Lo que cuento en el post se basa en lo que parece ser la forma correcta de actuar después de haber leído unos 80 (no bromeo) artículos al respecto entre ingles y español.
      Si te aparecen los resultados en Google pero no la descripción debido al robots.txt solo quiere decir que el buscador actualmente no puede acceder al sitio debido a la restricción. Pero si al hacer click en el enlace que tiene el ?replytocom se te abre la página quiere decir que es uno de los duplicados independientemente de que ya estén bloqueados en el robots.txt. En ese escenario el robots.txt actualmente está impidiendo que nuevos contenidos duplicados sean indexados pero no puede hacer nada frente a los que ya lo han sido.
      Si en WMT no te aparece nada se me hace extraño teniendo páginas indexadas. Voy a investigar un poco al respecto

  3. Hola Abraham, quiero compartir mis penas. Ayer quite el disallow del replytocom pues lei en una parte que no era bueno. Pos esta manana amanezco con mas de 400 urls duplicadas con urls terminadas en replytocom ya indexadas. A parte de que me mude de server y se me olvido modificar el permlink de url con / a url si /. Ahora con 600 articulos tengo 3,000 urls duplicadas. Ya me penalizaron. Me bajaron las visitas en un 60 %. Como hago para desindexar las urls sin / (backslash)?

    • Hola Adonis:
      No te preocupes que todo tiene solución para resolver el problema de los ?replytocom con seguir mi tutoria tienes. Para el problema del slash (/) en el blog oficial de Google te cuentan como resolverlo: http://googlewebmastercentral.blogspot.com/2010/04/to-slash-or-not-to-slash.html
      Espero que te sirva.
      Saludos.

      • Hola Abraham. Yo entiendo que el tema del “/” es una cosa que se gestiona de forma automática siguiendo unas pautas en WP. Activar el uso preferido con www o sin www, y uso de URLs canónicas informando también del uso preferido en Webmaster Tools. Con eso imagino es suficiente o por lo menos yo nunca he tenido ese problema y las URls sin “/” redireccionan a “/” de forma automática.

        Respecto a los replytocom con poner

        Disallow: /*?*
        Disallow: /*?

        a nivel de robots.txt te curas en salud.

        PD: Abraham. Enhorabuena por tu blog!

        Saludos.

        • Otra cosa que se me olvidaba. Creo recordar que esto ya te lo pregunté en una ocasión. Siguiendo un post que hiciste sobre el tema de los contenidos duplicados con replytocom. Hay una cosa que no veo clara o quizás no interpreto bien. Mencionas que si el Google aparece el replytocom indexado Google ya lo considera independientemente del robots.txt. Y hay que informarle para que elimine las URLs etc.
          Mi interpretación es que una vez bloqueas por robots.txt Google no interpreta la duplicidad porque en el fondo no se entera del contenido.
          Por ejemplo en mi web con replytocom aparecen 27 ocurrencias en Google pero en WMT no aparece ninguna incidencia.
          Imagino que otra cosa sería no controlarlo, dar el contenido duplicado, que WMT informe y luego lo bloquees en robots. El mal ya estaría hecho.

          Espero tu comentario.

          Saludos.

          • Lo que dije fue que al bloqueadas en el robot.txt impides la indexación de nuevas urls pero la que ya están indexadas así se quedan hasta que se las mande a desindexar mediante WMT. Al menos eso fue lo que interpreté después de leer un sin fín de artículos al respecto. Saludos.

        • Llevas muchas razón, Ricardo. Es básicamente lo que explican en el blog de Google. Un saludo.

  4. Bueno pongo otra duda.

    1) tenemos una web que tiene los posts indexados con permalink category+postname
    2) por error se cambia el permalink a postname
    3) Google indexa el cambio y nos avisa en WMT de titulos y descripciones duplicadas. Ya que ahora el mismo post está indexado de dos formas distintas
    4) volvemos a dejar el permalink a su estado original: category+postname
    5) optamos por poner un redirect 301 en .htaccess post a post (suerte que tenemos pocos posts publicados)
    6) ahora los ultimos post indexados con postname redireccionan a los originales. hacemos esto para evitar el contenido duplicado
    7) optamos por no eliminar los post del tipo postname porque en el fondo son mas ocurrencias indexadas en el buscador

    Ahora mi pregunta:

    ¿WMT eliminará esas incidencias de forma automática sin necesidad de eliminar URL’s etc?

    Entiendo que una vez dejado como estaba y aplicando redirección no debería considerarse el contenido duplicado.

    Gracias.

    Saludos.

    • Están muy bien los pasos que realizaron, no debería considerarse contenido duplicado. Sólo agregar que en la página de error de WMT marquen los errores como resueltos. Un saludo y buen fin de semana.

  5. Gracias Abraham por el tutorial y el enlace. Me ha servidor de mucho para aprender. Con el enlace que me diste vi que tengo un problema que no me habia dado cuenta.
    Cuando hago un Fletch as google en mis urls con / y sin / ninguna de las dos me da un codigo de respuesta 200. Las dos me dan un 301 Moved Permanently no un 200. Pero una de ella tambien me pone un:
    The page seems to redirect to itself. This may result in an infinite redirect loop. Please check the Help Center article about redirects.

    Algun consejo. Tambien quisiera saber cual seria el .htaccess que deberia usar para redireccionar url sin / a una con / despues de haber cambiado las permalinks. Estoy saturado de ver tantos ejemplos y ninguno me explican bien.

    • Si te dan 301 no tienes problema quiere decir que tienen redirección permanente no necesita lo del.htaccess Pq el 301 es la misma cosa. Para el otro error intenta ir a la página en cuestión en WordPress dale en editar y cambia el permalink a cualquier cosa, por ejemplo agrega un 1 al final y actualiza la entrada. Luego repite el proceso pero elimina el 1 deja el enlace tal y como estaba antes y actualiza. Debería resolverse. Saludos.

  6. Interesante artículo, yo uso WordPress SEO by Yoast y resulta muy efectivo para eliminar las variables ?replytocom. Gracias por la info sobre Webmaster Tools.

  7. Felicidades Abraham. Uno de los post mejor explicados que he encontrado por la red. Sólo un detalle. Quizá yo hubiera explicado antes que la modificación en robots.txt se debe hacer únicamente si no se han indexado las páginas en Google. Mas de uno se habrá visto obligado a corregir el archivo al leer la explicación posterior. Muy buen artículo, Un saludo. 🙂

  8. Hola, que opinas de este codigo para el archivo robots? Sobre todo para reducir el consumo de CPU del hosting y mejorar el posicionamiento? Gracias

    ——————————-

    User-agent: Mediapartners-Google*
    Disallow:
    User-Agent: *
    Allow: /wp-content/uploads/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/
    Disallow: /wp-includes/
    Disallow: /wp-admin/
    Disallow: /?s=
    Disallow: /search
    Allow: /feed/$
    Disallow: /feed
    Disallow: /comments/feed
    Disallow: /*/feed/$
    Disallow: /*/feed/rss/$
    Disallow: /*/trackback/$
    Disallow: /*/*/feed/$
    Disallow: /*/*/feed/rss/$
    Disallow: /*/*/trackback/$
    Disallow: /*/*/*/feed/$
    Disallow: /*/*/*/feed/rss/$
    Disallow: /*/*/*/trackback/$
    User-agent: MSIECrawler
    Disallow: /
    User-agent: WebCopier
    Disallow: /
    User-agent: HTTrack
    Disallow: /
    User-agent: Microsoft.URL.Control
    Disallow: /
    User-agent: libwww
    Disallow: /
    User-agent: noxtrumbot
    Crawl-delay: 50
    User-agent: msnbot
    Crawl-delay: 30
    User-agent: Slurp
    Crawl-delay: 10

    Sitemap: http//www.

    ——————————–

    • Hola Joaquín:
      Me parece muy bien, bastante refinado. Yo mismo no lo tengo tan detallado. Sólo al final donde el sitemap yo pondría la URL completa incluyendo el /sitemap.xml
      Lo demás perfecto.
      Saludos,
      Abraham

      • Abraham, perfecto entonces… espero que le sirva a tus seguidores. Deberías abrir un artículo especial sobre la configuración del robots.txt

        Creo que si alguno tiene problemas de CPU o consumo en el sitio y mas cuando alojan sus webs en compartidos, la mejor opcion para reducir el consumo es bloquendo completamente el acceso de los robots al sitio

        —————-

        User-agent: *
        Disallow: /

        —————-

        • No puede ser tan drástico porque sino el sitio no se indexa en los buscadores. Lo que se puede hacer es bloquear aquellos que no sean relevantes a tu audiencia por ejemplo Yandex (Rusia), Baidu (China) y otros que no los conoce nadie pero son un verdadero coñazo. Entre los más conocidos la solución pasa por limitar la frecuencia con que puede visitar el sitio.
          Saludos.

  9. Hola Abraham,
    tengo una duda si se considera pagina duplicada al este codigo que agregar el total cache a mis paginas (?w3tc_preview=1)
    ejemplo:
    http://www.midominio.com/lapagina/?w3tc_preview=1

    tengo indexadas mas de 600 paginas de esa manera hay forma de corregir y eliminarlas para que no se sigan creando

    saludos

    • No tenia idea de eso pero es posible que Google lo pueda tomar como contenido duplicado. Yo hice una prueba con mis posts y no tengo nada semejante indexado supongo que porque no permito que se indexe nada que contenga /?. El mismo tutorial te sirve para resolver ese problema.

  10. Hola Abraham! Te cuento que en parámetros de urls en WMT hice todo lo que explicas, salvo que en el apartado “Efecto” puse Otros, y Google sigue indexando los replytocom todo el tiempo. Ya no se que hacer, a medida que aparecen los desindexo manualmente desde WMT pero así no se puede seguir es incomodísimo. De hecho creo que mi sitio esta penalizado por esa razón. Tienes alguna idea. Gracias!!!

  11. debería esperar un tiempo mayor….pero ya pasaron 3 meses y la modificación en el parámetro no surtió efecto. Aclaro: no modifique el robot.txt, estoy esperando que desaparezcan los replytocom.

  12. Gracias Abraham, felices fiestas para tí también!!!

  13. Muchas Gracias! al cambiar el nombre de dominio me alerto de este problema tanto del dominio antiguo como el nuevo, Saludos!

  14. Hola.

    Un gracias muy grande, tenía esos errores en Webmaster Tools (aunque no había sido indexado según la búsqueda en Google), he seguido tus indicaciones en WT y en cuanto al archivo robots.txt en rubixephoto.com

    Un abrazo y gracias de nuevo.

    Jota.

Deja un comentario