Se até o Sapo faz por aparecer no Google…

Há dias uma pesquisa no google por blog + (termo) devolveu, para minha surpresa, uma página de resultados do Sapo como primeira sugestão. Tal não é normal nem seria suposto acontecer, a prática de indexar as páginas de resultados de outros motores de pesquisa foi há muito abandonada pelo Google, os únicos «motores de busca» que aparecem indexados nos resultados são os scrapers.

[Corrigido, ver explicação nos comentários desta entrada.]

pesquisa por sapo

Observem as urls etcetara.blog.sapo.pt: as urls da pesquisa, “Keyword.BLOG.sapo.pt”, em que keyword corresponde a um nome de um blog, normalmente alojado nos serviços do Sapo. São criadas propositadamente para corresponder a determinados termos nas procuras dos utilizadores. Notem ainda que a página http://blog.sapo.pt redirecciona para uma página 404 (erro - não existente), logo não estamos perante uma qualquer subdirectoria…

O Sapo possui o seu serviço de blogs em blogs.sapo.pt e muitos dos termos para os quais se posiciona nos resultados do Google são nomes ou pertencem a urls desses blogs. Se isto já era passar dos limites, o que a seguir encontrei era de todo inesperado: o sapo mimetiza a url de alguns dos seus blogs servindo-se de uma simples virgula para obter uma url quase idêntica e o efeito negrito, quando a pesquisa inclui o termo “blogs”:

sapo e virgula

Entretanto, algumas destas urls já deixaram os lugares cimeiros e é natural que desapareçam dos resultados dentro de alguns meses. Ou mais rapidamente se alguém na PT Multimédia se der conta que o motor de busca da empresa não precisa de truques rídiculos destes para amealhar mais alguns cêntimos adicionar mais ruído aos resultados.

NOVO NO BLOG? Subscreva o Marketing de Busca por RSS ou directamente para o seu email. Privacidade absoluta, garantido!

Partilhar

Comentários

11 Respostas para “Se até o Sapo faz por aparecer no Google…”

  1. Marco Rodrigues a Fevereiro 23rd, 2007 0:26

    Ora aqui está uma coisa engraçada de facto! O que se faz para aparecer.. e logo da pior maneira.

  2. João Pedro Gonçalves a Fevereiro 23rd, 2007 1:18

    Olá,
    Sou o gestor técnico da Pesquisa do SAPO e gostaria de esclarecer que não existe aqui qualquer optimização, apenas um efeito do facto do domínio .sapo.pt
    ter um wildcard a apontar para a Pesquisa do SAPO:

    http://marketingdebusca.sapo.pt/ resulta
    em

    http://pesquisa.sapo.pt/?q=marketingdebusca&host=marketingdebusca.sapo.pt&ptr=i

    Nesta página a Pesquisa do SAPO até avisa:

    “A página marketingdebusca.sapo.pt não se encontra disponível, como tal efectuámos uma pesquisa por marketingdebusca.”

    Parece-me que o Google está a indexar as nossas páginas de resultados, apesar de ter recebido um Redirect (é um redirect temporário pois pode ter sido um problema de DNS e poderemos ter de
    colocar o site no ar).

    O .blog.sapo.pt aplica-se a foo.bar.sapo.pt e a qualquer outro domínio.
    Parece-me que alguém colocou um link errado numa página e o Google seguiu-o aplicando o PageRank.

    Repara que o site http://parkinson.blogs.sapo.pt/
    existe.

    Não me parece que estejamos a fazer nada
    de “Evil”.

    Um abraço,
    João Pedro Gonçalves
    Pesquisa sAPO

  3. António Dias a Fevereiro 23rd, 2007 1:40

    Sim João, eu deveria ter esclarecido que keyword= NOMEdeBLOG, mea culpa.

    A sua resposta bate certo com o primeiro caso que apontei mas de forma alguma explica o segundo.
    O firefox devolve-me um “problem loading page”.

    E já agora não seria mais simples sugerir ao utilizador o nome provável do blog? «Será que quis dizer parkinson.blogs.sapo.pt?»

  4. João Pedro Gonçalves a Fevereiro 23rd, 2007 10:17

    Desculpa, mas qual é a url q dá problemas?

    se te referes a blog.sapo.pt , de acordo com o nosso dns esse domínio aponta para blogs.sapo.pt, ao passo que x.blog.sapo.pt - um sub domínio de *.sapo.pt - vai parar à pesquisa d oSAPO.

    Quanto à sugestão da página, preferimos que o motor de pesquisa mostre o resultado mais relevante, é a primeira vez que vejo este cenário, por exemplo.

    Um abraço,
    João Pedro Gonçalves

  5. João Pedro Gonçalves a Fevereiro 23rd, 2007 10:23

    Ah! Deves estar-te a referir à vírgula.
    Acho que é uma questão de incoerência entre duas aplicações do Google, o crawler e o Firefox :)

    Algum utilizador linkou incorrectamente para o blog buffy.blogs.sapo.pt com um typo: buffy.,blogs.sapo.pt .

    A vírgula é um caractere válido no DNS, logo o *.sapo.pt apanha e envia para a Pesquisa do SAPO. O Google utiliza o hostname de origem, com o tal typo, que foi reconhecido pelo crawler mas não pelo Firefox.

    Aproveito para te demonstrar este comportamento num site que não é do SAPO:

    $ nslookup xptox.,blog.blogspot.com
    Server: 10.135.32.10
    Address: 10.135.32.10#53

    Non-authoritative answer:
    xptox.,blog.blogspot.com canonical name = blogspot.l.google.com.
    Name: blogspot.l.google.com
    Address: 72.14.219.191

  6. António Dias a Fevereiro 23rd, 2007 10:29

    João falo do caso do segundo screen shot - há uma virgula na url depois do ponto. Acabei de fazer uma outra busca em que a virgula surge a substituir o ponto (NOME,blogs.sapo.pt). Nenhum deles me resolve. Vi outros exemplos.

    se te referes a blog.sapo.pt , de acordo com o nosso dns esse domínio aponta para blogs.sapo.pt,

    http://blog.sapo.pt redirecciona-me para a 404 (not found)

  7. João Pedro Gonçalves a Fevereiro 23rd, 2007 13:04

    É ao caso da vírgula que me refiro no segundo exemplo. O DNS considera a vírgula um caractere válido, mas o browser não.

  8. João Pedro Gonçalves a Fevereiro 23rd, 2007 14:42

    Já agora,
    descobriste um bug, mas no Google :)
    Se clicares naquele link com o IE, ele abre, mas com o Firefox não.

    De acordo com o RFC2396, a vírgula não é um caractere válido num domínio, mas o crawler do Google e o resolver que usa considera válido.

    Bug no Firefox:
    https://bugzilla.mozilla.org/show_bug.cgi?id=330642

    Pelo menos por uma vez a nossa comunidade poderia dar tareia em quem de facto é grande.. a capitalização do Google já são mais que 10 Grupos Portugal Telecom. O SAPO é das empresas mais pequenas do grupo.
    Lutamos todos os dias por dar serviços à comunidade portuguesa.

    Abraço,
    João Pedro Gonçalves

  9. Web a Sério a Fevereiro 23rd, 2007 15:11

    António e João,

    Este problema deve-se, na realidade, a uma menos adequada configuração/implementação daquela funcionalidade da pesquisa do Sapo.

    Já referi este problema com pessoas do Sapo no passado (ainda que não com o João Pedro, penso).

    Estes URLs que não existem deveriam devolver um erro 404, e não um 302, como actualmente acontence. Claro que isso não permitiria que o URL passasse a ser o da pesquisa sapo (ainda que a listagem pudesse existir).

    Por outro lado, com este funcionamento inadequado da pesquisa sapo, todos aqueles que querem dedicar-se à optimização web em Portugal e em Português ganharam uma ferramenta extra… se uma pagina destas da pesquisa sapo aparecer na primeira página de resultados do google (ou do sapo), então essa palavra será muito pouco concorrida.

    E claro… se tivesses procurado links para as páginas que não existem, tinhas descoberto que afinal foram os donos dos blogs que (na maioria dos casos) criaram os links incorrectos. O Google, o Yahoo e o MSN todos te dão esta informação.

    Um abraço,
    mpneves

  10. Marco Rodrigues a Fevereiro 23rd, 2007 16:14

    Parece que já existe no bugzilla, menos mal.. já agora também ia um e-mail para o google a dizer porque é que indexa sites com vírgulas.

    Obrigado João pela tua explicação.

  11. António Dias a Fevereiro 24th, 2007 1:34

    “Lutamos todos os dias por dar serviços à comunidade portuguesa.”

    Ja tenho tema para nova posta, eheh: Sapo a fazer spam nas caixas de comentarios ;)

    Marco, obrigado pelo teu contributo. Pessoalmente gostaria de ver o sapo a sugerir a url correcta, desse modo a pagina acrescentaria valor e basta confiar que o utilizador sabe para onde vai - mas não sabe o que tecla…

Deixe uma Resposta






Fechar
E-mail It