Google PageRank explicado para iniciantes em SEO

Mesmo que você acredite que a pesquisa deixou de lado o PageRank, ele provavelmente continua incorporado em muitos dos sistemas do gigante das buscas até hoje.

Última atualização:

1 de março de 2024

Fernanda Teodoro
Índice

    O PageRank já foi o ponto central das pesquisas e foi o que fez do Google o império que é hoje.

    Mesmo que você acredite que a pesquisa tenha deixado de lado o PageRank, não há como negar que ele é um conceito muito difundido no setor.

    Todo profissional de SEO deve ter uma boa noção do que era o PageRank e do que ele ainda é hoje.

    Vamos nos aprofundar no assunto:

    O que é PageRank?

    Criado pelos fundadores do Google, Larry Page e Sergey Brin, o PageRank é um algoritmo baseado na força relativa combinada de todos os hiperlinks da Internet.

    A maioria das pessoas argumenta que o nome foi baseado no sobrenome de Larry Page, enquanto outras sugerem que "Page" se refere a uma página da Web. Ambas as posições são provavelmente verdadeiras, e a sobreposição provavelmente foi intencional.

    Quando Page e Brin estavam na Universidade de Stanford, eles escreveram um artigo intitulado: “The PageRank Citation Ranking: Bringing Order to the Web".

    Publicado em janeiro de 1999, o artigo demonstra um algoritmo relativamente simples para avaliar a força das páginas da Web:

    esquema simplificado do pagerank
    Imagem: artigo “The PageRank Citation Ranking: Bringing Order to the Web"

    O artigo se tornou uma patente nos EUA (mas não na Europa, onde as fórmulas matemáticas não são patenteáveis).

    A Universidade de Stanford é proprietária da patente e a cedeu ao Google. Atualmente, a patente deve expirar em 2027.

    A evolução do PageRank

    Durante seu tempo em Stanford, no final dos anos 90, Brin e Page estavam estudando métodos de recuperação de informações.

    Naquela época, usar links para calcular a "importância" de cada página em relação a outra era uma maneira revolucionária de ordenar as páginas. Era computacionalmente difícil, mas de modo algum impossível.

    A ideia se transformou rapidamente no Google, que, na época, era um peixe pequeno no mundo das buscas.

    Havia tanta crença institucional na abordagem do Google por parte de alguns participantes que a empresa inicialmente lançou seu mecanismo de busca sem a capacidade de obter receita.

    E, embora o Google (conhecido na época como "BackRub") fosse o mecanismo de busca, o PageRank era o algoritmo usado para classificar as páginas nas páginas de resultados dos mecanismos de busca (SERPs).

    A dança do Google

    Um dos desafios do PageRank foi o fato de que a matemática, embora simples, precisava ser processada iterativamente. O cálculo é executado várias vezes, em todas as páginas e em todos os links da Internet. Na virada do milênio, essa matemática levava vários dias para ser processada.

    As SERPs do Google subiam e desciam durante esse período. Essas alterações eram muitas vezes erráticas, pois novos PageRanks estavam sendo calculados para cada página.

    Isso era conhecido como a "Dança do Google" e, notoriamente, fazia com que os profissionais de SEO da época parassem de trabalhar toda vez que o Google iniciava sua atualização mensal.

    Curiosidade: a Dança do Google mais tarde se tornou o nome de uma festa anual que o Google organizava para especialistas em SEO em sua sede em Mountain View.

    Sementesde confiança

    Uma iteração posterior do PageRank introduziu a ideia de um conjunto de "sementes confiáveis" para iniciar o algoritmo do Google, em vez de dar a todas as páginas da Internet o mesmo valor inicial.

    Surfista razoável

    Outra iteração do modelo introduziu a ideia de um "surfista razoável".

    Esse modelo sugere que o PageRank de uma página pode não ser compartilhado igualmente com as páginas para as quais ela tem links (como representado no esquema acima), mas pode ponderar o valor relativo de cada link com base na probabilidade de um usuário clicar nele.

    O recuo do PageRank

    Inicialmente, acreditava-se que o algoritmo do Google era "anti-spam" internamente, pois a importância de uma página era ditada não apenas pelo seu conteúdo, mas também por uma espécie de "sistema de votação" gerado por links para a página.

    No entanto, a confiança do Google não durou muito.

    O PageRank começou a se tornar problemático à medida que o setor de backlinks crescia. Assim, o Google o retirou da visão pública, mas continuou a confiar nele para seus algoritmos de classificação.

    A barra de ferramentas do PageRank foi retirada em 2016 e, por fim, todo o acesso público ao PageRank foi reduzido. Mas, nessa época, o Majestic (uma ferramenta de SEO), em particular, conseguiu correlacionar muito bem seus próprios cálculos com o PageRank.

    pagerank na barra de ferramentas
    Imagem: Softpedia, via Semrush

    Até janeiro de 2017, o Google passou muitos anos incentivando os profissionais de SEO a não manipularem links por meio da documentação "Diretrizes do Google" e dos conselhos de sua equipe de spam, liderada por Matt Cutts.

    Os algoritmos do Google também estavam mudando durante esse período.

    A empresa estava confiando menos no PageRank e, após a compra da MetaWeb e de seu Knowledge Graph proprietário (chamado de "Freebase" em 2014), o Google começou a indexar as informações do mundo de maneiras diferentes.

    PageRank da barra de ferramentas X PageRank

    Inicialmente, o Google estava tão orgulhoso de seu algoritmo que ficou feliz em compartilhar publicamente o resultado de seu cálculo com qualquer pessoa que quisesse vê-lo.

    A representação mais notável foi uma extensão da barra de ferramentas para navegadores como o Firefox, que mostrava uma pontuação entre 0 e 10 para cada página da Internet.

    Na verdade, o PageRank tem uma gama muito maior de pontuações, mas a pontuação de 0 a 10 deu aos profissionais de SEO e aos consumidores uma maneira instantânea de avaliar a importância de qualquer página na Internet.

    A barra de ferramentas do PageRank tornou o algoritmo extremamente visível, o que também trouxe complicações. Em particular, isso significou que ficou claro que os links eram a maneira mais fácil de "enganar" o Google.

    Quanto mais links (ou, mais precisamente, quanto melhor for o link), melhor será a classificação de uma página nas SERPs do Google para qualquer palavra-chave específica.

    Isso significava que um mercado secundário foi formado, comprando e vendendo links com base no PageRank do URL em que o link era vendido.

    Esse problema foi agravado quando o Yahoo lançou uma ferramenta gratuita chamada Yahoo Search Explorer, que permitia a qualquer pessoa começar a encontrar links em qualquer página.

    Posteriormente, duas ferramentas - Moz e Majestic - desenvolveram a opção gratuita criando seus próprios índices na Internet e avaliando os links separadamente.

    Como o PageRank revolucionou as pesquisas

    Outros mecanismos de busca dependiam muito da análise do conteúdo de cada página individualmente. Esses métodos tinham pouco para identificar a diferença entre uma página influente e uma simplesmente escrita com texto aleatório (ou manipulador).

    Isso significava que os métodos de recuperação de outros mecanismos de busca eram extremamente fáceis de serem manipulados pelos profissionais de SEO.

    O algoritmo PageRank do Google, então, foi revolucionário.

    Combinado com um conceito relativamente simples de "nGramas" para ajudar a estabelecer a relevância, o Google encontrou uma fórmula vencedora.

    Ele logo ultrapassou os principais concorrentes da época, como o AltaVista e o Inktomi (que alimentava o MSN, entre outros).

    Ao operar em nível de página, o Google também encontrou uma solução muito mais escalável do que a abordagem baseada em "diretório" adotada pelo Yahoo e, posteriormente, pelo DMOZ, embora este (também chamado de Open Directory Project) tenha conseguido fornecer ao Google inicialmente um diretório próprio de código aberto.

    Como o PageRank funciona

    A fórmula do PageRank é apresentada de várias formas, mas pode ser explicada em algumas frases.

    1) Cada página da Internet recebe uma pontuação estimada do PageRank. Essa pontuação pode ser qualquer número. Historicamente, o PageRank era apresentado ao público como uma pontuação entre 0 e 10, mas, na prática, as estimativas não precisam começar nesse intervalo.

    2) O PageRank dessa página é então dividido pelo número de links que saem da página, resultando em uma fração menor.

    3) O PageRank é então distribuído para as páginas vinculadas, e o mesmo é feito para todas as outras páginas da Internet.

    4) Para a próxima iteração do algoritmo, a nova estimativa do PageRank para cada página é a soma de todas as frações de páginas com links para cada página específica.

    5) A fórmula também contém um "fator de amortecimento", que foi descrito como a chance de uma pessoa que navega na Web parar de navegar completamente. Antes do início de cada iteração subsequente do algoritmo, o novo PageRank proposto é reduzido pelo fator de amortecimento.

    Essa metodologia é repetida até que as pontuações do PageRank atinjam um equilíbrio estável. Os números resultantes foram, em geral, transpostos para um intervalo mais reconhecível de 0 a 10 por conveniência.

    Uma maneira de representar isso matematicamente é:

    fórmula pagerank
    Imagem: mathsbyagirl

    Onde:

    • PR = PageRank na próxima iteração do algoritmo
    • d = fator de amortecimento
    • j = o número da página na Internet (se cada página tivesse um número exclusivo)
    • n = número total de páginas na Internet
    • i = a iteração do algoritmo (inicialmente definida como 0)

    Problemas e iterações da fórmula

    A fórmula tem alguns desafios.

    Se uma página não tiver links para nenhuma outra página, a fórmula não atingirá um equilíbrio.

    Nesse caso, portanto, o PageRank seria distribuído entre todas as páginas da Internet. Dessa forma, até mesmo uma página sem links de entrada poderia obter algum PageRank, mas ele não se acumularia o suficiente para ser significativo.

    Outro desafio menos documentado é que as páginas mais recentes, embora potencialmente mais importantes do que as mais antigas, terão um PageRank mais baixo. Isso significa que, com o tempo, o conteúdo antigo pode ter um PageRank desproporcionalmente alto.

    O tempo em que uma página está ativa não é levado em consideração no algoritmo.

    Como o PageRank flui entre páginas

    Se uma página começar com um valor de 5 e tiver 10 links, todas as páginas para as quais ela tem links receberão 0,5 PageRank (menos o fator de amortecimento).

    Dessa forma, o PageRank flui pela Internet entre as iterações.

    À medida que novas páginas entram na Internet, elas começam com apenas uma pequena quantidade de PageRank. Mas, à medida que outras páginas começam a se vincular a essas páginas, seu PageRank aumenta com o tempo.

    Isso apenas reforça a importância dos backlinks no ranqueamento do Google.

    O PageRank ainda é usado?

    Embora o acesso público ao PageRank tenha sido removido em 2016, acredita-se que a pontuação ainda esteja disponível para os engenheiros de pesquisa do Google.

    Um vazamento dos fatores usados pelo Yandex mostrou que o PageRank permaneceu como um fator que poderia ser usado.

    Os engenheiros do Google sugeriram que a forma original do PageRank foi substituída por uma nova aproximação que requer menos poder de processamento para ser calculada. Embora a fórmula seja menos importante na forma como o Google classifica as páginas, ela continua sendo uma constante para cada página da Web.

    E, independentemente de outros algoritmos que o Google possa optar por utilizar, o PageRank provavelmente permanece incorporado em muitos dos sistemas do gigante das buscas até hoje.

    CONFIRA TAMBÉM