Como o Google BERT vs. Algoritmos Smith funcionam juntos - Visão geral do Semalt




O Google lançou recentemente um artigo de pesquisa sobre seu novo algoritmo de PNL SMITH. Este artigo esclareceu muitos profissionais de SEO sobre as mudanças que justificariam aumentos ou quedas no ranking SERP. No entanto, nossa preocupação aqui é como esse novo algoritmo SMITH se compara ao BERT?

No artigo publicado pelo Google, eles afirmaram que o SMITH supera o BERT no entendimento de longas consultas de pesquisa e longos documentos. O que torna o SMITH tão interessante é que ele pode entender passagens dentro de um documento semelhante ao que o BERT faz com palavras e frases. Esse recurso aprimorado do SMITH permite que ele entenda documentos mais longos com facilidade.

Mas antes de prosseguirmos, devemos informar que, a partir de agora, o SMITH não está ativo nos algoritmos do Google. Mas se nossas especulações estiverem certas, ele será lançado junto com a indexação de passagens, ou irá precedê-lo. Se você realmente estiver interessado em aprender como se classificar no SEP, o aprendizado de máquina inevitavelmente estaria lado a lado com esse interesse.

Então, de volta ao assunto, o BERT está prestes a ser substituído? A maioria dos documentos na web que são vastos, robustos e, portanto, por mais tempo, não terá um desempenho melhor com o SMITH?

Vamos pular adiante e ver o que concluímos. SMITH pode fazer o trabalho de leitura de documentos robustos e finos. Pense nisso como uma bazuca. Pode causar grandes danos, pois também pode abrir portas.

Para começar, por que BERT ou SMITH?

A verdadeira questão aqui é por que um mecanismo de pesquisa requer o Processamento de Aprendizado Natural para fornecer os resultados da pesquisa. A resposta é simples. Os mecanismos de pesquisa exigem PNL em sua transição de cadeias de caracteres ou palavras-chave para mecanismos de pesquisa ou páginas da web.

Onde o Google não tem uma ideia, o que mais pode estar na página além das palavras-chave ou se o conteúdo que está sendo indexado faz sentido em relação à consulta de pesquisa. Graças à PNL, o Google pode entender o contexto dos caracteres digitados em sua consulta de pesquisa.
Graças à PNL, o Google pode distinguir as intenções de um usuário quando ele diz "margem do rio" e "conta bancária". Ele também pode entender afirmações como "Caroline se encontrou com seus amigos para um drink, drinks, pint, ale, brew ..." como anormais.

Como especialistas em SEO, devemos dizer que entender a consulta de pesquisa já percorreu um longo caminho. Melhor acreditar que no passado era excessivamente difícil encontrar os artigos certos na Internet.

Compreendendo o BERT

O BERT atualmente funciona como o melhor modelo de PNL que temos para muitas, senão para a maioria das aplicações, especialmente quando se trata de entender estruturas complexas de linguagem. Muitos consideram o primeiro caractere bidirecional como o maior salto em frente neste algoritmo. Em vez de ter um algoritmo que lê da esquerda para a direita, o BERT também pode entender as palavras em relação ao seu contexto. Dessa forma, ele não forneceria resultados para as palavras individuais colocadas na consulta, mas indexaria páginas da web com base no significado coletivo das palavras na consulta de pesquisa.

Aqui está um exemplo para facilitar sua compreensão:

UM CAMINHÃO TEM LUZ.

Se você interpretasse essa afirmação da esquerda para a direita, ao chegar à palavra "luz", classificaria o caminhão como algo com luz. Isso porque o caminhão veio antes do semáforo no extrato.

Mas se quisermos classificar as coisas em caminhões, podemos deixar de fora "leve" porque não encontramos antes de "caminhão".

É difícil considerar a afirmação apenas em uma direção.

Além disso, o BERT também tem outro benefício secreto de ser tão notável, e permite o processamento da linguagem de forma eficaz com menor custo de recursos em comparação com os modelos anteriores. Esse é, de fato, um fator importante a ser considerado quando se deseja aplicá-lo a toda a web.

A aplicação de tokens é mais uma evolução que tem acompanhado o BERT. Existem 30.000 tokens em BERT, e cada um deles representa uma palavra comum com alguns tokens extras para caracteres e fragmentos, caso exista uma palavra fora dos 30.000.

Por meio de sua capacidade de processar tokens e transformadores, o BERT entendeu o conteúdo, o que também lhe deu a capacidade de entender frases de forma adequada.

Então, se dissermos, "a jovem foi para a margem. Mais tarde, ela sentou-se na margem do rio e observou o fluxo do rio".

O BERT atribuirá valores diferentes a essas sentenças porque elas se referem a duas coisas diferentes.

Compreendendo SMITH

Em seguida, vem o SMITH, um algoritmo com melhores recursos e números para usar no processamento de documentos maiores. O BERT usa cerca de 256 tokens por documento e, quando ultrapassa esse limite, o custo de computação fica muito alto para uma função ideal. Em contraste, o SMITH pode controlar até 2.248 tokens por documento. Isso é cerca de 8 vezes o número de tokens usados ​​pelo BERT.

Para entender por que os custos de computação sobem em um único modelo de PNL, devemos primeiro considerar o que é necessário para entender uma frase e um parágrafo. Ao lidar com uma frase, há apenas um conceito geral para entender. Há menos palavras relacionadas umas às outras, portanto, menos conexões entre as palavras e as idéias que elas guardam na memória.

Transformando frases em parágrafos, a conexão entre essas palavras é muito multiplicada. Processos 8X o texto exigirão muito mais velocidade e capacidade de otimização de memória usando o mesmo modelo. É aqui que o SMITH faz toda a diferença basicamente agrupando em lote e fazendo muito processamento off-line. Curiosamente, a SMITH ainda depende do BERT para funcionar corretamente.

Aqui está uma descrição de como o SMITH considera um documento em seu núcleo:
  1. Primeiro, ele divide o documento em tamanhos de agrupamento que são mais fáceis de gerenciar.
  2. Em seguida, ele processa cada bloco de frases individualmente.
  3. Um transformador então aprende uma representação contextual de cada bloco, após o qual ele os transforma em uma representação de documento.

Como funciona o SMITH?

Para treinar o modelo SMITH, aprendemos com o BERT de duas maneiras:

Para treinar o BERT, uma palavra é retirada de uma frase e opções alternativas serão fornecidas

O BERT, mais bem treinado, é o que terá mais sucesso na escolha da opção certa entre as alternativas disponibilizadas. Por exemplo, se BERT receber a frase:

O feliz marrom ------ pulou a cerca de piquete.
  • Opção um - tomates.
  • Opção dois - cachorro.
Quanto mais bem treinado estiver o BERT, maiores serão as chances de escolher a opção certa, que é a opção dois.

Este método de treinamento também é aplicado no SMITH.

SMITH é treinado para documentos grandes

Quanto mais bem treinado for o SMITH, melhores serão suas chances de reconhecer sentenças omitidas. É a mesma ideia com o BERT, mas um aplicativo diferente. Esta parte é particularmente interessante porque pinta um mundo com conteúdos gerados pelo Google agrupados em páginas de resultados de mecanismos de pesquisa em paredes. Claro, os usuários podem sair, mas eles não vão porque o Google pode juntar conteúdo curto e longo de todas as melhores fontes em sua página de resultados.

Se você tem dúvidas de que isso aconteça, saiba que já começou a acontecer e, embora eles ainda não tenham dominado, é um começo.

SMITH é melhor que BERT?

Com tudo o que você leu, é completamente natural presumir que SMITH é melhor e, em muitas tarefas, realmente é melhor. Mas considere como você usa a Internet por um momento; que perguntas você insere regularmente nas consultas de pesquisa?
  • "Qual é a previsão do tempo para hoje?"
  • "Como chegar a um restaurante".
Responder a essas consultas de pesquisa geralmente requer um conteúdo curto, muitas vezes com dados limitados e não complicados. A SMITH está mais envolvida na compreensão de documentos mais longos e complexos e consultas de pesquisa longas e complexas.

Isso incluirá juntar vários documentos e tópicos para criar suas respostas. Ele determina como o conteúdo pode ser dividido, permitindo que o Google saiba o que deve ser exibido. Isso ajudará o Google a entender como as páginas de conteúdo estão relacionadas entre si e fornece uma escala em que os links podem ser avaliados entre outros benefícios.

Com isso dito, concluímos dizendo que BERT e SMITH são importantes e ambos servem a seu propósito único.

Conclusão

Embora SMITH seja a bazuca, precisamos dela para pintar uma imagem clara de como as coisas são coletivamente. Em recursos, custa mais porque faz um trabalho maior, mas custa muito menos do que o BERT ao fazer esse mesmo trabalho.

BERT ajuda a SMITH a auxiliar sua compreensão de consultas curtas e pequenos pedaços de conteúdo. Isso, entretanto, é até que o Google desenvolva outro algoritmo de PNL que irá substituir ambos, e então iremos avançar e alcançar mais um avanço em SEO.

Interessado em SEO? Confira nossos outros artigos no Semalt blog.