Os Bots ou robôs buscadores são aplicativos ou mecanismos criados pelas grandes big techs que passa todo o seu tempo navegando na internet, de site em site buscando conteúdos novos para serem indexados nos seus motores de buscas.
Esses robozinhos são orientados a pegar quase tudo que ele encontrar e hospedar em um servidor assim deixando disponível para quaisquer pessoas na internet, porém há uma forma de limitar esses Bots criando um arquivo de texto em seu diretório.
Porém, você pode optar por apenas limita-lo ao invés de proibi-lo, afinal a ideia é fazer com que seu site seja encontrado na internet e que pessoas consumam seus conteúdos e limitando totalmente tudo isso seria impossível.
O Que você Vai Ler Aqui!
ToggleO que é o Robots.txt
Assim como o nome já revela, o robots.txt é um arquivo formato de texto que pode ser criado por qualquer software como o Bloco de Notas, Word entre outros. Funciona como um filtro para guiar os robôs de mecanismos de buscas e faz com que os webmasters controlem permissões de acesso e indexação para determinadas páginas do seu site.
O robots.txt controla informações que um mecanismo como o Google deve ou não colocar em suas buscas e um exemplo muito clássico é a pagina de administração do site, certamente essa página, por motivo de segurança, não deve estar nos mecanismos de buscas ajudando a controlar a segurança do mesmo.
Por isso é super importante ter esse arquivo em seu diretório para filtrar o que deve ou não deve ser rastreado. Para se ter uma noção o Google usa seu próprio robô para rastrear o seu próprio mecanismo de busca, isso é no mínimo muito curioso, veja https://www.google.com/robots.txt.
Como saber se meu site tem robots.txt
Para saber se seu site tem um filtro de indexação de mecanismo de busca é muito simples basta acessar o seu site na página index, geralmente usamos a home, e acrescentar /robots.txt. Se aparecer uma pagina com essa abaixo o seu site está com filtro de Bots, mas se der uma página de erro procure imediatamente o seu webmaster ou um profissional para criar esse filtro pois ele é muito importante.
Como criar um Robots.txt em meu site
Para um arquivo robots.txt em seu site é muito simples, basta abrir o bloco de nota do seu Windows ou qualquer editor de texto do seu computador e usar a sintaxe abaixo, depois salvar o arquivo como o seguinte nome Robots.txt e subir para o diretório principal do seu site.
Em seguida para verificar se tudo ocorreu super bem basta acessar o seu domínio/robots.txt e se aparecer o arquivo que você acabou de criar está tudo ok, se não aparecer algo não saiu como esperado.
- User-agent: *
- Allow: /wp-admin/admin-ajax.php
- Disallow: /wp-admin/
- Disallow: /wp-content/uploads/wpo-plugins-tables-list.json
- Sitemap: https://seusite.com/sitemap.xml
- Sitemap: https://seusite.com/sitemap.rss
No exemplo acima usamos um robots.txt para sites criado com o WordPress, que é o maior criador de sites do mundo. Note que no exemplo deixamos o User-agent: * apenas com um * permitindo que qualquer Bot rastreie nosso site.
O comando Allow orienta aos robots qual diretório ou página deve ter o conteúdo indexado. Diretórios e páginas são por definição sempre permitidos.
O comando Disallow instrui os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice.
Note também que colocamos em nosso robots.txt o site mapa do nosso site assim ajuda a guiar o robô ao local correto de onde ele achará todas as páginas, posts, imagens, produtos e textos de nosso site.
Atenção com o seu robots.txt
Ainda no exemplo acima, note que deixamos um * permitindo que qualquer Bot rastreie nosso site, porém sabemos que Hackers também criam Bots rastreadores para tentar invadir o seu site, então a forma mais correta é citar quais rastreadores você permite em seu site como no exemplo abaixo.
- Google: User-agent: Googlebot
- Google Imagens: User-agent: Googlebot-images
- Google Adwords: User-agent: Adsbot-Google
- Google Adsense: User-agent: Mediapartners-Google
- Yahoo: User-agent: Slurp
- Bing: User-agent: Bingbot
- Todos os mecanismos: User-agent: * (ou simplesmente não incluir o comando user-agent)
Se tem alguma dificuldade na criação do seu robots.txt ou seu site não esta aparecendo nos mecanismos de busca, fale com nossos especialista ou agende uma reunião via Meet para nos ajudarmos a concertar esses erros.