8 hva slags arbeid gjør søkemotorroboter? Søkeroboter – hvordan de fungerer og hva de gjør

Søkemotorer bruker til å gjennomsøke nettsteder roboter (edderkopper, crawlere) - sideindekseringsprogrammer og legge inn den mottatte informasjonen i en database. Edderkoppens operasjonsprinsipp ligner på en nettleser: den evaluerer innholdet på en side, lagrer det på søkemotorens server og følger hyperkoblinger til andre seksjoner.

Utviklere søkemotorer kan begrense det maksimale volumet av skannet tekst og dybden av robotens penetrering i ressursen. Derfor for effektiv promotering nettsted, justeres disse parametrene i samsvar med egenskapene til sideindeksering av forskjellige edderkopper.

Besøksfrekvensen, rekkefølgen på gjennomsøkende nettsteder og kriteriene for å bestemme relevansen av informasjon for brukerforespørsler, er satt av søkealgoritmer. Hvis minst én lenke fra et annet nettsted fører til den promoterte ressursen, vil roboter indeksere den over tid (jo større vekten av koblingen, jo raskere). Ellers, for å øke hastigheten på markedsføringen av nettstedet, legges URL-adressen til søkemotordatabasen manuelt.

Typer edderkopper

Avhengig av formålet skilles følgende typer søkeroboter.

nasjonalt eller hoved. Samle informasjon fra en nasjonalt domene, for eksempel .ru eller .su, og nettsteder som er akseptert for indeksering;
global. Samle inn data fra alle nasjonale nettsteder;
indeksere av bilder, lyd- og videofiler;
speilmakere. Definer ressursspeil;
henvisning. Tell antall lenker på nettstedet;
bakgrunnsbelysning. De formaterer søkemotorresultater, fremhever for eksempel de forespurte setningene i teksten;
inspektører. De kontrollerer tilgjengeligheten av ressursen i søkemotordatabasen og antall indekserte dokumenter;
informanter (eller hakkespetter). Bestem med jevne mellomrom tilgjengeligheten til nettstedet, siden eller dokumentet som koblingen fører til;
spioner. Søk etter lenker til ressurser som ennå ikke er indeksert av søkemotorer;
vaktmestere. Lansert i manuell innstilling og kontroller de oppnådde resultatene på nytt;
forskere. Brukes til feilsøking søkealgoritmer og studere individuelle nettsteder;
raske roboter. I automatisk modus sjekk datoen siste oppdatering og indekser ny informasjon umiddelbart.

Betegnelser

Under søkemotoroptimalisering av et nettsted blokkeres noe av innholdet fra indeksering av roboter ( personlig korrespondanse besøkende, bestillingskurver, profilsider til registrerte brukere, etc.). For å gjøre dette, i robots.txt-filen i User-agent-feltet, skriv inn navnene på robotene: for Yandex-søkemotoren - Yandex, for Google - Googlebot, for Rambler - StackRambler, for Yahoo - Yahoo! Slurp eller Slurp, for MSN - MSNBot, for Alexa - ia_archiver, etc.

Søk robot(bot, edderkopp, edderkopp, crawler)- Dette spesialprogram søkemotor utviklet for å skanne nettsteder på Internett.

Mange vet ikke at skanningsroboter bare samler inn og lagrer informasjon. De behandler det ikke. Andre programmer gjør dette.

Hvis du vil se på nettstedet gjennom øynene til en søkerobot, kan du gjøre dette gjennom webmasterpanelet.

Du kan se hvordan Google fungerer gjennom nettredaktørpanelet. Der må du legge til nettstedet ditt, og så kan du se på siden:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

Du kan se Yandex gjennom en lagret kopi av siden. For å gjøre dette finner vi ønsket side i Yandex-søk, klikk "lagret kopi" og deretter "vis tekstversjon".

Nedenfor er en liste over søkeroboter som besøker sidene våre. Noen av dem indekserer nettsteder, andre overvåker kontekstuell annonsering. Det finnes spesialiserte roboter som gjør visse ting snevre oppgaver. For eksempel indekserer de bilder eller nyheter.

Når du kjenner roboten av synet, kan du forby eller la den krype rundt på nettstedet, og dermed redusere belastningen på serveren. Vel, eller beskytt informasjonen din mot å komme inn i nettverket.

Yandex søkeroboter

Yandex-søkemotoren har et dusin og et halvt søkeroboter kjent for oss. Listen over roboter som jeg klarte å grave opp, inkludert fra den offisielle hjelpen, er nedenfor.

YandexBot er den viktigste indekseringsroboten;
YandexMedia er en robot som indekserer multimediedata;
YandexImages - Yandex.Images indekserer;
YandexCatalog - et "tapping"-verktøy for Yandex.Catalog, brukt til å midlertidig fjerne utilgjengelige nettsteder fra publisering i katalogen;
YaDirectFetcher - Yandex.Direct robot;
YandexBlogs er en bloggsøkerobot som indekserer innlegg og kommentarer;
YandexNews - Yandex.News robot;
YandexWebmaster – kommer når du legger til et nettsted gjennom AddURL-forumet;
YandexPagechecker - mikro markup validator;
YandexFavicons - favicon-indekserer
YandexMetrika - Yandex.Metrica robot;
YandexMarket - Yandex.Market robot;
YandexCalendar er en Yandex.Calendar-robot.

Google søkeroboter (roboter)

Googlebot er den viktigste indekseringsroboten;
Googlebot Nes - nyhetsindekserer;
Googlebot Images - bildeindekserer;
Googlebot Video - robot for videodata;
Google Mobile - indekserer mobilt innhold;
Google Mobile AdSense - mobil AdSense-robot
Google AdSense – AdSense-robot
Google AdsBot – kvalitetssikringsrobot destinasjonsside
Mediapartners-Google - AdSense-robot

Roboter fra andre søkemotorer

I loggene på nettstedet ditt kan du også snuble over noen roboter fra andre søkemotorer.

Rambler - StackRambler
Mail.ru - Mail.Ru
Yahoo! — Slurp (eller Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
Live - MSNBot
Spør - Teoma
Alexa - ia_archiver
Lycos - Lycos
Aport - Aport
Webalta – WebAlta (WebAlta Crawler/2.0)

I tillegg til søkemotorroboter, er det en enorm hær av alle slags venstreorienterte edderkopper som løper rundt på sidene. Dette er ulike parsere som samler informasjon fra nettsteder, vanligvis i for egoistiske formål deres skapere.

Noen stjeler innhold, andre stjeler bilder, andre hacker nettsider og plasserer lenker i hemmelighet. Hvis du legger merke til at en slik parser har knyttet seg til nettstedet ditt, blokker alles tilgang til det mulige måter, inkludert gjennom

Noen roboter kan forkle seg som Yandex-roboter ved å spesifisere passende Bruker agent. Du kan bekrefte at roboten er den den hevder å være ved å bruke identifikasjon basert på omvendte DNS-oppslag.

For å gjøre dette må du gjøre følgende:

For brukeragenten av interesse, finn IP-adressen fra serverloggene dine. Alle Yandex-roboter er representert ved å bruke den angitte brukeragenten.

Bruk den mottatte IP-adressen, avgjør Domenenavn vert ved hjelp av et omvendt DNS-oppslag.

Etter å ha bestemt vertsnavnet, kan du sjekke om det tilhører Yandex. Navnene på alle Yandex-roboter slutter på "yandex.ru", "yandex.net" eller "yandex.com". Hvis vertsnavnet har en annen endelse, betyr dette at roboten ikke tilhører Yandex.

Til slutt, sørg for at navnet du mottok er riktig. For å gjøre dette, må du bruke et videre DNS-oppslag for å få IP-adressen som tilsvarer vertsnavnet. Den må samsvare med IP-adressen som ble brukt i det omvendte DNS-oppslaget. Hvis IP-adressene ikke stemmer, betyr det at det mottatte vertsnavnet er falskt.

Yandex-roboter i serverlogger

Spørsmål og svar

Hvordan beskytte deg mot uredelige roboter som utgir seg for å være Yandex-roboter

Hvis du vil beskytte deg mot uredelige roboter som utgir seg for å være Yandex-roboter, kan du bruke filtrering basert på omvendte DNS-spørringer. Denne ordningen er å foretrekke fremfor IP-basert tilgangskontroll fordi den er robust overfor endringer. interne nettverk Yandex.

Mengden trafikk mellom webserveren min og roboten din er for stor. Er det støtte for å laste ned sider i komprimert form?

Ja, det finnes. Yandex-søkeroboten sier med hver sideforespørsel: "Accept-Encoding: gzip,deflate". Dette betyr at ved å konfigurere webserveren din tilsvarende, kan du redusere mengden trafikk som overføres mellom den og roboten vår. Vær imidlertid oppmerksom på at overføring av innhold i komprimert form øker belastningen på serverens CPU, og hvis den er tungt belastet, kan det oppstå problemer. Roboten støtter gzip og deflate, og overholder rfc2616-standarden.

Jobben hans er å nøye analysere innholdet på sidene til nettsteder som presenteres på Internett og sende analyseresultatene til søkemotoren.

Søkeroboten gjennomsøker nye sider en stund, men senere blir de indeksert og, i mangel av sanksjoner fra søkemotorer, kan de vises i søkeresultater.

Driftsprinsipp

Driften av søkeroboter er basert på samme prinsipp som driften av en vanlig nettleser. Når de besøker et bestemt nettsted, omgår de noen av sidene eller alle sidene uten unntak. De sender den mottatte informasjonen om nettstedet til søkeindeksen. Denne informasjonen vises i Søkeresultater som svarer til en bestemt forespørsel.

På grunn av at søkeroboter kun kan besøke deler av sidene, kan det oppstå problemer med å indeksere store nettsteder. De samme problemene kan oppstå pga Lav kvalitet.

Avbrudd i driften gjør enkelte sider utilgjengelige for analyse. Viktig rolle En riktig sammensatt og godt konfigurert robots.txt-fil spiller en rolle i evalueringen av et nettsted av søkeroboter.

Dybden av ressursskanning og frekvensen av gjennomsøking av nettsteder av søkeroboter avhenger av:

Algoritmer for søkemotorer.
Frekvens for oppdatering av nettstedet.
Områdestrukturer.

Søkeindeks

Databasen med informasjon som søkeroboter samler inn kalles søkeindeks. Denne databasen brukes av søkemotorer til å generere søkeresultater for spesifikke .

Ikke bare informasjon om nettsteder legges inn i indeksen: søkeroboter kan gjenkjenne bilder, multimediefiler og dokumenter i ulike elektroniske formater(.docx, .pdf osv.).

En av de mest aktive søkerobotene i Yandex-systemet er Bystrobot. Den skanner kontinuerlig nyhetsressurser og andre ofte oppdaterte nettsteder. , som ikke blir lagt merke til av speedboten, har ingen betydning.

Du kan tiltrekke ham ved hjelp av spesialverktøy, og de er effektive for nettstedene til til ulike formål. Det finnes separate roboter for å sjekke nettsteder for tilgjengelighet, for å analysere deres individuelle egenskaper og for å indeksere bilder og dokumenter i søkemotorer.

Edderkopproboter søkemotorer- Dette er internettroboter som har som oppgave å systematisk se sider i Verdensomspennende Web for å gi webindeksering. Tradisjonelt utføres skanning av WWW-plassen for å oppdatere informasjon om innholdet som er lagt ut på nettverket for å gi brukerne oppdatert informasjon om innholdet til en bestemt ressurs. Typer søkeroboter og deres funksjoner vil bli diskutert i denne artikkelen.

Søkedderkopper kan også kalles annerledes: roboter, webedderkopper, crawlere. Men uansett navn er de alle engasjert i konstant og kontinuerlig studier av innholdet virtuelt rom. Roboten opprettholder en liste over nettadresser som dokumenter lastes ned regelmessig fra. Hvis under indekseringsprosessen edderkoppen finner ny lenke, er den lagt til denne listen.

Dermed kan crawlerens handlinger sammenlignes med en vanlig person bak nettleseren. Den eneste forskjellen er at vi bare åpner lenker som er interessante for oss, og roboten åpner alt den har informasjon om. I tillegg sender roboten, etter å ha gjort seg kjent med innholdet på den indekserte siden, data om den til spesiell form til søkemotorserveren for lagring inntil en brukerforespørsel.

Samtidig utfører hver robot sin egen spesifikke oppgave: noe indekserer tekstinnhold, noe indekserer grafikk, mens andre lagrer innhold i et arkiv, etc.

Hovedoppgaven til søkemotorer- lage en algoritme som lar deg få informasjon raskt og mest fullstendig, fordi selv søkegiganter ikke har muligheten til å gi en omfattende skanningsprosess. Derfor tilbyr hvert selskap unike roboter matematiske formler, og adlyder det som roboten velger siden å besøke i neste trinn. Dette, kombinert med rangeringsalgoritmer, er en av de de viktigste kriteriene hvor brukere velger en søkemotor: der informasjon om nettsteder er mer fullstendig, fersk og nyttig.

En søkemotorrobot vet kanskje ikke om nettstedet ditt hvis det ikke er lenker til det (noe som kanskje er sjeldent - i dag, etter registrering av et domenenavn, finnes referanser til det på Internett). Hvis det ikke er noen linker, må du fortelle søkemotoren om det. For dette, som regel, " personlige kontoer» webansvarlige.

Hva er hovedoppgaven til søkeroboter?

Uansett hvor mye vi ønsker, men hovedoppgaven Hensikten med en søkerobot er slett ikke å fortelle verden om eksistensen av nettstedet vårt. Det er vanskelig å formulere det, men likevel, basert på det faktum at søkemotorer bare fungerer takket være deres kunder, det vil si brukere, roboten må sørge for raskt søk og indeksering av data som er lagt ut på nettverket. Bare dette gjør at søkemotoren kan tilfredsstille publikums behov for relevante og relevante søkeresultater.

Selvfølgelig kan roboter ikke indeksere 100 % av nettsteder. Ifølge undersøkelser overstiger ikke antall sider lastet av søkeledere 70 % av totalt antall URLer lagt ut på Internett. Hvor fullstendig ressursen din blir studert av boten vil imidlertid også påvirke antallet brukere som følger søk fra søket. Det er grunnen til at optimerere plages når de prøver å "mate" roboten for å gjøre den kjent med endringene så raskt som mulig.

I Runet, først i 2016, rykket Yandex opp til andreplass når det gjelder månedlig publikumsdekning, bak Google. Derfor er det ikke overraskende at han har mest stor kvantitet edderkopper studerer plass blant innenlandske PS. Det er meningsløst å liste dem fullstendig: det kan ses i avsnittet "Hjelp til nettredaktøren" > Administrere en søkerobot > Hvordan sjekke at roboten tilhører Yandex.

Alle søkemotorer har en strengt regulert brukeragent. Blant dem som en nettstedsbygger definitivt må møte:

Mozilla/5.0 (kompatibel; YandexBot/3.0; +http://yandex.com/bots) - hovedindekseringsrobot;
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 som Mac OS X) AppleWebKit/600.1.4 (KHTML, som Gecko) Versjon/8.0 Mobile/12B411 Safari/600.1.4 (kompatibel; YandexBot/3.0; +http://yandex .com/bots) - indekseringsedderkopp;
Mozilla/5.0 (kompatibel; YandexImages/3.0; +http://yandex.com/bots) - Yandex.Images bot;
Mozilla/5.0 (kompatibel; YandexMedia/3.0; +http://yandex.com/bots) - indekserer multimediamateriale;
Mozilla/5.0 (kompatibel; YandexFavicons/1.0; +http://yandex.com/bots) - indekserer nettstedikoner.

For å tiltrekke Yandex-edderkopper til nettstedet ditt, anbefales det å utføre flere enkle handlinger:

konfigurer robots.txt riktig;
lage en RSS-feed;
plasser et områdekart med en fullstendig liste over indekserte sider;
opprette en side (eller sider) som vil inneholde lenker til alle dokumenter i ressursen;
konfigurere HTTP-statuser;
gi sosial aktivitet etter publisering av materiale (og ikke bare kommentarer, men deling av dokumentet);
intensiv plassering av nye unike tekster.

Det siste argumentet støttes av robotenes evne til å huske hastigheten som innholdet oppdateres med og komme til nettstedet med den oppdagede frekvensen av å legge til nytt materiale.

Hvis du ønsker å nekte Yandex-søkeroboter tilgang til sider (f.eks. tekniske seksjoner), må du konfigurere robots.txt-filen. PS-edderkopper er i stand til å forstå standardunntakene for roboter, så det er vanligvis ingen problemer når du lager en fil.

Brukeragent: Yandex

Disallow: /

vil forby PS fra å indeksere hele nettstedet.

I tillegg er Yandex-roboter i stand til å ta hensyn til anbefalingene spesifisert i metakoder. Eksempel: vil forby demonstrasjon ved utstedelse av en lenke til en kopi av et dokument fra arkivet. Og legge til en tag til sidekoden vil indikere det dette dokumentet ikke nødvendig å indeksere.

Full liste akseptable verdier finner du i delen "Bruke HTML-elementer" i Hjelp for nettredaktører.

Google søkeroboter

Googles hovedmekanisme for å indeksere WWW-innhold kalles Googlebot. Motoren er konfigurert til å undersøke milliarder av sider hver dag for å finne nye eller endrede dokumenter. Samtidig bestemmer boten selv hvilke sider som skal skannes og hvilke som skal ignoreres.

For denne crawleren viktig har en Sitemap-fil på nettstedet levert av ressurseieren. Nettverket av datamaskiner som sikrer at det fungerer, er så kraftig at roboten kan sende forespørsler til sidene på nettstedet ditt en gang hvert par sekunder. Og boten er konfigurert til å analysere et større antall sider på en gang, for ikke å forårsake belastning på serveren. Hvis siden er treg pga hyppige forespørsler edderkopp, kan skannehastigheten endres ved å konfigurere den i Search Console. Dessverre er det ikke mulig å øke skannehastigheten.

Google-roboten kan bli bedt om å gjennomsøke nettstedet på nytt. For å gjøre dette må du åpne Search Console og se etter funksjonen Legg til i indeks, som er tilgjengelig for brukere av verktøyet Bla gjennom som Googlebot. Etter skanning vil knappen Legg til i indeks vises. Google garanterer imidlertid ikke at alle endringer vil bli indeksert, siden prosessen er relatert til arbeidet " komplekse algoritmer».

Nyttige verktøy

Det er ganske vanskelig å liste opp alle verktøyene som hjelper optimalisere å jobbe med roboter, siden det er mange av dem. I tillegg til den ovennevnte "Se som Googlebot", er det verdt å merke seg Google og Yandex robots.txt filanalysatorer, analysatorer Nettkartfiler, tjeneste "Sjekker serversvar" fra den russiske PS. Takket være deres evner, vil du forestille deg hvordan nettstedet ditt ser ut i øynene til en edderkopp, noe som vil hjelpe deg å unngå feil og sikre mest mulig rask skanning nettstedet.