Yandex ny algoritme. Udsigter og prognose

Vi løslod ny bog"Indholdsmarkedsføring i i sociale netværk: Sådan kommer du ind i dine abonnenters hoveder og får dem til at forelske sig i dit brand."

Jeg skrev for nylig en lignende artikel om det og besluttede, at det også er nødvendigt at fremhæve fortiden for den indenlandske søgemaskine for at fuldende billedet. Foreslå ikke Rambler :)

I første omgang fra 1990 til 1996 virksomheden under usædvanligt navn Arcadia var under udvikling software produkter, tæt knyttet til ordsøgning. Det første skridt mod at skabe en søgemaskine, som vi kender den nu, var skabelsen af en automatisk klassificering af opfindelser, der vejede 10 MB. Takket være udviklingen i Arcadia var starten på Yandex imponerende.

Fjern fortid: alle Yandex-algoritmer siden 1997

Den 23. september 1997 er Yandex-virksomhedens officielle fødselsdag. Fra starten kunne søgemaskinen allerede tage højde for morfologi, afstanden mellem ord og vurdere dokumentets relevans for den indtastede forespørgsel.
November 1997 - Brugere kan få relevante svar på spørgsmål om naturligt sprog. Som "hvor skal man købe", "hvor skal man hen" og så videre.
1998 - Yandex tilføjede muligheden for at "finde et lignende dokument" efter ændringstidspunkt og datointerval.
1999 – Det bliver muligt at søge i forskellige kategorier: tekstzoner, kategorier, billeder. Samme år blev begrebet "citationsindeks" tilføjet. Der vises et filter i søgningen, der har til formål at undgå pornografi og uanstændigheder.
2000 - Yandex udvider til nye områder. Især Yandex.News. Nu er tekster rangeret efter vigtighed.
2001 – Datamængden i søgemaskineindekset oversteg 1 terabyte.
2002 - SEO begynder aktivt at rejse websteder i søgning. To hovedmåder: udveksling af links og placering af links i mapper.
2003 – Linkudvekslingens popularitet går gennem taget. Komme til syne automatiske tjenester for at bytte ryg. Tendensen fortsatte gennem 2004.
Begyndelsen af 2005 – Promovering ved hjælp af linkere (tjenester til automatisk forfremmelse links) går ud over alle grænser. Absolut irrelevante sider vises i de øverste søgeresultater.

Det var muligt at promovere ethvert websted for enhver anmodning uden særlige vanskeligheder - forskellige vittigheder begyndte at dukke op. På det tidspunkt, hvis du søgte efter "folkets fjende", kunne du finde den russiske præsident Vladimir Vladimirovichs hjemmeside. Og anmodningen om hæmorider viste den russiske version af Microsofts hjemmeside.
Slutningen af 2005 - Det er logisk at antage, at Yandex begyndte at ødelægge linkere. Det såkaldte "Nepot-filter" annullerede vægten af links fra websteder, der beskæftiger sig med linkhandel.
2006 - Udvekslingen af links blev erstattet af udvekslinger, hvor det var muligt at købe et backlink fra forskellige websteder (såsom opslagstavler).
2007 – Links blev en handelsvare. Og det var forudsigeligt, at der ville blive skabt en stor børs for at købe/sælge links ind forskellige tilstande, på forskellige ressourcer mv. I de år kunne sådan en virksomhed indbringe en meget god månedlig indkomst. Det betyder, at alle begyndte at gøre dette. Hovedarbejdet i SEO var køb af backlinks. Samme år blev der udgivet en ny rangeringsformel, ifølge hvilken, for højfrekvente enkeltordsforespørgsler, hovedsagelig hovedsiderne på websteder kom til TOPPEN.

Tid til ændring i Yandex: historie med opdateringer fra 2007 til 2009

20. december 2007 – Opdatering af rangeringsalgoritmen. Første forsøg på at bekæmpe spam. Ressourcer, der har misbrugt opbygningen af linkprofiler, er udelukket fra søgeresultaterne.
17. januar 2008 - "8 SP1". Den første Yandex-algoritme, der blev tildelt eget navn, selvom det ikke er særlig tydeligt. Fra nu af er toppen af søgningen optaget af gamle, autoritative websteder. Begrebet "trastrunk" vises, graden af tillid til webstedet. Yandex lover i øvrigt nu at opkalde alle sine algoritmer efter byer.
19. marts 2008 – Filtrering rettet mod at bekæmpe købte links bliver mere stringent. De fleste af de websteder, der købte backlinks, falder i positioner. Men til alles overraskelse gjorde de trufne foranstaltninger kun søgeresultaterne værre, så alt vendte tilbage til sin plads.
16. maj 2008 – “Magadan”. Søgemaskinen har lært at læse translitteration, oversættelser og forkortelser. Søgning på udenlandske sider er blevet tilgængelig. Filtreringen af dokumentvalg er blevet blødere. Antallet af rangeringsfaktorer er fordoblet. "Magadan 2.0" blev udgivet næsten øjeblikkeligt. Nye faktorer blev tilføjet, der tog højde for indholdets unikke karakter og begyndte at klassificere anmodninger i kommercielle/ikke-kommercielle og geoafhængige/geo-Ikke-uafhængige.
12. september 2008 – “Nakhodka”. Øget vægt interne sider. Nu til mellemfrekvens og nogle højfrekvente forespørgsler du kan ikke kun finde hovedsiderne i søgningen. Kampen mod tilsløringswebsteder (websteder oprettet for at manipulere trafik) intensiveres. Sort SEO metode). Forbindelsesordbogen er blevet udvidet.
10. april 2009 – “Arzamas”. Forbedret genkendelse af tastefejl i forespørgsler. Udgangen bliver . Nu tager søgemaskinen hensyn til brugerens region. Begrebet " regional fremme" 19 hovedregioner er blevet identificeret.
28. september 2009. Filter 17. Ifølge Yandex har filteret været i drift siden 2006. Men tidligere var hans tilstedeværelse ikke så udtalt. Filteret er rettet mod at bekæmpe websteder af lav kvalitet, for eksempel dem, der oprettes og udfyldes automatisk.
10. november 2009 – “Snezhinsk”. Nu er informationswebsteder blevet førende for højfrekvente enkeltordsforespørgsler og fortrænger kommercielle. Den officielle fødsel af Matrixnet, en ny metode til maskinlæring. Nu er alle anmodninger, der karakteriserer websteder, blevet indbyrdes forbundne. De første rygter om adfærdsfaktorer.

SEO bliver mere og mere vanskeligt.
18. december 2009 - AGS 30. Nu er filteret blevet smartere. Han begyndte at udelukke fra indekset ikke kun ikke-unikke websteder, men også ressourcer, der ikke giver nogen fordel.
22. december 2009 – “Konakovo”. Til støtte for Arzamas steg antallet af regioner fra 19 til 1250.

Ændring af Yandex-algoritmer: i dag

20. januar 2010 – Anti-foot wraps. Yandex introducerede et filter til store tekster, der var overmættede med nøgleord.
6. august 2010 – “Obninsk”. Rangeringsformlen blev udvidet, hvilket primært påvirkede geo-uafhængige forespørgsler. Algoritmen påvirkede også promoveringen negativt med links af lav kvalitet. Tilbage i 2010 blev rygter om adfærdsfaktorer bekræftet.
15. december 2010 – Krasnodar. To store innovationer. Den første var "Spectrum"-teknologien, som reagerede på tvetydige brugeranmodninger og fortyndede outputtet med forskellige svar. Klassisk eksempel tvetydig forespørgsel "Napoleon" - hvad ønskede brugeren? Kage? Kommandør? Musikalsk gruppe? Så spektret blev skabt for at tilfredsstille alle mulige behov for tvetydige anmodninger. Den anden nyskabelse var indeksering af sociale medier. VKontakte netværk. Nu kan du via søgelinjen du kan finde brugerprofiler fra det sociale netværk.
Maj 2011 – Mange websteder mistede positioner på grund af en bølge af manuel pessimisering for snydende adfærdsfaktorer.
17. august 2011 – Reykjavik. Forbedret personalisering. Ved at tilføje " ", nu, når han indtastede en formel i søgefeltet, modtog brugeren straks et svar.
13. september 2011 – "Du er spammy." Filter for spammet tekst. Tekster, der havde en lav andel af adfærdsfaktorer, blev nedgraderet.
12. december 2012 – “Kaliningrad”. Hoved ide gøre det helt personlig søgning. Brugeren blev nu tilbudt tip baseret på deres tidligere historie. Ud over Kaliningrad blev søgningen efter indhold på sociale netværk forbedret i løbet af året. For tvetydige forespørgsler dukkede hints op for at tydeliggøre, hvad brugeren ønskede. Lidt senere begyndte hints at tage hensyn til brugerens tidligere anmodninger. Sociale netværksprofiler begyndte at blive tilføjet til uddrag. Yandex begyndte at samarbejde med Twitter. Efter at jeg åbnede min database til Yandex, blev hastigheden på at indeksere et websted med regelmæssige tweets mærkbart forbedret. Websteder med pop op-elementer, der var forklædt som systemmeddelelser og sociale mediers signaler.
Februar 2013 - Yandex begyndte at markere websteder, der var inficeret med virus eller indeholdt ondsindet kode.
13. maj 2013 - Den nærmeste metrostation og organisationens åbningstider blev tilføjet adressen i webstedsuddraget.
16. maj 2013 – Platform “Øer”. En fundamental ændring i søgemaskineformatet. Yandex planlagde at gøre det, så brugeren kunne løse sine problemer uden at gå til et bestemt websted, men straks i en søgemaskine. Fx bestil/køb/ring og så videre. Af en eller anden grund blev udgivelsesdatoen ved med at blive forsinket.
6. november 2013 – AGS 40. Endnu en stramning AGS filter EN. Fra nu af er filteret fuldautomatisk.
år 2014. Fra nu af har AGS-filteret ikke smidt sider ud fra indekset, men nulstillet TCI. Aktiv kamp mod links. Annoncering af en linkfri rangeringsformel for en række kommercielle emner i Moskva. Endnu en bølge af pessimisering for at booste PF. En bølge af pessimisering for aggressiv reklame.
15. april 2015 – Annoncering af "Minusinsk". På Bynet Week meddelte Yandex ny algoritme, der har til formål at bekæmpe linkspam. Overraskende nok udsendte Yandex advarsler, før de pålagde sanktioner på websteder, hvilket er meget usædvanligt for en søgemaskine.
15. maj – 23. juni 2015. I løbet af denne korte periode passerede tre bølger, der nedbragte websteder for linkspam.

Nye Yandex søgealgoritmer

2. februar 2016 – Vladivostok. Yandex har lanceret en ny algoritme, der evaluerer "mobil egnethed". Nu, i mobilsøgeresultater, er en af de væsentlige rangeringsfaktorer webstedets tilpasningsevne til mobile enheder.

Fortsættes

Uanset hvor svært livet bliver SEO specialister, vi bruger alle søgning. Og for de sidste år søgeresultaterne har ændret sig meget. Og til det bedre. Jeg håber, at Yandex vil fortsætte med at opfinde originale måder, hvilket begrænser muligheden for at påvirke søgeresultaterne. Det gør det kun mere interessant at arbejde.

Yandex har lanceret en ny rangeringsalgoritme - "Korolev". Nu matcher søgemaskinen betydningen af søgeforespørgslen og siden. Dette er meget praktisk for brugerne. Men hvad betyder den nye algoritme for optimerere og webstedsejere, hvordan vil promoveringen ændre sig, og om vi skal forvente ændringer i trafikken.

Mere end nogensinde ventede hele SEO-verdenen på lanceringen af en ny rangeringsalgoritme, annonceret den 22. august 2017. Selvfølgelig er sådanne meddelelser en fuldstændig atypisk ting for Yandex; normalt foretrækker de ikke at tale om deres planer og annoncerer den næste udgivelse af rangeringsalgoritmen efter kendsgerningen.

Den 22. august 2017 lancerede Yandex en ny version af søgning. Det er baseret på søgealgoritme"Korolev" (siden 2008 er nye rangeringsalgoritmer i Yandex opkaldt efter byer). Ved hjælp af et neuralt netværk sammenligner algoritmen betydningen af forespørgsler og websider - dette gør det muligt for Yandex at reagere mere præcist på komplekse forespørgsler. Til træning ny version søgning bruger søgestatistikker og vurderinger fra millioner af mennesker. Således bidrager ikke kun udviklere, men også alle Yandex-brugere til udviklingen af søgning.

Anvendelsesområdet for den nye algoritme påvirker praktisk talt ikke traditionelle SEO-interesseområder, primært som omfatter kommercielle søgeresultater. "Korolev" viste sig at være en logisk fortsættelse af "Palekh"-algoritmen og er designet til at tjene den lange hale af mikrofrekvensanmodninger, normalt stillet på naturligt sprog. Det særlige ved sådanne forespørgsler er, at de dokumenter, der er relevante for dem, måske ikke indeholder mange af de ord, der er inkluderet i forespørgslen. Dette forvirrer traditionelle rangeringsalgoritmer baseret på tekstrelevans.

Der blev fundet en løsning i form af at bruge neurale netværk, som trænes blandt andet i brugeradfærd. Derfor fungerer den nye Yandex-algoritme baseret på et neuralt netværk. Den lærer af eksempler på brugerforespørgsler og vælger svar baseret på betydningen af teksten på siden. Det betyder især, at det vil være meget mere effektivt at arbejde med ikke-standardiserede forespørgsler, når brugerne ikke selv er sikre på, hvad navnet på det, de vil finde, hedder. Meget handler om computerkraft her.

Generelt er en sådan tilgang til at løse problemet med at rangere den lange mikrofrekvenshale af forespørgsler ikke ny. Tilbage i 2015 blev det kendt om den anvendte teknologi søgemaskine Google for at finde svar på flerordsforespørgsler stillet i naturligt sprog - RankBrain. Denne teknologi, der også er baseret på maskinlæring, giver dig mulighed for at genkende det meste meningsfulde ord i forespørgsler, og analyser den kontekst, hvori søgningen udføres. Dette giver dig mulighed for at finde relevante dokumenter, der ikke indeholder alle søgeordene.

Derudover fungerer algoritmen også med billeder. Den analyserer indholdet af billedet og vælger den nødvendige mulighed baseret på det, og ikke kun fra beskrivelsen i tags eller teksten omkring det.

Imidlertid kan den lange hale af mikrofrekvente flerordsforespørgsler i naturligt sprog meget vel være af interesse for "brændere" af informationssemantik - skaberne af såkaldte informationssider "til alle lejligheder". Generelt prøver de allerede så hårdt som muligt stor mængde forespørgsler kendt af dem, som de formår at få ved hjælp af forskellige metoder indsamling af semantik, organisering af præcis indtastning i dine tekster. Samme sted, hvor der ikke vil være nøjagtige forekomster, dvs. for forespørgsler, der ikke blev suget op af den "semantiske støvsuger" fra skaberne af informationssider, eller som de ikke var i stand til at angive nøjagtige forekomster af i indholdet, begynder domænet for "Korolev", som er designet til at lede efter korrespondance mellem forespørgsler og svar i tilfældet, hvor der er få skæringspunkter mellem dem søgeord. I sådanne tilfælde vil Korolev utvivlsomt øge kravene til indholdets kvalitet, og virkelig interessante læsbare artikler vil drage endnu mere fordel af samlinger af forekomster af nøglesætninger fortyndet med vand, fordi Det er netop sådanne artikler, der kan indeholde signaler, der er nyttige for den nye algoritme. Nå, alle andre SEO'er kan virkelig slappe af – den næste tæsk er udskudt. Der er ingen tilskadekomne eller ødelæggelser.

Ved at lancere Palekh underviste Yandex neurale netværk konvertere søgeforespørgsler og websidetitler til grupper af tal - semantiske vektorer.

En vigtig egenskab ved sådanne vektorer er, at de kan sammenlignes med hinanden: Jo stærkere ligheden er, jo tættere er forespørgslen og overskriften på hinanden i betydning.

Hvordan adskiller det sig fra Palekh?

Den største forskel på den nye algoritme, ud over forbedringen teknisk implementering, er evnen til at genkende lignende "betydninger" i hele dokumentet og ikke kun ved titlen (Titel), som vises i browservinduet.

Hvordan Korolev-algoritmen fungerer

Søgealgoritme "Korolev" sammenligner semantiske vektorer søgemaskiner forespørgsler og hele websider- og ikke kun deres overskrifter. Dette giver os mulighed for at nå et nyt niveau af forståelse af mening.

Som i tilfældet med Palekh konverteres teksterne på websider til semantiske vektorer af et neuralt netværk. Denne operation kræver meget computerressourcer. Derfor beregner Korolev sidevektorer ikke i realtid, men på forhånd, på indekseringsstadiet.

Når en person stiller en forespørgsel, sammenligner algoritmen forespørgselsvektoren med de sidevektorer, den allerede kender.

"Queen"-effekten

Evnen til at forstå betydning er især nyttig, når man behandler sjældne og usædvanlige forespørgsler - når folk forsøger at beskrive et objekts egenskaber med deres egne ord og forventer, at søgningen vil anmode om dets navn.

Denne ordning giver dig mulighed for at begynde at vælge websider, der matcher din søgeforespørgsel, i de tidlige stadier af rangeringen. I "Palekh" semantisk analyse- en af de sidste faser: kun 150 dokumenter gennemgår den. Hos Korolev er den produceret til 200.000 dokumenter.

Derudover sammenligner den nye algoritme ikke kun teksten på en webside med søgeforespørgslen, men er også opmærksom på andre forespørgsler, der bringer folk til den pågældende side.

På denne måde kan du etablere yderligere semantiske forbindelser.

Folk lærer maskiner

Brugen af maskinlæring, og især neurale netværk, vil før eller siden gøre det muligt at lære søgning at operere med mening på det menneskelige plan. For at en maskine skal forstå, hvordan man løser et bestemt problem, skal du vise det stor mængde eksempler: positive og negative. Sådanne eksempler er givet af Yandex-brugere.

Det neurale netværk, der bruges af Korolev-algoritmen, er trænet på et upersonligt søgestatistikker. Statistikindsamlingssystemer tager højde for, hvilke sider brugerne går til for bestemte forespørgsler, og hvor meget tid de bruger der.

Hvis en person åbner en webside og hænger der i lang tid, har han sandsynligvis fundet det, han ledte efter - det vil sige, at siden svarer godt på hans anmodning. Dette er et positivt eksempel.

Det er meget nemmere at finde negative eksempler: bare tag en anmodning og enhver tilfældig webside. Statistikken, der bruges til at træne algoritmen, er anonymiseret

Matrixnet, som bygger en rangeringsformel, har også brug for folks hjælp.

Ryd op

For at søgning skal vokse, skal folk løbende evaluere dens ydeevne. Engang var det kun Yandex-ansatte, de såkaldte bedømmere. Men jo flere vurderinger, jo bedre - så Yandex tiltrak alle til dette og lancerede Yandex.Toloka-tjenesten. Nu er mere end en million brugere registreret der: de analyserer kvaliteten af søgningen og deltager i at forbedre andre Yandex-tjenester. Toloka-opgaver betales - det beløb, der kan optjenes, er angivet ved siden af opgaven. I løbet af de mere end to år af tjenestens eksistens har oplæsere givet omkring to milliarder vurderinger.

I kernen moderne søgning ligge komplekse algoritmer. Algoritmer er opfundet af udviklere og undervist af millioner af Yandex-brugere. Enhver anmodning er et anonymt signal, der hjælper maskinen med at forstå folk bedre. Ny søgning er en søgning, som vi gør sammen.

Den 2. november 2016 annoncerede Yandex introduktionen af en ny algoritme søgerangering"Palekh". Nu bliver webmastere nødt til at tilpasse sig deres krav.

Lad mig minde dig om, at algoritmer søgemaskine promovering, som navnet antyder, er beregnet til at stå i kø Søgeresultater Ved specifik anmodning. Og det er meget vigtigt for os, webmastere, fordi... der har brug for en side placeret på en 50. plads eller mere i søgeresultaterne - ingen vil finde den, og ingen vil komme der.

Normalt rådes begyndere webmastere til at fokusere på lavfrekvente forespørgsler, hvor det er meget nemmere at bryde ind i TOPPEN og med meget mindre tid og penge. Det er netop sådanne anmodninger, Palekh er orienteret mod.

Desuden er det ikke kun fokuseret på lavfrekvente forespørgsler, men på meget, meget lavfrekvente og endda unikke forespørgsler. Og erfarne SEO'er er som regel af ringe interesse for sådanne anmodninger, hvilket giver os en chance for at tiltrække flere besøgende til vores websteder.

Essensen af Palekh er, at nu er rangordningen ikke kun baseret på nøjagtige nøglesætninger(de er meget svære at gætte), men også ens i betydningen.

For at løse dette problem henvendte Yandex sig til neurale netværk, som ikke er programmeret i ordets sædvanlige betydning, men er selvlærende. Takket være selvlæring er sådanne netværk i stand til at forstå betydningen af søgesætninger og lede efter lignende. Læs mere om dette på hans blog dedikeret til Palekh.

Som et resultat var Yandex i stand til mere aktivt at rangere sætninger fra den såkaldte. "lang hale"; Lad mig minde dem, der har glemt, hvad dette er.

Hvad er en "lang hale"

I 2004 gennemførte Wired-magasinets chefredaktør Chris Anderson en undersøgelse af produktsalg (ethvert produkt). Han var interesseret i spørgsmålet: hvad giver mest fortjeneste - de mest populære produkter i dag (de såkaldte bestsellere) eller produkter, der er faldet fra bestsellerlisten og blevet forbrugsvarer (restsellere).

Det viste sig, at fortjenesten fra begge varegrupper er omtrent den samme: Bestsellere giver en meget stor fortjeneste i den første periode af deres fremkomst, derefter, med fremkomsten af andre bestsellere - nyere, bliver de første forhandlere, men fortsætter at tjene penge - indtil de fjernes fra salg, omtrent det samme som i deres bestsellerperiode.

Hvis du arrangerer alle disse data på en graf, får du noget som dette:

Denne teori er blevet anvendt på forskellige områder af menneskelig aktivitet, herunder SEO. Og det gav fremragende resultater: det viste sig, at op mod halvdelen af internetbrugerne klikker på forespørgsler, der udgør den "lange hale".

Forestil dig, at du bor i Cherepovets og ønsker at købe et bord. Du vil skrive til adresse bar anmode om "møbler" eller "købe et to-piedestal skrivebord i Cherepovets billigt"?

Forespørgslen "møbler" er klassificeret som en topforespørgsel, og vores lange forespørgsel er klassificeret som en long tail forespørgsel. Hvordan flere ord bruges i en forespørgsel, jo hurtigere vises den i de laveste frekvenser. Det anses normalt for, at forespørgsler med mere end to eller tre ord klassificeres som lavfrekvente forespørgsler; hvis der er endnu flere ord, er dette en typisk lang hale.

Et glimrende eksempel er vist på billedet:

Fig.2

Ifølge Yandex-statistikker, ud af 280 millioner daglige anmodninger, er cirka 100 millioner anmodninger fra long tail-området. Og på sådan et antal anmodninger er det nødvendigt på en eller anden måde at svare, og han svarede - med Palekh.

Hvorfor Palekh?

Billeder med " lang hale» er afbildet på forskellige måder, normalt ved hjælp af billeder af dyr: rotter, firben osv. Her er et eksempel på en dinosaur:

Fig.3

Men da der nu er et vanvid af patriotisme i vores land, måtte Yandex finde noget, som ingen andre har, men kun russerne. Han fandt ildfuglen:

Fig.4

Ildfuglen er ofte afbildet i Palekh-miniaturer, derfor "Palekh", okay?

Men billedet og navnet er den tiende ting, hvad skal vi, webmastere, gøre og hvad skal vi forvente?

Vi sætter kursen mod Palekh

Jeg vil med det samme sige, at der ikke er noget særligt at forvente af Palekh: det er blevet brugt af Yandex i to måneder nu og har formået at rangere websteder. Derfor, hvis du er til På det sidste på en eller anden måde ændrede placeringen af webstedet sig, så er det hans handling. Yandex annoncerede det først den 2. november, men algoritmen er allerede i kraft.

Han berørte primært de sider med meget indhold. Hvis indholdet var godt, så begyndte siden at rangere yderligere for nye søgeord - for de allerbedste lavfrekvente forespørgsler. Og hvis Yandex betragtede det som dårligt...

Yandex anser naturligvis indholdet på gode, såkaldte tillidssider, for at være godt. Hvordan kommer man til pålidelige websteder? - Det er langt og dyrt. Den hurtigste vej fører igennem. Der er gratis registrering, men jeg vil med det samme sige, at du, begyndere, har ringe chancer. Og der er - 14.500 rubler plus moms. Alt er enklere her, men ingen vil give dig en 100% garanti.

Nå, eller skriv, skriv, skriv og prøv samtidig meget hårdt, og du vil have tillid. Vejene til tilliden er godt beskrevet på internettet, se efter det.

VN:F

...Og fortæl dine venner om det:

Du kan også tilmelde dig nyhedsbrevet -
Jeg har en masse spændende materialer på lager.

Serviceoplysninger om artiklen:

Artiklen undersøger kort funktionerne i den nye Yandex-algoritme og giver praktiske råd for begyndere webmastere

Skrevet af: Sergey Vaulin

Dato Udgivet: 11/08/2016

Palekh - en ny Yandex-algoritme, 5,0 ud af 5 baseret på 3 bedømmelser

I dag blev en ny søgealgoritme lanceret i Yandex, som ved hjælp af et neuralt netværk sammenligner betydningen af forespørgsler og websider - dette gør det muligt for Yandex at svare mere præcist på komplekse brugerforespørgsler og producere mere relevante resultater. Som vi skrev tidligere, er algoritmen baseret på kategori-boosting: det vil sige, at den er i stand til at tage højde for de såkaldte kategoriske funktioner - funktioner, der tager en af et endeligt antal værdier.

Lancering af den nye "Queens"-algoritme

Præsentationen af den nye søgealgoritme blev afholdt på Moskva Planetarium, som synes at antyde "ændringer på en kosmisk skala." Præsentationerne af præsentationen trykkede på den "røde knap" lige på scenen og markerede derved lanceringen af en ny algoritme, hvis navn er "Korolev".

Kunstig intelligens kommer tættere på mennesker

Yandex tog det første skridt mod at søge efter mening sidste år, da det introducerede Palekh-søgealgoritmen. Det er baseret på et neuralt netværk. Neurale netværk viser fremragende resultater i opgaver, som folk traditionelt har klaret bedre biler: sige, genkende tale eller objekter i billeder.

Ved at lancere Palekh lærte Yandex et neuralt netværk at konvertere søgeforespørgsler og websidetitler til grupper af tal - semantiske vektorer. En vigtig egenskab ved sådanne vektorer er, at de kan sammenlignes med hinanden: Jo stærkere ligheden er, jo tættere er forespørgslen og overskriften på hinanden i betydning.

Sådan fungerer den nye Korolev-algoritme

Korolev-søgealgoritmen sammenligner semantiske vektorer søgeforespørgsler og hele websider – ikke kun deres titler. Som i tilfældet med Palekh konverteres teksterne på websider til semantiske vektorer af et neuralt netværk. Korolev beregner sidevektorer ikke i realtid, men på forhånd på indekseringsstadiet. Når du udsteder en forespørgsel, sammenligner algoritmen forespørgselsvektoren med de sidevektorer, den allerede kender.

Denne ordning giver dig mulighed for at begynde at vælge dokumenter, der matcher betydningen af forespørgslen på de tidlige stadier af rangeringen. I Palekh-algoritmen er semantisk analyse et af de sidste stadier, hvorigennem kun 150 dokumenter passerer. I Korolev udføres semantisk analyse for 200 tusinde dokumenter - mere end tusind gange mere! Samtidig sammenligner Korolev ikke kun teksten på websiden med anmodningen, men også er opmærksom på andre forespørgsler, der fører brugere til siden fra søgningen, som giver dig mulighed for at etablere yderligere semantiske forbindelser mellem forespørgsler og siden.

Hvem træner det neurale netværk

Korolev-algoritmens neurale netværk trænes på anonymiseret søgestatistik. Statistikindsamlingssystemer tager højde for, hvilke sider brugerne går til baseret på forskellige anmodninger, og hvor meget tid de bruger på dem. Hvis brugeren åbnede en webside og brugte meget tid på den, kan vi antage, at han har fået svar på sit spørgsmål - det vil sige, at siden svarer godt på hans anmodning.

For at søgning skal vokse, skal folk løbende evaluere dens ydeevne. For ikke så længe siden var det kun Yandex-ansatte – bedømmere – der var involveret i at evaluere søgninger. Men med udviklingen af teknologier og projekter blev antallet af bedømmere katastrofalt utilstrækkeligt. Derfor besluttede Yandex at involvere alle i dette og lancerede Yandex.Toloka-tjenesten.

I øjeblikket er mere end en million brugere registreret i tjenesten: de analyserer søgekvalitet og deltager i at forbedre andre Yandex-tjenester. I løbet af de mere end to år af tjenestens eksistens har oplæsere givet omkring to milliarder vurderinger.

Moderne søgning er baseret på meget komplekse algoritmer, der er opfundet af udviklere og undervist af millioner af Yandex-brugere. Enhver anmodning er et anonymt signal, der hjælper maskinen med at forstå folk bedre.

Hvordan Yandex sendte katte ud i rummet- se optagelsen af præsentationen fra Moskva Planetarium.