Uafhængige internetsøgemaskiner. Internetsøgemaskiner: gennemgang af eksisterende løsninger

Hej kære læsere af bloggen. , så havde dens få brugere nok af deres egne bogmærker. Men som du husker, skete det i geometrisk progression, og meget snart blev det sværere at navigere i al dens mangfoldighed.

Derefter dukkede mapper op (Yahoo, Dmoz og andre), hvor deres forfattere tilføjede og sorterede forskellige websteder i kategorier. Dette gjorde straks livet lettere for de daværende, endnu ikke ret mange brugere af det globale netværk. Mange af disse kataloger er stadig i live i dag.

Men efter nogen tid blev størrelsen af deres databaser så store, at udviklerne først tænkte på at lave en søgning i dem og derefter på at lave et automatiseret system til indeksering af alt internetindhold for at gøre det tilgængeligt for alle.

De vigtigste søgemaskiner i det russisktalende segment af internettet

Som du forstår, blev denne idé implementeret med forbløffende succes, men alt viste sig dog kun godt for en håndfuld udvalgte virksomheder, der formåede ikke at forsvinde på internettet. Næsten alle søgemaskiner, der dukkede op i den første bølge, er nu enten forsvundet, forsvundet eller købt af mere succesrige konkurrenter.

En søgemaskine er en meget kompleks og vigtigst af alt meget ressourcekrævende mekanisme (dette betyder ikke kun materielle ressourcer, men også menneskelige). Bag den tilsyneladende simple , eller dens asketiske analog fra Google, er der tusindvis af ansatte, hundredtusindvis af servere og mange milliarder af investeringer, som er nødvendige for, at denne kolos kan fortsætte med at fungere og forblive konkurrencedygtig.

At gå ind på dette marked nu og starte fra bunden er mere en utopi end et rigtigt forretningsprojekt. Eksempelvis har en af verdens rigeste virksomheder, Microsoft, i årtier forsøgt at få fodfæste på søgemarkedet, og først nu begynder deres søgemaskine Bing så småt at leve op til deres forventninger. Og før det var der en hel række af fiaskoer og tilbageslag.

Hvad kan vi sige om at komme ind på dette marked uden nogen særlig økonomisk påvirkning. For eksempel har vores indenlandske søgemaskine Nigma en masse nyttige og innovative ting i sit arsenal, men deres trafik er tusindvis af gange lavere end lederne på det russiske marked. Tag for eksempel et kig på det daglige Yandex-publikum:

I denne henseende kan vi antage, at listen over de vigtigste (bedste og heldigste) søgemaskiner i Runet og hele internettet allerede er blevet dannet, og hele intrigen ligger kun i, hvem der til sidst vil fortære hvem, eller hvordan deres procentvise andel vil fordeles, hvis de alle overlever og vil holde sig flydende.

Russisk søgemaskinemarked er meget tydeligt synlig, og her kan vi sandsynligvis skelne mellem to eller tre hovedspillere og et par mindre. Generelt har der udviklet sig en ret unik situation i RuNet, som, som jeg forstår det, kun har gentaget sig i to andre lande i verden.

Jeg taler om det faktum, at Google-søgemaskinen, der kom til Rusland i 2004, stadig ikke har været i stand til at tage ledelsen. Faktisk forsøgte de at købe Yandex omkring denne periode, men noget fungerede ikke derude, og nu er "vores Rusland", sammen med Tjekkiet og Kina, de steder, hvor den almægtige Google, hvis ikke besejret, så i i hvert fald mødte alvorlig modstand.

Faktisk se den aktuelle situation blandt de bedste søgemaskiner på RuNet Enhver kan. Det vil være nok at indsætte denne URL i adresselinjen i din browser:

Http://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

Faktum er, at de fleste af dem bruger .

Efter at have indtastet den givne URL, vil du se et billede, der ikke er særlig attraktivt og præsentabelt, men det afspejler essensen af sagen. Vær opmærksom på de fem bedste søgemaskiner, hvorfra websteder på russisk modtager trafik:

Ja, selvfølgelig, ikke alle ressourcer med russisksproget indhold er placeret i denne zone. Der er også SU og RF, og generelle områder som COM eller NET er fulde af internetprojekter med fokus på Runet, men alligevel er stikprøven ret repræsentativ.

Denne afhængighed kan præsenteres på en mere farverig måde, som for eksempel nogen gjorde online til sin præsentation:

Dette ændrer ikke på essensen. Der er et par ledere og flere meget, meget langt bagefter søgemaskinerne. Jeg har i øvrigt allerede skrevet om mange af dem. Nogle gange kan det være ret interessant at kaste sig ud i succeshistorien eller omvendt at dykke ned i årsagerne til fejlene i engang lovende søgemaskiner.

Så i rækkefølge af betydning for Rusland og Runet som helhed, vil jeg liste dem og give dem korte karakteristika:

At søge på Google er allerede blevet et kendt ord for mange mennesker på kloden – du kan læse om det i linket. I denne søgemaskine kunne jeg godt lide muligheden for "oversættelse af resultater", da du modtog svar fra hele verden, men på dit modersmål, men nu er den desværre ikke tilgængelig (i det mindste på google.ru).

På det seneste har jeg også været forundret over kvaliteten af deres output (Search Engine Result Page). Personligt bruger jeg altid først RuNet-spejlsøgemaskinen (der er en der, ja, den er jeg vant til), og kun hvis jeg ikke finder et forståeligt svar der, henvender jeg mig til Google.

Normalt gjorde udgivelsen af dem mig glad, men på det seneste har det kun undret mig – nogle gange kommer sådan noget sludder frem. Det er muligt, at deres kamp for at øge indtægterne fra kontekstuel annoncering og den konstante blanding af søgeresultater for at miskreditere SEO-promovering kan føre til det modsatte resultat. Under alle omstændigheder har denne søgemaskine en konkurrent på RuNet, og sikke en konkurrent på det.

Jeg tror, at det er usandsynligt, at nogen specifikt vil gå til Go.mail.ru for at søge i RuNet. Derfor kan trafikken til underholdningsprojekter fra denne søgemaskine være væsentligt mere end ti procent. Ejere af sådanne projekter bør være opmærksomme på dette system.

Ud over de klare ledere på søgemaskinemarkedet i det russisksprogede segment af internettet er der dog flere aktører, hvis andel er ret lav, men ikke desto mindre gør selve deres eksistens det nødvendigt at sige et par ord omkring dem.

Runet søgemaskiner fra andet led

Internet-dækkende søgemaskiner

I det store og hele er der på hele internettets skala kun én seriøs aktør - Google. Dette er den ubestridte leder, men den har stadig en vis konkurrence.

Først og fremmest er det stadig det samme Bing, som fx har en rigtig god position på det amerikanske marked, især taget i betragtning, at dens motor også bruges på alle Yahoo-tjenester (næsten en tredjedel af hele det amerikanske søgemarked).

For det andet, på grund af den enorme andel, som brugere fra Kina udgør af det samlede antal internetbrugere, kaldte deres hovedsøgemaskine Baidu kiler sig ind i fordelingen af steder på verdens Olympus. Han blev født i 2000 og nu er hans andel omkring 80 % af hele det nationale publikum i Kina.

Det er svært at sige noget mere forståeligt om Baidu, men på internettet er der meninger om, at steder i dens top ikke kun er optaget af de websteder, der er mest relevante for anmodningen, men også af dem, der har betalt for det (direkte til søgemaskinen) , og ikke til SEO-kontoret). Det gælder naturligvis primært for kommercielle opslag.

Generelt, når man ser på statistikken, bliver det klart, hvorfor Google nemt accepterer at forværre sine søgeresultater i bytte for øget overskud fra kontekstuel annoncering. Faktisk er de ikke bange for brugerafgang, for i de fleste tilfælde har de ingen steder at tage hen. Denne situation er lidt trist, men vi må se, hvad der sker.

I øvrigt, for at gøre livet endnu mere vanskeligt for optimizere, og måske for at bevare roen for denne søgemaskines brugere, har Google for nylig brugt kryptering, når de har sendt forespørgsler fra brugernes browsere til søgefeltet. Snart vil det ikke længere være muligt at se i statistikken over besøgstællere, hvilke forespørgsler Google-brugere kom til dig for.

Ud over søgemaskinerne nævnt i denne publikation er der naturligvis tusindvis af andre - regionale, specialiserede, eksotiske osv. At forsøge at liste og beskrive dem alle i én artikel ville være umuligt, og sandsynligvis ikke nødvendigt. Lad os hellere sige et par ord om hvor nemt det er at oprette en søgemaskine og hvordan det ikke er nemt eller billigt at holde det opdateret.

Langt de fleste systemer arbejder efter lignende principper (læs om dit og hint) og forfølger det samme mål – at give brugerne svar på deres spørgsmål. Desuden skal dette svar være relevant (svarende til spørgsmålet), omfattende og, hvilket ikke er uvæsentligt, relevant (af den første friskhed).

At løse dette problem er ikke så let, især i betragtning af, at søgemaskinen bliver nødt til at analysere indholdet af milliarder af internetsider i farten, luge de unødvendige ud og ud fra de resterende danne en liste (problem), hvor de fleste passende svar på brugerens spørgsmål vises først.

Denne ekstremt komplekse opgave løses ved foreløbig indsamling af information fra disse sider ved hjælp af forskellige indekseringsrobotter. De indsamler links fra allerede besøgte sider og indlæser oplysninger fra dem i søgemaskinens database. Der er bots, der indekserer tekst (en almindelig og hurtig bot, der lever af nyheder og hyppigt opdaterede ressourcer, så de seneste data altid præsenteres i søgeresultaterne).

Derudover er der robotter, der indekserer billeder (til deres efterfølgende output til), faviconer, sidespejle (til deres efterfølgende sammenligning og eventuel limning), bots, der kontrollerer funktionaliteten af internetsider, hvilke brugere eller gennem værktøjer til webmastere (her kan du kan læse om, og).

Selve indekseringsprocessen og den efterfølgende proces med at opdatere indeksdatabaser er ret tidskrævende. Selvom Google gør dette meget hurtigere end sine konkurrenter, i det mindste Yandex, som tager en uge eller to at gøre dette (læs om).

Typisk opdeler en søgemaskine tekstindholdet på en internetside i enkelte ord, som er reduceret til de grundlæggende principper, så den derefter kan give korrekte svar på stillede spørgsmål i forskellige morfologiske former. Alle de ekstra ting i form af HTML-tags, mellemrum osv. ting slettes, og de resterende ord er sorteret alfabetisk, og deres placering i dette dokument er angivet ved siden af dem.

Denne slags ting kaldes et omvendt indeks og giver dig mulighed for at søge ikke efter websider, men efter strukturerede data placeret på søgemaskinens servere.

Antallet af sådanne servere til Yandex (som hovedsageligt kun søger efter russisksprogede websteder og lidt efter ukrainsk og tyrkisk) er i titusinder eller endda hundredtusindvis, og for Google (som søger på hundredvis af sprog) - i millioner .

Mange servere har kopier, som både tjener til at øge sikkerheden af dokumenter og hjælpe med at øge hastigheden på anmodningsbehandlingen (ved at fordele belastningen). Estimer omkostningerne ved at opretholde hele denne økonomi.

Brugerens anmodning vil blive sendt af belastningsbalanceren til det serversegment, der i øjeblikket er mindst indlæst. Derefter foretages en analyse af den region, som søgemaskinebrugeren sendte sin anmodning fra, og den analyseres morfologisk. Hvis en lignende forespørgsel for nylig blev indtastet i søgefeltet, får brugeren data fra cachen for ikke at overbelaste serverne igen.

Hvis anmodningen endnu ikke er cachelagret, så overføres den til det område, hvor søgemaskinens indeksdatabase er placeret. Som svar vil du modtage en liste over alle internetsider, der i det mindste er relateret til anmodningen. Der tages ikke kun hensyn til direkte forekomster, men også andre morfologiske former, samt mv. ting.

Deres skal rangeres og på dette stadium kommer algoritmen (kunstig intelligens) i spil. Faktisk multipliceres brugerens anmodning gennem alle mulige muligheder for fortolkning, og svar på mange anmodninger søges samtidigt (ved brug af forespørgselssprog-operatorer, hvoraf nogle er tilgængelige for almindelige brugere).

Som regel indeholder søgeresultaterne én side fra hvert websted (nogle gange mere). er nu meget komplekse og tager højde for mange faktorer. Derudover, for at rette dem, og bruges, som manuelt evaluerer referencesteder, som giver dig mulighed for at justere driften af algoritmen som helhed.

Generelt er det klart, at sagen er mørk. Vi kan tale om dette i lang tid, men det er allerede klart, at brugertilfredshed med et søgesystem opnås, åh, hvor er det svært. Og der vil altid være dem, der ikke kan lide noget, som dig og mig, kære læsere.

Held og lykke! Vi ses snart på bloggens sider

Du kan se flere videoer ved at gå til

");">

Du kan være interesseret

Yandex People - hvordan man søger efter folk på sociale netværk Apometr er en gratis tjeneste til sporing af ændringer i søgeresultater og opdateringer af søgemaskiner. DuckDuckGo - en søgemaskine, der ikke følger dig
Sådan tjekker du internethastighed - onlineforbindelsestest på computer og telefon, SpeedTest, Yandex og andre målere
Yandex og Google billeder, samt søgning efter billedfil i Tineye (tinai) og Google

Ved første øjekast kan det se ud til, at kun Yandex kan være bedre end Google, og selv det er ikke et faktum. Disse virksomheder investerer enorme summer i innovation og udvikling. Er der virkelig nogen, der har en chance for ikke kun at konkurrere med lederne, men også for at vinde? Lifehackers svar: "Ja!" Der er flere søgemaskiner, der har haft succes. Lad os se på vores helte.

Hvad er dette

Dette er en ret velkendt open source søgemaskine. Servere er placeret i USA. Ud over sin egen robot bruger søgemaskinen resultater fra andre kilder: Yahoo! Søg BOSS, Wikipedia, Wolfram|Alpha.

Des bedre

DuckDuckGo positionerer sig som en søgemaskine, der giver maksimalt privatliv og fortrolighed. Systemet indsamler ingen data om brugeren, gemmer ikke logfiler (ingen søgehistorik), og brugen af cookies er så begrænset som muligt.

DuckDuckGo indsamler eller deler ikke personlige oplysninger fra brugere. Dette er vores privatlivspolitik.
Gabriel Weinberg, grundlægger af DuckDuckGo

Hvorfor har du brug for dette

Alle større søgemaskiner forsøger at tilpasse søgeresultater baseret på data om personen foran skærmen. Dette fænomen kaldes "filterboblen": Brugeren ser kun de resultater, der er i overensstemmelse med hans præferencer, eller som systemet betragter som sådan.

DuckDuckGo skaber et objektivt billede, der ikke afhænger af din tidligere adfærd på internettet, og eliminerer tematisk annoncering fra Google og Yandex baseret på dine forespørgsler. Med DuckDuckGo er det nemt at søge efter information på fremmedsprog: Google og Yandex foretrækker som standard russisksprogede websteder, selvom forespørgslen er indtastet på et andet sprog.

Hvad er dette

"" er et russisk metasøgningssystem udviklet af kandidater fra Moskva State University Viktor Lavrenko og Vladimir Chernyshov. Den søger gennem indekserne for Google, Bing, Yandex og andre, og har også sin egen søgealgoritme.

Des bedre

Søgning gennem indekserne for alle større søgemaskiner giver dig mulighed for at generere relevante resultater. Derudover opdeler Nigma resultaterne i flere tematiske grupper (klynger) og inviterer brugeren til at indsnævre søgefeltet, kassere unødvendige eller fremhæve prioriterede. Takket være matematik- og kemimodulerne kan du løse matematiske problemer og anmode om resultaterne af kemiske reaktioner direkte i søgefeltet.

Hvorfor har du brug for dette

Eliminerer behovet for at søge efter den samme forespørgsel i forskellige søgemaskiner. Klyngesystemet gør det nemt at manipulere søgeresultater. For eksempel samler Nigma resultater fra onlinebutikker i en separat klynge. Hvis du ikke har til hensigt at købe noget, skal du blot udelukke denne gruppe. Ved at vælge "Engelsksprogede websteder"-klyngen vil du kun modtage resultater på engelsk. Matematik- og kemimodulerne vil hjælpe skolebørn.

Desværre er projektet ikke under udvikling i øjeblikket, da udviklerne har overført deres aktivitet til det vietnamesiske marked. Ikke desto mindre er "Nigma" ikke kun ikke forældet endnu, men på nogle ting giver det stadig Google et forspring. Lad os håbe udviklingen genoptages.

Hvad er dette

not Evil er et system, der søger på det anonyme Tor-netværk. For at bruge det skal du gå til dette netværk, for eksempel ved at starte en specialiseret browser af samme navn. not Evil er ikke den eneste søgemaskine af sin art. Der er LOOK (standardsøgningen i Tor-browseren, tilgængelig fra det almindelige internet) eller TORCH (en af de ældste søgemaskiner på Tor-netværket) og andre. Vi slog os fast på ikke Evil på grund af den klare hentydning til Google selv (se bare på startsiden).

Des bedre

Den søger, hvor Google, Yandex og andre søgemaskiner generelt er lukket.

Hvorfor har du brug for dette

Tor-netværket indeholder mange ressourcer, som ikke kan findes på det lovlydige internet. Og efterhånden som regeringens kontrol med indholdet af internettet strammer, vil deres antal vokse. Tor er en slags netværk inden for netværket: med sine egne sociale netværk, torrent-trackere, medier, handelsplatforme, blogs, biblioteker og så videre.

YaCy

Hvad er dette

YaCy er en decentral søgemaskine, der arbejder efter princippet om P2P-netværk. Hver computer, hvor hovedsoftwaremodulet er installeret, scanner internettet uafhængigt, det vil sige, at det er analogt med en søgerobot. De opnåede resultater er samlet i en fælles database, som bruges af alle YaCy-deltagere.

Des bedre

Det er svært at sige, om dette er bedre eller værre, da YaCy er en helt anden tilgang til at organisere søgning. Fraværet af en enkelt server og ejervirksomhed gør resultaterne fuldstændig uafhængige af nogens præferencer. Hver nodes autonomi eliminerer censur. YaCy er i stand til at søge på deep web og ikke-indekserede offentlige netværk.

Hvorfor har du brug for dette

Hvis du er tilhænger af open source-software og et gratis internet, ikke påvirket af offentlige myndigheder og store virksomheder, så er YaCy dit valg. Det kan også bruges til at organisere en søgning inden for et virksomheds- eller andet selvstændigt netværk. Og selvom YaCy ikke er særlig brugbar i hverdagen, er det et værdigt alternativ til Google i forhold til søgeprocessen.

Pipl

Hvad er dette

Pipl er et system designet til at søge efter information om en bestemt person.

Des bedre

Forfatterne af Pipl hævder, at deres specialiserede algoritmer søger mere effektivt end "almindelige" søgemaskiner. Prioriterede informationskilder omfatter især sociale netværksprofiler, kommentarer, medlemslister og forskellige databaser, der offentliggør oplysninger om personer, såsom domstolsafgørelser. Pipls lederskab på dette område bekræftes af vurderinger fra Lifehacker.com, TechCrunch og andre publikationer.

Hvorfor har du brug for dette

Hvis du har brug for at finde information om en person, der bor i USA, så vil Pipl være meget mere effektiv end Google. Russiske domstoles databaser er tilsyneladende utilgængelige for søgemaskinen. Derfor har han det ikke så godt med russiske statsborgere.

Hvad er dette

En anden specialiseret søgemaskine. Søger efter forskellige lyde (hus, natur, biler, mennesker osv.) i åbne kilder. Tjenesten understøtter ikke forespørgsler på russisk, men der er en imponerende liste over russisksprogede tags, som du kan søge efter.

Des bedre

Outputtet indeholder kun lyde og intet ekstra. I søgeindstillingerne kan du indstille det ønskede format og lydkvalitet. Alle fundne lyde er tilgængelige for download. Der søges efter lyde efter mønster.

Hvorfor har du brug for dette

Hvis du hurtigt har brug for at finde lyden af et musketskud, slagene fra en diende spætte eller Homer Simpsons skrig, så er denne service noget for dig. Og jeg valgte kun dette fra de tilgængelige russisksprogede forespørgsler. På engelsk er spektret endnu bredere. Men seriøst, en specialiseret tjeneste kræver et specialiseret publikum. Men hvad nu, hvis det også er nyttigt for dig?

Alternative søgemaskiners liv er ofte flygtigt. Lifehacker spurgte den tidligere generaldirektør for den ukrainske afdeling af Yandex, Sergei Petrenko, om de langsigtede udsigter for sådanne projekter.

Hvad angår alternative søgemaskiners skæbne, er det enkelt: at være meget nicheprojekter med et lille publikum, derfor uden klare kommercielle udsigter eller omvendt med fuldstændig klarhed over deres fravær.

Hvis du ser på eksemplerne i artiklen, kan du se, at sådanne søgemaskiner enten specialiserer sig i en snæver, men populær niche, som måske endnu ikke er vokset nok til at være mærkbar på radarerne fra Google eller Yandex, eller også tester de. en original hypotese i ranking, som endnu ikke er anvendelig i almindelig søgning.

For eksempel, hvis en søgning på Tor pludselig viser sig at være efterspurgt, dvs. resultater derfra er nødvendige for mindst en procentdel af Googles publikum, så vil almindelige søgemaskiner selvfølgelig begynde at løse problemet med, hvordan man finde dem og vise dem til brugeren. Hvis publikums adfærd viser, at for en betydelig del af brugerne i et betydeligt antal forespørgsler virker resultater givet uden at tage hensyn til faktorer afhængigt af brugeren mere relevante, så vil Yandex eller Google begynde at producere sådanne resultater.

"Vær bedre" i denne artikels sammenhæng betyder ikke "vær bedre til alting." Ja, i mange aspekter er vores helte langt fra Google og Yandex (selv langt fra Bing). Men hver af disse tjenester giver brugeren noget, som søgeindustriens giganter ikke kan tilbyde.

Pathfinder hjælper besøgende på din webserver med at finde den information, de har brug for, hurtigt og nemt.

Den betydelige stigning i mængden af information på internettet har ført til, at det er blevet et reelt problem at finde det rigtige dokument, selv på en enkelt webserver. Erfaring viser, at efterhånden som omfanget af et websted vokser, tillader selv det mest avancerede og gennemtænkte system af links mellem dokumenter ofte ikke brugeren at finde de nødvendige oplysninger inden for rimelig tid. For at løse dette problem blev Server Pathfinder-pakken udviklet.

Server Pathfinder-systemet tilhører klassen af såkaldte søgemaskiner, dvs. programmer til at søge information på et separat websted eller en virksomheds intranetserver. Ved udviklingen af Pathfinder blev følgende to funktioner i driften af programmer på internettet taget i betragtning. For det første blev det taget i betragtning, at størstedelen af internetbrugere ikke er specialister inden for computerteknologi. Det betyder, at proceduren for at søge information skal være så enkel som muligt, og søgeresultaterne skal være klare og informative. Som et resultat blev følgende funktioner inkluderet i Pathfinder-systemet, hvilket væsentligt forenklede arbejdet for ikke-professionelle brugere:

søg efter dokumenter ved hjælp af forespørgsler på naturlig russisk og engelsk,
rangordne dokumenter efter graden af nærhed til anmodningen,
fremhævelse af opdagede sætninger og udtryk i fundne dokumenter,
automatisk udarbejdelse af dokumentresuméer.

Lad os forklare betydningen af disse funktioner, der adskiller Pathfinder fra en række andre søgeservere.

Søg i dokumenter ved hjælp af naturlige sprogforespørgsler implementeret baseret på Pathfinder™-søgeteknologien udviklet af MediaLingua. Denne teknologi har vist sig godt i det personlige søgesystem Pathfinder v1.0. Således behøver besøgende på dit websted ikke længere at studere det formelle sprog for forespørgsler til en søgemaskine og komponere komplekse strukturer fra ord, udtryk og logiske operatorer: det er nok at skrive et spørgsmål i fri form, som om det blev sendt til en person. En sådan forespørgsel vil ikke kun finde dokumenter, der indeholder nøjagtig den samme sætning, men også alle dokumenter, der indeholder udtryk, der har samme betydning. Anmodninger behandles på russisk og engelsk.

Rangordning af dokumenter efter grad af nærhed til anmodningen. Server Pathfinder-rapporten indeholder en liste over fundne dokumenter, ordnet som følger: de dokumenter, der passer bedst til forespørgslen, vises først i rapporten. På denne måde, hvis de relevante dokumenter findes, vil de næsten helt sikkert ende øverst i rapporten. Dette sparer systembrugeren for kedelig visning af et stort antal dokumenter, der ikke er interessante for ham.

Fremhævelse af sætninger og udtryk i dokumenter. For at forenkle analysen af dokumenter opdaget af Pathfinder fremhæver de ord og sætninger, der blev brugt til at afgøre, om dokumentet svarede til anmodningen. Denne funktion i systemet forenkler arbejdet med fundne dokumenter betydeligt og tillader, om nødvendigt, kun at se fragmenterne af store dokumenter af interesse. Det skal bemærkes, at rangering og fremhævelse i fundne dokumenter også implementeres baseret på Pathfinder™-teknologi.

Automatisk udarbejdelse af dokumentabstrakt. For hvert dokument, der behandles af søgesystemet, bliver der automatisk udarbejdet et kort abstrakt, der afspejler dokumentets indhold. Disse abstracts præsenteres for brugeren i en rapport om de fundne dokumenter og giver dig mulighed for at vurdere indholdet af dokumentet uden at henvise til det. For at kompilere abstracts bruger vi teknologien til automatisk abstraktering af tekster, udviklet af specialister fra MediaLingua-virksomheden.

Det andet punkt, der blev taget i betragtning ved udviklingen af dette softwareprodukt, var, at systemet er designet til at fungere på internettet. Det betyder, at systemet skal være kompatibelt med eksisterende internetteknologier og standarder og fungere stabilt under høje belastningsforhold, der er typiske for webservere. Derfor en række teknologiske funktioner:

indeksering af websider,
klient-server eksekvering af en søgemaskine,
høj arbejdshastighed,
understøttelse af grundlæggende internetteknologier,
arbejde med fem kyrilliske kodninger.

Indeksering af websider. Search Engine Server Pathfinder er et såkaldt indekseringssystem. Det betyder, at før du søger efter dokumenter, akkumulerer systemet information om placeringen af alle ord på alle sider på webstedet. Disse oplysninger lagres i en specialiseret kompakt database, som yderligere sikrer hurtig opdagelse af de nødvendige dokumenter.

Klient-server eksekvering af systemet. Søgesystemet implementeres ved hjælp af klient-server-teknologi. Det betyder, at funktionerne til indeksering, søgning og visning af information er fordelt på forskellige komponenter i systemet. Denne tilgang giver mulighed for, om nødvendigt, effektivt at fordele belastningen mellem forskellige computere og derved øge ydelsen af systemet som helhed.

Høj hastighed. For alle serversystemer er det vigtigste kriterium for deres effektivitet deres hastighed. For Server Pathfinder er vigtige parametre især hastigheden af indeksering og hentning af information. Som test- og driftserfaring har vist, giver Pathfinder dig mulighed for at indeksere information med en hastighed på op til 80-100 MB i timen og behandle mindst 10-15 tusinde anmodninger om dagen.

Support til større internetteknologier. Standard Internet TCP/IP-protokollen bruges til udveksling mellem komponenterne i Server Pathfinder, og CGI/1.1-protokollen bruges til interaktion mellem søgeklienter og webserveren. Dette gør det muligt for Pathfinder at arbejde med de fleste webservere, der kører på Windows/Intel-platformen.

Arbejder med fem kyrilliske kodninger. Historisk set bruger den russiske del af internettet flere kyrilliske kodninger på samme tid. Server Pathfinder genkender automatisk fem hovedtegnsæt: Windows-1251, DOS Cyrillic 866, KOI8-R (Unix), Mac Cyrillic og ISO 8859-5 (Sun). Rapporter om fundne dokumenter kan genereres i enhver af de angivne kodninger.

Server Pathfinder er således en kraftfuld søgemaskine, der gør det nemmere at arbejde med information på dit World Wide Web-sted.

Server Pathfinder bruges til at søge efter information på MediaLingua-serveren.

Du kan også se Server Pathfinder i aktion på det elektroniske forlags server "

I dag tilbyder markedet en betydelig liste over forskellige søgeværktøjer, programmer og systemer på forskellige niveauer. Der er to typer software i denne klasse*. (Gradsky P. Search systems. // St. Petersburg Gazette //, 26. juni 2002; Deriev I. Besynderligheder ved national søgning. // Computer Review // Nr. 15.17 - 23. april 2002. Uvarov S. De, der søger skal finde http://nrd.pnpi.spb.ru/UseSoft/Journals/IntemetZone/izone229/pub/izone8.htm www.cronos.ru )

Softwareprodukter, der bruger direkte søgeteknologi, de gennemgår blot filerne og søger gennem hver af dem. Ulempen ved denne teknologi er betydelige tidsomkostninger. Lignende hjælpeprogrammer findes traditionelt i alle operativsystemer, filhåndteringer og værktøjspakker.

1. AV søgemaskine Søg. Hvis du slet ingen penge har, kan Anatoly Voznyuks gratis program - AVSearch (www.avtlab.ru) hjælpe dig. Dette softwareprodukt kan dog kun fungere med tekstfiler og RTF-filer, dog i alle kodninger fra CP866 til Unicode, som især giver "understøttelse" til DOC-formatet, pga. Microsoft Word-dokumenter undersøges som almindelig tekst. Programmet søger i alle populære arkiver uden at bruge eksterne moduler. Dens grænseflade er ret enkel og praktisk. Generelt er programmet ikke dårligt, men dets betydelige ulempe er dets langsomhed.

2. Søgemaskine SSScanner arbejder med ret høj hastighed med Word, WordPerfect, PDF, HLP-dokumenter samt flere dusin sprog og kodninger.

Der er mulighed for fuzzy search (efter kontekst) med relevansvurdering og formel. Resultaterne vises i et separat vindue med uddrag fra de originale dokumenter. SSScanner koster omkring $30, shareware-versionen har en række begrænsninger.

I øjeblikket falder programmer til direkte søgning i baggrunden og bliver aktivt udskiftet softwareprodukter, der bruger søgeteknologi med indeksering. Denne type software scanner og analyserer specificerede tekstfiler og skaber sin egen database ("indeks"), som derefter søges i. Indeksering er en ret langvarig proces, men søgning tager kun et par sekunder. Indtil for nylig var de største ulemper ved denne software varigheden af den indledende indeksoprettelse og det ekstra forbrug af diskplads. For kraftige moderne computere er dette dog ikke væsentligt. Der er stadig nogle besvær forbundet med behovet for regelmæssigt at opdatere indekser, men dette er ikke et problem.

Lad os begynde vores overvejelse af dette segment af fuldtekstsøgemaskinemarkedet med vestlige prøver.

1. Søgemaskine Fremskreden Dokument Server http://ads.newmail.ru/1 optager lidt diskplads, distribueres gratis og har en masse funktioner: understøttelse af Microsoft Office-dokumenter, PDF, nogle databaser; søg i arkivfiler; indbygget webserver til fjernadgang. Sandt nok er der et væsentligt "men": For at arbejde med næsten alle formater har du brug for "native" software. Til DOC - Microsoft Word, til XLS - Excel, til PDF - fuldgyldigt Adobe Acrobat, samt Internet Explorer, arkivere mv.

Og hvis mange, der arbejder med Word-dokumenter, bruger selve applikationen (selvom Microsoft også har en speciel fremviser), så er dette princip ikke længere egnet til PDF. Derudover har brugen af OLE-automatiseringsværktøjer i dette tilfælde en ekstrem negativ indvirkning på ydeevnen.

2. Software Grønsten er beregnet til at skabe "digitale biblioteker", hvilket indebærer noget mere end blot at søge med foreløbig indeksering af DOC, PDF, etc. dokumenter. Dette softwareprodukt opretter et katalog over dokumenter, konverterer dem til HTML-format og giver fjernadgang til biblioteket via en browser. Distribueres gratis, med kildekode. Sandt nok virker det ret langsomt.

3. Søgemaskine dtSearch Desktop(genkender automatisk forskellige kodninger, inklusive kyrillisk (med undtagelse af KOI-8), samt et par dusin filformater, blandt hvilke det er værd at fremhæve DOC, XLS, RTF, PDF, DBX (Outlook Express), XML, plus populære databaser (via ODBC) I databaser og hypertekstdokumenter er det muligt at søge efter indholdet af specifikke felter og tags. Selv beskyttede PDF-filer indekseres, men programmet kan ikke få deres navne og andre attributter søger i ZIP-arkiver.

Efter type søgning bruges følgende: morfologisk, fonetisk, søg på synonymer, samt søg på ord med stavefejl. Derudover tilbyder dtSearch Desktop brugeren en ordbog (bygget under indeksoprettelsesprocessen) og søger automatisk i den, når der indtastes en forespørgsel.

Den eneste ulempe er programmets engelske grænseflade. dtSearch Desktop koster omkring $200.

Russisk software. Med hensyn til deres søgemuligheder har indenlandske udviklinger en vis fordel i forhold til vestlige, da deres udviklere a priori er bedre bevandret i alle mulige sproglige nuancer af vores statssprog end udlændinge.

1. Søgemaskine " Blodhund" www.isleuthhound.com eller http://www.isleuthhound.ru) (iSleuthHound Technologies).

"Snoop" er et fuldtekst-personsøgningssystem, hvor arbejdet med det minder om arbejde i internetsøgemaskiner, såsom AltaVista, Yahoo, Rambler. Når du starter den første gang, opretter den en database med eksisterende dokumenter og indekserer den. Hver database er en søgezone - en plads på harddisken bestående af mapper, hvori programmet øjeblikkeligt finder dokumenter og filer. Testversionen af programmet understøtter muligheden for kun at oprette to søgezoner med maksimalt 500 filer indekseret i hver. Før du søger efter dokumenter, skal "Snoop" angive en søgezone eller oprette en ny, derefter indtaste de nøgleord, som dokumentet skal indeholde i dialogboksen og klikke på knappen Søg!

Den gratis version af Snoop fungerer kun med tekst- og DOC-filer, den professionelle version ($15) fungerer også med RTF og HTML. Derudover har den professionelle version et sæt ekstra plug-in-filtre - til tekst i alle kodninger, dokumenter fra andre Microsoft Office-applikationer og PDF.

PDF-support er for nylig dukket op i programmet, og indtil videre "forstår" dette modul ikke det russiske sprog, selvom firmaets repræsentanter lover at eliminere denne mangel i den nærmeste fremtid. Men modulet fungerer godt med beskyttede dokumenter - det indekserer ikke kun deres indhold, men er også i stand til at bestemme navnet korrekt og endda udtrække teksten.

2. Intelligent søgesystem "Pathfinder" (("MediaLingua"). Den seneste version af programmet bruger Microsoft SQL Server Desktop Edition til at gemme oplysninger. Det eliminerer næsten alle kommentarer og spørgsmål, der er opstået før.

I sin funktionalitet ligner Pathfinder dtSearch. Brugerne har flere søgemuligheder til deres rådighed: fuzzy, dvs. "i naturligt sprog", vil systemet selv kassere "støj"-ord, og resten vil blive reduceret til et morfologisk grundlag; strict, som søger efter præcis de ord, der er angivet i forespørgslen; formel - med logiske og andre operatorer og mulighed for at kombinere de to foregående.

Tekstfiler i en række forskellige kodninger, dokumenter fra store Microsoft Office-applikationer, PDF-filer, inklusive dem, der er pakket i zip-arkiver, samt Microsoft Outlook-mapper (både selve meddelelserne og vedhæftede filer) understøttes. Det skal bemærkes, at de anvendte filtre er ret "ærlige" de fungerer med DOC-filer præcis som med Word-dokumenter, indekserer ikke PDF-filer, der er kopibeskyttede osv. - naturligvis kan dette fortolkes på to måder. Ikke desto mindre så PDF-filteret fra Pathfinder ud til at være et af de bedste, når man arbejdede med det russiske sprog.

Programgrænsefladen er ret praktisk med undtagelse af nogle få nuancer. For eksempel skal vinduet til visning af fundne dokumenter kaldes specifikt op, men det forbliver altid det "øverste" og forstyrrer i nogle tilfælde arbejdet med programmet. Men den udtrækker tekst meget korrekt fra dokumenter i alle understøttede formater og fremhæver forespørgselsordene.

Du skal blot huske på, at Pathfinder kun virker, når Microsoft SQL Server-applikationen kører, denne applikation installeres samtidig med installationen af selve Pathfinder.

Programmet er distribueret i tre versioner - personlig, professionel og virksomhed.

Personalet, til en pris på $10, er berøvet stort set alle de mest interessante funktioner - det understøtter ikke morfologi og formelle forespørgsler, indekserer ikke PDF- og Outlook-mapper.

Professionel "Pathfinder" vil koste $48 og kan være en gylden middelvej, da virksomhedsversionen distribueres med ret dyre licenspakker, selvom den ekstra service kun er arbejde med lokale netværksressourcer.

3. Dokumentarisk informationssøgningssystem "Cros» (www.cronos.ru ("Kronos-Inform") hævder som før at være noget mere end titlen på en simpel søgemaskine. Udviklerne kalder "Cros" et "system til akkumulering og behandling af information." Ved at akkumulere det betyder, at "Cros" ikke blot opretter et "indeks" af de tekstfiler, der er angivet til det, det kopierer dem til sit eget arkiv - en dokumentbank, mens de komprimeres og indekseres. Søgningen udføres i sit eget arkiv Denne løsning har flere effekter på én gang: søgehastighed og pålidelig beskyttelse af uautoriseret adgang.

"CROS", når det er indlæst i det, genkender automatisk alle større formater og kodninger af tekstfiler, understøtter arkiver af elektroniske dokumenter og søger hurtigt efter information i dem ved hjælp af enhver kombination af ord og dokumentegenskaber. Programmet har udviklet navigationsværktøjer (et simpelt, men kraftfuldt forespørgselssprog), sortering og visning af fundne dokumentfragmenter samt automatiseret rapportlayout.

Der er også en separat distribueret webgrænseflade (i form af et websted til IIS, Apache eller en anden server med CGI-understøttelse), som giver fjernbrugere mulighed for at oprette forbindelse til "Cros" og udføre alle grundlæggende handlinger med databanken.

Denne software fungerer pålideligt i Windows OS, kræver ikke ressourcer, er praktisk og nem at bruge. Der er både lokale og netværksversioner af dette softwareprodukt.

Sammenlignet med eksisterende analoger har CROS stort set ingen begrænsninger på mængden af akkumuleret information, samtidig med at den sparer plads på harddisken betydeligt.

Der er en gratis demoversion med trunkerede muligheder, den fungerer med en databank på op til 5000 dokumenter. Prisen for enkeltbrugerversionen af CROS er $140, der tilbydes betydelige rabatter, når den installeres på flere computere i samme organisation.

4. " Eufrat 99" ) (Kognitive teknologier). Dette produkt er heller ikke en "ren" søgemaskine, men et system til at organisere elektronisk dokumenthåndtering i personlig skala, hvilket indebærer maksimal automatisering af oprettelse og indtastning af typiske kontordokumenter, såvel som deres organisering, registrering, opbevaring, arkivering og derfor søge.

"Euphrates @SOHO" er et næsten komplet arbejdsmiljø med eget skrivebord, papirkurv, værktøjer til at arbejde med filer osv. Ud over alle disse "klokker og fløjter" "forstår" programmet Microsoft Office-dokumenter, indekserer dem og udfører kontekstuel søgning og overvåger endda automatisk opdateringen af specificerede dokumenter og mapper. Dens største ulempe er manglen på understøttelse af andre formater, især PDF, men der er nogle gode ekstra funktioner som indbygget OCR til indtastning af dokumenter fra en scanner. Prisen for programmet er $20.

"Euphrates Office" understøtter dokumentformater MS Office 95/97/2000 (DOC, XLS, PPT), tekst (RTF, HTML, TXT (ASCII, ANSI, KOI-8), grafiske dokumenter - sort/hvid og farve - TIF, PCX, JPG, BMP, GIF og andre Visningstilstanden "draft" fungerer (under hensyntagen til dokumentets originale design og formatering. Der er en eksportfunktion til eksterne applikationer, der understøtter det påkrævede format).

"Euphrates Office" udfører fuldtekst og detaljeret søgning i dokumenter efter anmodning af enhver kompleksitet ved hjælp af de logiske operationer "AND", "OR", "NOT", kontekstsøgning (forespørgsel efter udvalgte ord i et dokument i visningstilstanden dens tekst). Søgehastigheden er ret høj og afhænger ikke af antallet af registrerede dokumenter og kompleksiteten af anmodningen.

Der er et yderligere installeret Euphrates Document Server-modul, som sikrer samtidig arbejde af flere brugere med en enkelt database.

Kort opsummering. I slutningen af vores anmeldelse vil jeg gerne bemærke, at du har et valg af software - disse er de meget effektive dtSearch Desktop, Bloodhound, Pathfinder, Cros og Euphrates, for hvis besiddelse du bliver nødt til at skille dig af med en vis mængde af grønne universelle værdier.

Nå, hvis din stramme ledelse ikke giver dig penge til software, men kræver resultater, så glem ikke AVSearch. Sandt nok stiger tid og arbejdsomkostninger i dette tilfælde betydeligt.

De nyeste teknologier, der er vedtaget af Moskva-politiet, vil gøre det muligt i løbet af få minutter at afgøre, om en person er involveret i en forbrydelse eller ej. Og i det hele taget, bliver en borger stoppet på gaden eller i en bil af nogen interesse for politiet? Det russiske indenrigsministerium rapporterede, at informationssøgningssystemet "Sledopyt-M" er blevet indført, som er integreret med systemerne i ministeriets vigtigste informations- og analytiske center med hensyn til at søge efter mennesker. Desuden alle, der efterlyses, ikke kun kriminelle eller mistænkte, men også savnede personer.

Det vigtigste her er verifikationshastigheden. En person bliver bedt om at sætte fingeren på enheden, og enheden giver næsten øjeblikkeligt et svar: de siger, der er ingen data om denne særlige borger. Det vil sige, en af de mange tjenester fungerede automatisk - centraliseret fingeraftryksinformation, hvor søgningen udføres på tværs af et kolossalt array bestående af mere end 72 (!) millioner fingeraftrykskort.

Som eksperter fra Indenrigsministeriet sagde, er meningen med denne innovation ikke kun at finde den kriminelle hurtigt, men også at beskytte en almindelig uskyldig borgers rettigheder og spare hans tid og nerver. Forestil dig situationen: i et hus, du passerer på gaden, forekom for eksempel et røveri eller endda et mord. Politiet har allerede taget alle tilgængelige fingeraftryk og andre spor, afhørt vidner, studeret videokameraoptagelser og endda udarbejdet en skitse af den formodede forbryder. Selvfølgelig annoncerede hun alle mulige foranstaltninger - planer "Aflytning", "Barriere" osv. Og nu - "held": du går, ligner så meget en netop kompileret skitse. Du har ret til at blive tilbageholdt i to dage. Så vil de selvfølgelig lade dig gå og endda undskylde. Men sedimentet vil, som de siger, forblive. Og nu, takket være smart elektronik, vil verifikationsproceduren tage et par minutter. Medmindre du faktisk efterlod et spor på gerningsstedet.

Og dette er blot en af mange, så at sige, muligheder, der for tre år siden begyndte at blive implementeret under det særlige program godkendt af Moskvas borgmester Sergei Sobyanin "Liste over foranstaltninger til køb, oprettelse, implementering og drift af informationsteknologi, kommunikation og informationsbeskyttelsesværktøjer af hensyn til hoveddirektoratet for Ruslands indenrigsministerium i Moskva". Inden for et år blev et integreret multi-service telekommunikationsnetværk skabt. Hver distrikts politiafdeling blev forsynet med en kraftfuld kommunikationskanal og netværksudstyr, routere og switches blev installeret. Alle patruljevogne er udstyret med informationsteknologi. Patruljepersonale har allerede fået udleveret 800 tabletter. Ved årets udgang vil der blive købt omkring to tusinde flere computerenheder. Hver motorpatrulje vil have adgang til informationstjenester for på stedet at kontrollere databaser over tilbageholdte lovovertrædere eller mistænkte for kriminalitet.

En person, der frivilligt har gennemgået fingeraftryksproceduren, har ret til efterfølgende at afslå det.

Det var i øvrigt på baggrund af denne service, at afdelingerne i Statens Trafiksikkerhedsinspektion, licenser og tilladelser, migration og andre tjenester indsatte en elektronisk kø, som gjorde det muligt at reducere tiden til modtagelse af befolkningen væsentligt. For at databanken skulle være så fuldstændig og objektiv som muligt, indgik storbypolitiet aftaler om informationsinteraktion med Moskva-regeringen, forskellige afdelinger og tjenester, herunder skattekontoret og fogeder.

Vægten på fingeraftryk i denne informationsbank er ikke tilfældig. Faktum er, at flere og flere mennesker frivilligt afgiver deres fingeraftryk. Denne procedure er reguleret af den føderale lov "om statslig fingeraftryksregistrering i Den Russiske Føderation". For at informere dine kære i tide og få den rigtige blodtype, skal du vide præcis alt om personen i vanskeligheder og ikke spilde kostbar tid på at søge efter den nødvendige information.

Det, der er vigtigt, er, at denne procedure betragtes som en offentlig service, der leveres helt gratis. Materialer med fingeraftryk vil blive opbevaret så længe som muligt, indtil en person fylder 100 år. De kan ødelægges, ud over "ejerens" personlige anmodning, efter en persons død efter anmodning fra pårørende.

En person, der frivilligt gennemgår en sådan registrering, har dog ret til efterfølgende at afslå det og kræve destruktion af resultaterne af fingeraftryk. Og hans anmodning skal opfyldes inden for 30 dage fra datoen for modtagelsen af en sådan anmodning.