World Wide Web - World Wide Web. World Wide Web: hvorfor kalles Internett det?

Allerede i dag når antallet Internett-brukere 3,5 milliarder mennesker, som er nesten halvparten av verdens befolkning. Og det vet selvfølgelig alle Verdensveven fullstendig omsluttet planeten vår. Men fortsatt kan ikke alle si om det er forskjell mellom konseptene Internett og World Wide Web. Merkelig nok er mange helt sikre på at dette er synonymer, men kyndige karer kan komme med argumenter som vil redusere denne selvtilliten.

Hva er Internett?

Uten å gå inn på komplekse tekniske detaljer, kan vi si det Internett er et system som kobler sammen datanettverk over hele verden. Datamaskiner er delt inn i to grupper - klienter og servere.

Kunder kalles vanlige brukerenheter, som inkluderer personlige datamaskiner, og bærbare datamaskiner, og nettbrett, og selvfølgelig smarttelefoner. De sender en forespørsel, mottar og viser informasjon.

All informasjon lagres på servere, som kan klassifiseres etter ulike formål:

  • Internett server,
  • post,
  • chatter,
  • radio- og TV-kringkastingssystemer,
  • fildeling.

Servere er kraftige datamaskiner, jobber kontinuerlig. I tillegg til å lagre informasjon, mottar de forespørsler fra klienter og sender nødvendig svar. Samtidig behandler de hundrevis av slike forespørsler.

Også i vårt korte utdanningsprogram er det nødvendig å nevne at det er verdt å nevne Internett-leverandører, som gir kommunikasjon mellom klient og server. En leverandør er en organisasjon med en egen Internett-server som alle klientene er koblet til. Tilbydere gir kommunikasjon via telefonkabel, dedikert kanal eller trådløst nettverk.


Slik kommer du deg på Internett

Er det mulig å klare seg uten leverandør og koble seg direkte til Internett? Teoretisk er det mulig! Du må bli din egen leverandør og bruke en enorm sum penger for å komme til de sentrale serverne. Så ikke klandre Internett-leverandøren din for mye for høye tariffer - disse gutta må også betale for mange ting og bruke penger på vedlikehold av utstyr.

World Wide Web har forvirret hele verden

Verden Wide Web eller ganske enkelt web - "web". Faktisk det er representert av et stort antall sider som er sammenkoblet. Denne tilkoblingen er gitt av lenker, gjennom hvilke du kan flytte fra en side til en annen, selv om den er plassert på en annen datamaskin koblet til.


World Wide Web er den mest populære og største Internett-tjenesten.

World Wide Web bruker spesielle webservere for å operere. De lagrer nettsider (en av dem du ser nå). Sider koblet sammen med lenker, som har et felles tema, utseende og vanligvis ligger på samme server kalles et nettsted.

For å se nettsider og dokumenter brukes spesielle programmer - nettlesere.

Det er World Wide Web som inkluderer fora, blogger og sosiale medier. Men dets arbeid og eksistens er direkte sikret av Internett...

Er det stor forskjell?

Faktisk er forskjellen mellom Internett og World Wide Web ganske stor. Hvis Internett er stort nettverk, kobler millioner av datamaskiner rundt om på planeten for å dele informasjon, så er World Wide Web bare én måte å utveksle denne informasjonen på. I tillegg til å sikre driften av World Wide Web, lar Internett deg bruke e-post og ulike direktemeldinger, samt overføre filer via FTP-protokollen,

Internett er det som forbinder mange datanettverk.

World Wide Web er alle sidene som er lagret på spesielle servere Internett.

Konklusjon

Nå vet du det Verdensveven Internett og World Wide Web er forskjellige ting. Og viktigst av alt, du vil kunne vise frem intelligensen din og forklare vennene dine hva denne forskjellen er.

Struktur og prinsipper for World Wide Web

Grafisk representasjon av informasjon på World Wide Web

World Wide Web består av millioner av Internett-webservere rundt om i verden. En webserver er et program som kjører på en datamaskin koblet til et nettverk og bruker harddiskprotokollen og sender den over nettverket til datamaskinen som ber om. Mer komplekse webservere er i stand til dynamisk å tildele ressurser som svar på en HTTP-forespørsel. For å identifisere ressurser (ofte filer eller deler av dem) på World Wide Web, brukes enhetlige engelske ressursidentifikatorer. Uniform ressursidentifikator). For å bestemme plasseringen av ressurser på nettverket, brukes enhetlige engelske ressurslokaliser. Uniform Resource Locator). Slike URL-lokaliser kombinerer URI-identifikasjonsteknologi og det engelske domenenavnsystemet. domenenavn system) - Domenenavn(eller direkte. Hovedfunksjonen til en nettleser er å vise hypertekst. World Wide Web er uløselig knyttet til begrepene hypertekst og hyperkoblinger. Mesteparten av informasjonen på nettet er hypertekst. For å lette opprettelsen, lagringen og visningen av hypertekst på World Wide Web, er det engelske språket tradisjonelt brukt. HyperText Markup Language), hypertekst-markeringsspråk. Arbeidet med å merke hypertekst kalles layout; markup master kalles en webmaster eller webmaster (uten bindestrek). Etter HTML-markering plasseres den resulterende hyperteksten i en fil; en slik HTML-fil er den vanligste ressursen på World Wide Web. Når en HTML-fil er gjort tilgjengelig for en webserver, kalles den en "webside". En samling nettsider utgjør et nettsted. Hyperkoblinger legges til hyperteksten på nettsider. Hyperkoblinger hjelper World Wide Web-brukere enkelt å navigere mellom ressurser (filer), uavhengig av om ressursene er plassert på lokal datamaskin eller på en ekstern server. Netthyperkoblinger er basert på URL-teknologi.

World Wide Web-teknologier

Generelt kan vi konkludere med at World Wide Web er basert på "tre pilarer": HTTP, HTML og URL. Selv om i I det siste HTML begynte å miste sin posisjon noe og gi den opp mer moderne teknologier markup: XML. XML eXtensible Markup Language) er posisjonert som et grunnlag for andre markup-språk. For forbedring visuell oppfatning CSS-teknologi har blitt mye brukt på nettet, noe som lar deg spesifisere ensartede stiler design for mange nettsider. En annen innovasjon det er verdt å ta hensyn til er det engelske ressursbetegnelsessystemet. Uniform ressursnavn).

Et populært konsept for utviklingen av World Wide Web er etableringen av Semantic Web. The Semantic Web er et tillegg til det eksisterende World Wide Web, som er designet for å gjøre informasjon som legges ut på nettverket mer forståelig for datamaskiner. The Semantic Web er et konsept for et nettverk der hver ressurs på menneskelig språk vil bli utstyrt med en beskrivelse som er forståelig for en datamaskin.. The Semantic Web åpner tilgang til tydelig strukturert informasjon for enhver applikasjon, uavhengig av plattform og uavhengig av programmeringsspråk. Programmer vil selv kunne finne de nødvendige ressursene, behandle informasjon, klassifisere data, identifisere logiske sammenhenger, trekke konklusjoner og til og med ta beslutninger basert på disse konklusjonene. Hvis det er bredt adoptert og implementert med omhu, har Semantic Web potensialet til å utløse en revolusjon på Internett. For å lage en datamaskinlesbar beskrivelse av en ressurs, bruker Semantic Web formatet RDF (engelsk). Ressursbeskrivelsesrammeverk ), som er basert på syntaksen til engelsk. RDF-skjema) og engelsk Protokoll og RDF-spørringsspråk ) (uttales "glitre"), et nytt søkespråk for rask tilgang til RDF-data.

Historien til World Wide Web

Tim Berners-Lee og Robert Cayo regnes som oppfinnerne av World Wide Web. Tim Berners-Lee er opphavsmannen til HTTP-, URI/URL- og HTML-teknologier. I året jobbet han i Frankrike. Conseil Européen pour la Recherche Nucléaire, Genève (Sveits), skrev han Inquire-programmet for sine egne behov. "Spørre", kan løst oversettes som "Interrogator"), som brukte tilfeldige assosiasjoner for å lagre data og la det konseptuelle grunnlaget for World Wide Web.

Det er også et populært konsept Web 2.0, som oppsummerer flere retninger for utviklingen av World Wide Web.

Metoder for aktiv visning av informasjon på World Wide Web

Informasjon på nettet kan vises enten passivt (det vil si at brukeren kun kan lese den) eller aktivt – så kan brukeren legge til informasjon og redigere den. Metoder for aktivt å vise informasjon på World Wide Web inkluderer:

Det skal bemerkes at denne inndelingen er veldig vilkårlig. Så for eksempel kan en blogg eller gjestebok betraktes som et spesielt tilfelle av et forum, som igjen er et spesielt tilfelle av et innholdsstyringssystem. Vanligvis er forskjellen i formålet, tilnærmingen og posisjonering et eller annet produkt.

Noe informasjon fra nettsider kan også nås gjennom tale. India har allerede begynt å teste et system som gjør tekstinnholdet på sidene tilgjengelig selv for folk som ikke kan lese og skrive.

Organisasjoner involvert i utviklingen av World Wide Web og Internett generelt

Lenker

  • Berners-Lees berømte bok "Weaving the Web: The Origins and Future of the World Wide Web" online på engelsk

Litteratur

  • Fielding, R.; Gettys, J.; Mogul, J.; Fristik, G.; Mazinter, L.; Leach, P.; Berners-Lee, T. (juni 1999). " Hypertext Transfer Protocol - http://1.1". Forespørsel om kommentarer 2616. Institutt for informasjonsvitenskap.
  • Berners-Lee, Tim; Bray, Tim; Connolly, Dan; Cotton, Paul; Fielding, Roy; Jeckle, Mario; Lilly, Chris; Mendelsohn, Noah; Orcard, David; Walsh, Norman; Williams, Stuart (15. desember 2004). " Arkitektur av World Wide Web, bind 1". Versjon 20041215. W3C.
  • Polo, Luciano World Wide Web Technology Architecture: En konseptuell analyse. Nye enheter(2003). Hentet 31. juli 2005.

Notater

Wikimedia Foundation. 2010.

Se hva "World Wide Web" er i andre ordbøker:

    Verdensveven

    Verdensveven- Ne doit pas être confondu avec Internett. Le World Wide Web, littéralement la "toile (d’araignée) mondiale", communément appelé le Web, parfois la Toile eller WWW, er et system hypertekste offentlig fonctionnant sur Internet et qui … Wikipédia en Français

    Verdensveven- ˌWorld ˌWide ˈWeb skriftlig forkortelse WWW substantiv the World Wide Web COMPUTING et system som lar databrukere enkelt finne informasjon som er tilgjengelig på Internett, ved å gi lenker fra ett dokument til andre dokumenter, og til filer … … Økonomiske og forretningsmessige vilkår

Struktur og prinsipper for World Wide Web

World Wide Web rundt Wikipedia

World Wide Web består av millioner av Internett-webservere rundt om i verden. En webserver er et program som kjører på en datamaskin koblet til et nettverk og bruker HTTP-protokollen til å overføre data. I sin enkleste form mottar et slikt program en HTTP-forespørsel om en spesifikk ressurs over nettverket, finner den tilsvarende filen på den lokale harddisken og sender den over nettverket til den anmodende datamaskinen. Mer komplekse webservere er i stand til dynamisk å tildele ressurser som svar på en HTTP-forespørsel. For å identifisere ressurser (ofte filer eller deler av dem) på World Wide Web, brukes enhetlige ressursidentifikatorer (URI). Uniform ressursidentifikator). Ensartede URL-ressurslokaliser brukes til å finne ressurser på nettet. Uniform Resource Locator). Disse URL-lokalisatorene kombinerer URI-identifikasjonsteknologi og DNS-domenenavnsystemet. domenenavn system) - et domenenavn (eller direkte en adresse i numerisk notasjon) er en del av URL-en for å angi en datamaskin (mer presist, et av nettverksgrensesnittene) som utfører koden til den ønskede webserveren.

For å se informasjon mottatt fra webserveren på klientdatamaskinen, bruk spesialprogram- nettleser. Hovedfunksjonen til en nettleser er å vise hypertekst. World Wide Web er uløselig knyttet til konseptene hypertekst og hyperkoblinger. Mesteparten av informasjonen på Internett er hypertekst. For å lette oppretting, lagring og visning av hypertekst på World Wide Web, brukes HTML tradisjonelt. HyperText Markup Language), hypertekst-markeringsspråk. Arbeidet med å merke hypertekst kalles layout; markup master kalles en webmaster eller webmaster (uten bindestrek). Etter HTML-markering blir den resulterende hyperteksten plassert i en fil; en slik HTML-fil er hovedressursen til World Wide Web. Når en HTML-fil er gjort tilgjengelig for en webserver, kalles den en "webside". En samling nettsider utgjør et nettsted. Hyperkoblinger legges til hyperteksten på nettsider. Hyperkoblinger hjelper World Wide Web-brukere med å enkelt navigere mellom ressurser (filer), uavhengig av om ressursene er plassert på den lokale datamaskinen eller på en ekstern server. Netthyperkoblinger er basert på URL-teknologi.

World Wide Web-teknologier

For å forbedre den visuelle oppfatningen av nettet, har CSS-teknologi blitt mye brukt, som lar deg sette enhetlige designstiler for mange nettsider. En annen innovasjon det er verdt å ta hensyn til er URN-ressursbetegnelsessystemet. Uniform ressursnavn).

Et populært konsept for utviklingen av World Wide Web er etableringen av Semantic Web. The Semantic Web er et tillegg til det eksisterende World Wide Web, som er designet for å gjøre informasjon som legges ut på nettverket mer forståelig for datamaskiner. The Semantic Web er et konsept av et nettverk der hver ressurs på menneskelig språk vil bli utstyrt med en beskrivelse som en datamaskin kan forstå. The Semantic Web åpner tilgang til tydelig strukturert informasjon for enhver applikasjon, uavhengig av plattform og uavhengig av programmeringsspråk. Programmer vil selv kunne finne de nødvendige ressursene, behandle informasjon, klassifisere data, identifisere logiske sammenhenger, trekke konklusjoner og til og med ta beslutninger basert på disse konklusjonene. Hvis det er bredt adoptert og implementert med omhu, har Semantic Web potensialet til å utløse en revolusjon på Internett. For å lage en datamaskinlesbar beskrivelse av en ressurs, bruker Semantic Web formatet RDF (engelsk). Ressursbeskrivelsesrammeverk ), som er basert på XML-syntaks og bruker URIer for å identifisere ressurser. Nytt på dette området er RDFS (Engelsk) russisk (Engelsk) RDF-skjema) og SPARQL (eng. Protokoll og RDF-spørringsspråk ) (uttales "sparkle"), et nytt spørringsspråk for rask tilgang til RDF-data.

Historien til World Wide Web

Tim Berners-Lee og, i mindre grad, Robert Cayo regnes som oppfinnerne av World Wide Web. Tim Berners-Lee er opphavsmannen til HTTP-, URI/URL- og HTML-teknologier. I 1980 jobbet han ved European Council for Nuclear Research (fransk). Conseil Européen pour la Recherche Nucléaire, CERN ) programvarekonsulent. Det var der, i Genève (Sveits), han skrev Inquire-programmet for sine egne behov. Spørre, kan løst oversettes som "Interrogator"), som brukte tilfeldige assosiasjoner for å lagre data og la det konseptuelle grunnlaget for World Wide Web.

Verdens første nettsted ble hostet av Berners-Lee 6. august 1991 på den første nettserveren tilgjengelig på http://info.cern.ch/, (). Ressurs definerte konseptet Verdensveven, inneholdt instruksjoner for å sette opp en webserver, bruke en nettleser osv. Dette nettstedet var også verdens første Internett-katalog fordi Tim Berners-Lee senere postet og vedlikeholdt en liste over lenker til andre nettsteder der.

Det første fotografiet på World Wide Web var av parodifilkbandet Les Horribles Cernettes. Tim Bernes-Lee ba gruppelederen om skanninger av dem etter CERN Hardronic Festival.

Men fortsatt teoretisk grunnlag Nettet ble grunnlagt mye tidligere enn Berners-Lee. Tilbake i 1945 utviklet Vannaver Bush konseptet Memex. (Engelsk) russisk - mekaniske hjelpemidler for å "utvide menneskelig hukommelse". Memex er en enhet der en person lagrer alle sine bøker og poster (og ideelt sett all kunnskapen hans som kan beskrives formelt) og hvilke problemer nødvendig informasjon med tilstrekkelig fart og fleksibilitet. Det er en utvidelse og tillegg til menneskelig hukommelse. Bush spådde også omfattende indeksering av tekst- og multimedieressurser med evnen raskt søk nødvendig informasjon. Det neste viktige skrittet mot World Wide Web var etableringen av hypertekst (et begrep laget av Ted Nelson i 1965).

  • Det semantiske nettet innebærer å forbedre sammenhengen og relevansen til informasjon på World Wide Web gjennom introduksjon av nye metadataformater.
  • Det sosiale nettet er avhengig av arbeidet med å organisere informasjonen som er tilgjengelig på nettet, utført av nettbrukerne selv. I den andre retningen brukes utviklinger som er en del av den semantiske nettet aktivt som verktøy (RSS og andre nettkanalformater, OPML, XHTML mikroformater). Delvis semantiserte deler av Wikipedia-kategoritreet hjelper brukerne med å bevisst navigere i informasjonsrommet, men svært myke krav til underkategorier gir ikke grunn til å håpe på utvidelse av slike seksjoner. I denne forbindelse kan forsøk på å lage kunnskapsatlas være av interesse.

Det er også et populært konsept Web 2.0, som oppsummerer flere retninger for utviklingen av World Wide Web.

Metoder for aktiv visning av informasjon på World Wide Web

Informasjon på nettet kan vises enten passivt (det vil si at brukeren kun kan lese den) eller aktivt – så kan brukeren legge til informasjon og redigere den. Metoder for aktivt å vise informasjon på World Wide Web inkluderer:

Det skal bemerkes at denne inndelingen er veldig vilkårlig. Så for eksempel kan en blogg eller gjestebok betraktes som et spesielt tilfelle av et forum, som igjen er et spesielt tilfelle av et innholdsstyringssystem. Vanligvis er forskjellen manifestert i formålet, tilnærmingen og plasseringen av et bestemt produkt.

Noe informasjon fra nettsider kan også nås gjennom tale. India har allerede begynt å teste et system som gjør tekstinnholdet på sidene tilgjengelig selv for folk som ikke kan lese og skrive.

World Wide Web kalles noen ganger ironisk nok Wild Wild Web, med henvisning til tittelen på filmen Wild Wild West.

se også

Notater

Litteratur

  • Fielding, R.; Gettys, J.; Mogul, J.; Fristik, G.; Mazinter, L.; Leach, P.; Berners-Lee, T. (juni 1999). "Hypertext Transfer Protocol - http://1.1" (Information Sciences Institute).
  • Berners-Lee, Tim; Bray, Tim; Connolly, Dan; Cotton, Paul; Fielding, Roy; Jeckle, Mario; Lilly, Chris; Mendelsohn, Noah; Orcard, David; Walsh, Norman; Williams, Stuart (15. desember 2004). "Arkitektur av World Wide Web, bind 1" (W3C).
  • Polo, Luciano World Wide Web Technology Architecture: En konseptuell analyse. Nye enheter(2003). Arkivert fra originalen 24. august 2011. Hentet 31. juli 2005.

Lenker

  • Offisiell nettside til World Wide Web Consortium (W3C) (engelsk)
  • Tim Berners-Lee, Mark Fischetti. Veving av nettet: The Original Design and Ultimate Destiny of the World Wide Web. - New York: HarperCollins Publishers (Engelsk) russisk . - 256 s. - ISBN 0-06-251587-X, ISBN 978-0-06-251587-2(Engelsk)
Andre organisasjoner involvert i utviklingen av World Wide Web og Internett generelt

World Wide Web (forkortet Verdensveven eller WWW) er en enhet av informasjonsressurser som er sammenkoblet ved hjelp av telekommunikasjon og er basert på en hypertekstrepresentasjon av data spredt over hele verden.

Fødselsåret til World Wide Web anses å være 1989. Det var i år at Tim Berners-Lee foreslo et vanlig hypertekstprosjekt, som senere ble kjent som World Wide Web.

Skaperen av "nettet" Tim Bernes-Lee, som jobbet i laboratoriet for elementær partikkelfysikk ved European Centre for Nuclear Research "CERN" i Genève (Sveits), sammen med partneren Robert Caillot, jobbet med problemene med å bruke hypertekstideer for bygging informasjonsmiljø, som ville forenkle utvekslingen av informasjon mellom fysikere.

Resultatet av dette arbeidet var et dokument som undersøkte konsepter som er grunnleggende for "nettet" i sin moderne form, og foreslåtte URIer, HTTP-protokollen og HTML-språket. Uten disse teknologiene er det ikke lenger mulig å forestille seg det moderne Internett.

Berners-Lee skapte verdens første nettserver og verdens første hypertekstnettleser. På verdens første nettside beskrev han hva World Wide Web var og hvordan man setter opp en webserver, hvordan man bruker en nettleser osv. Dette nettstedet var også verdens første Internett-katalog.

Siden 1994 har de viktigste oppgavene for utviklingen av World Wide Web blitt overtatt av World Wide Web Consortium ( World Wide Web Consortium, WZS), som ble organisert og fortsatt ledet av Kim Bernes-Lee. Konsortiet utvikler og implementerer teknologistandarder for Internett og World Wide Web. WZS oppdrag: "Slipp løs det fulle potensialet til World Wide Web ved å lage protokoller og prinsipper som garanterer langsiktig utvikling av nettverket." WZS utvikler "anbefalinger" for å oppnå kompatibilitet mellom programvareprodukter og utstyr fra ulike selskaper, noe som gjør World Wide Web mer avansert, universelt og praktisk.

Søkemotorer: sammensetning, funksjoner, driftsprinsipper.

Søkesystem er et programvare- og maskinvarekompleks designet for å søke på Internett og svare på en brukerforespørsel, spesifisert i form av en tekstfrase (søkespørring), ved å produsere en liste med lenker til informasjonskilder, i rekkefølge etter relevans (iht. forespørselen). De største internasjonale søkemotorene: "Google", "Yahoo", "MSN". På det russiske Internett er det - "Yandex", "Rambler", "Aport".

La oss beskrive Hovedtrekk søkemotorer :

    Fullstendighet

Fullstendighet er en av hovedkarakteristikkene til et søkesystem, som er forholdet mellom antall dokumenter funnet ved forespørsel og det totale antallet dokumenter på Internett som tilfredsstiller den gitte forespørselen. For eksempel, hvis det er 100 sider på Internett som inneholder uttrykket "hvordan velge en bil", og bare 60 av dem ble funnet for det tilsvarende søket, vil fullstendigheten av søket være 0,6. Jo mer fullstendig søket er, jo mindre sannsynlig er det at brukeren ikke finner dokumentet han trenger, forutsatt at det finnes på Internett i det hele tatt.

    Nøyaktighet

Nøyaktighet er en annen hovedkarakteristikk ved en søkemotor, som bestemmes av i hvilken grad de funnet dokumentene samsvarer med brukerens søk. For eksempel, hvis spørringen "hvordan velge en bil" inneholder 100 dokumenter, inneholder 50 av dem uttrykket "hvordan velge en bil", og resten inneholder bare disse ordene ("hvordan velge riktig radio og installere den i en bil»), så anses søkenøyaktigheten som lik 50/100 (=0,5). Jo mer nøyaktig søket er, jo raskere vil brukeren finne dokumentene han trenger, jo mindre forskjellige typer "søppel" vil bli funnet blant dem, jo ​​sjeldnere vil ikke de funnet dokumentene samsvare med forespørselen.

    Relevans

Relevans er en like viktig komponent i søk, som kjennetegnes av tiden som går fra det øyeblikket dokumenter publiseres på Internett til de legges inn i søkemotorindeksdatabasen. For eksempel, dagen etter at interessante nyheter dukket opp, vendte et stort antall brukere seg til søkemotorer med relevante søk. Objektivt sett har det gått mindre enn en dag siden publiseringen av nyhetsinformasjon om dette emnet, men hoveddokumentene er allerede indeksert og tilgjengelige for søk, takket være eksistensen av den såkalte "raske databasen" med store søkemotorer, som oppdateres flere ganger om dagen.

    Søkehastighet

Søkehastighet er nært knyttet til belastningsmotstanden. For eksempel, ifølge Rambler Internet Holding LLC, mottar Rambler-søkemotoren i dag, i arbeidstiden, omtrent 60 forespørsler per sekund. Slik arbeidsbelastning krever å redusere behandlingstiden for en individuell forespørsel. Her faller brukerens og søkemotorens interesser sammen: den besøkende ønsker å få resultater så raskt som mulig, og søkemotoren må behandle forespørselen så raskt som mulig, for ikke å bremse utregningen av påfølgende søk.

    Synlighet

Klarheten i presentasjonen av resultater er en viktig komponent praktisk søk. For de fleste søk finner søkemotoren hundrevis, eller til og med tusenvis, av dokumenter. På grunn av uklare søk eller unøyaktige søk, inneholder ikke alltid de første sidene med søkeresultater bare den nødvendige informasjonen. Dette betyr at brukeren ofte må utføre sitt eget søk innenfor funnlisten. Ulike elementer på søkemotorresultatsiden hjelper deg med å navigere i søkeresultatene. Detaljerte forklaringer av søkeresultatsiden, for eksempel for Yandex, finner du på lenken http://help.yandex.ru/search/?id=481937.

En kort historie om utviklingen av søkemotorer

I den innledende perioden med Internett-utvikling var antallet brukere lite, og mengden tilgjengelig informasjon var relativt liten. For det meste var det bare forskningspersonell som hadde tilgang til Internett. På dette tidspunktet var ikke oppgaven med å søke etter informasjon på Internett så presserende som nå.

En av de første måtene å organisere tilgang til nettverksinformasjonsressurser på var å lage åpne kataloger over nettsteder, lenker til ressurser som ble gruppert etter emne. Det første slike prosjektet var Yahoo.com-nettstedet, som åpnet våren 1994. Etter at antallet nettsteder i Yahoo-katalogen økte betydelig, ble muligheten til å søke etter nødvendig informasjon i katalogen lagt til. I full forstand var det ennå ikke en søkemotor, siden søkeområdet bare var begrenset til ressursene i katalogen, og ikke til alle Internett-ressurser.

Link kataloger ble mye brukt i fortiden, men har nesten fullstendig mistet sin popularitet i dag. Siden selv moderne kataloger, store i volum, inneholder informasjon bare om en ubetydelig del av Internett. Den største katalogen i DMOZ-nettverket (også kalt Open Directory Project) inneholder informasjon om 5 millioner ressurser, mens Googles søkemotordatabase består av mer enn 8 milliarder dokumenter.

Den første fullverdige søkemotoren var WebCrawler-prosjektet, publisert i 1994.

I 1995 dukket søkemotorene Lycos og AltaVista opp. Sistnevnte har vært ledende innen informasjonssøk på Internett i mange år.

I 1997 opprettet Sergey Brin og Larry Page Googles søkemotor som en del av et forskningsprosjekt ved Stanford University. Google er for tiden den mest populære søkemotoren i verden!

I september 1997 ble Yandex-søkemotoren, som er den mest populære på det russiskspråklige Internett, offisielt annonsert.

For tiden er det tre internasjonale hovedsøkemotorer – Google, Yahoo og MSN, som har sine egne databaser og søkealgoritmer. De fleste andre søkemotorer (som det er et stort antall av) bruker i en eller annen form resultatene til de tre oppførte. For eksempel bruker AOL-søk (search.aol.com) Google-databasen, mens AltaVista, Lycos og AllTheWeb bruker Yahoo-databasen.

Sammensetning og prinsipper for drift av søkesystemet

I Russland er hovedsøkemotoren Yandex, etterfulgt av Rambler.ru, Google.ru, Aport.ru, Mail.ru. Dessuten på dette øyeblikket, Mail.ru bruker Yandex søkemotor og database.

Nesten alle store søkemotorer har sin egen struktur, forskjellig fra andre. Det er imidlertid mulig å identifisere felles for alle søkemotorer hovedkomponenter. Forskjeller i struktur kan bare være i form av implementering av mekanismene for interaksjon mellom disse komponentene.

Indekseringsmodul

Indekseringsmodulen består av tre hjelpeprogrammer (roboter):

Edderkopp – et program utviklet for å laste ned nettsider. Edderkoppen laster ned siden og henter alle interne lenker fra den siden. HTML-koden for hver side lastes ned. Roboter bruker HTTP-protokoller for å laste ned sider. Edderkoppen fungerer som følger. Roboten sender forespørselen "get/path/document" og noen andre HTTP-forespørselskommandoer til serveren. Som svar mottar roboten en tekststrøm som inneholder tjenesteinformasjon og selve dokumentet.

    Side URL

    dato siden ble lastet ned

    Server respons http header

    sidetekst (html-kode)

Crawler ("reisende" edderkopp) – et program som automatisk følger alle lenker som finnes på siden. Velger alle lenker på siden. Dens jobb er å bestemme hvor edderkoppen skal gå videre, basert på lenker eller basert på en forhåndsbestemt adresseliste. Crawler, følger lenkene som er funnet, søker etter nye dokumenter som fortsatt er ukjente for søkemotoren.

Indekser (robotindekserer) - et program som analyserer nettsider lastet ned av edderkopper. Indekseren analyserer siden inn i dens komponentdeler og analyserer dem ved hjelp av sine egne leksikalske og morfologiske algoritmer. Ulike sideelementer blir analysert, for eksempel tekst, overskrifter, lenker, struktur- og stilfunksjoner, spesielle HTML-tagger, etc.

Dermed lar indekseringsmodulen deg gjennomsøke et gitt sett med ressurser ved å bruke lenker, laste ned påkjørte sider, trekke ut lenker til nye sider fra mottatte dokumenter og utføre en fullstendig analyse av disse dokumentene.

Database

En database, eller søkemotorindeks, er et datalagringssystem, en informasjonsarray der spesialkonverterte parametere for alle dokumenter som er lastet ned og behandlet av indekseringsmodulen lagres.

Søk server

Søkeserveren er det viktigste elementet hele systemet, siden kvaliteten og hastigheten på søket avhenger direkte av algoritmene som ligger til grunn for funksjonen.

Søkeserveren fungerer som følger:

    Forespørselen mottatt fra brukeren er gjenstand for morfologisk analyse. Informasjonsmiljøet til hvert dokument som finnes i databasen genereres (som deretter vil vises i form av en kodebit, det vil si tilsvarende forespørselen tekstinformasjon på søkeresultatsiden).

    De mottatte dataene overføres som inndataparametere spesiell rangeringsmodul. Data behandles for alle dokumenter, som et resultat av at hvert dokument har sin egen vurdering som karakteriserer relevansen til spørringen som er lagt inn av brukeren og de ulike komponentene i dette dokumentet som er lagret i søkemotorindeksen.

    Avhengig av brukerens valg, kan denne vurderingen justeres av tilleggsbetingelser (for eksempel såkalt "avansert søk").

    Deretter genereres en kodebit, det vil si at for hvert dokument som er funnet, hentes tittelen, et kort sammendrag som passer best med søket, og en lenke til selve dokumentet fra dokumenttabellen, og ordene som ble funnet utheves.

    De resulterende søkeresultatene overføres til brukeren i form av en SERP (Search Engine Result Page) – en søkeresultatside.

Som du kan se, er alle disse komponentene nært knyttet til hverandre og fungerer i samspill, og danner en klar, ganske kompleks mekanisme for driften av søkesystemet, som krever enorme mengder ressurser.

Ingen søkemotor dekker alle Internett-ressurser.

Hver søkemotor samler inn informasjon om Internett-ressurser ved å bruke sine egne unike metoder og danner sin egen periodisk oppdaterte database. Tilgang til denne databasen er gitt til brukeren.

Søkemotorer implementerer to måter å søke etter en ressurs på:

    Søk etter emne kataloger - informasjon presentert i skjemaet hierarkisk struktur. På øvre nivå- generelle kategorier ("Internett", "Business", "Kunst", "Utdanning", etc.), på neste nivå er kategoriene delt inn i seksjoner, etc. Det laveste nivået er lenker til bestemte nettsider eller andre informasjonsressurser.

    Nøkkelordsøk (indekssøk eller detaljert søk) – brukeren sender til søkemotoren be om, bestående av nøkkelord. System returnerer til brukeren en liste over ressurser funnet på forespørsel.

De fleste søkemotorer kombinerer begge søkemetodene.

Søkemotorer kan være lokale, globale, regionale og spesialiserte.

I den russiske delen av Internett (Runet) er de mest populære søkemotorene for generell bruk Rambler (www.rambler.ru), Yandex (www.yandex.ru), Aport (www.aport.ru), Google (www. google.ru).

De fleste søkemotorerimplementert i form av portaler.

Portal (fra engelsk.portal - hovedinngang, gate) er et nettsted som integrerer ulike Internett-tjenester: søkeverktøy, e-post, nyheter, ordbøker, etc.

Portaler kan være spesialiserte (som,www. museum. ru) og generelt (f.eks.www. km. ru).

Søk etter nøkkelord

Settet med nøkkelord som brukes til å søke kalles også søkekriteriet eller søkeemnet.

En forespørsel kan bestå av enten ett ord eller en kombinasjon av ord kombinert av operatører - symboler som systemet bestemmer hvilken handling det skal utføre. For eksempel: forespørselen "Moskva St. Petersburg" inneholder AND-operatoren (dette er hvordan et mellomrom oppfattes), som indikerer at man bør søke etter dokumenter som inneholder begge ordene - Moskva og St. Petersburg.

For at søket skal være relevant (fra engelsk relevant - relevant, relevant), bør flere generelle regler tas i betraktning:

    Uansett hvilken form ordet brukes i søket, tar søket hensyn til alle ordformene i henhold til reglene for det russiske språket. For eksempel vil søket «billett» også finne ordene «billett», «billett» osv.

    Store bokstaver bør kun brukes i egennavn for å unngå å se unødvendige referanser. På forespørsel fra "smeder", for eksempel, vil det bli funnet dokumenter som snakker om både smeder og Kuznetsovs.

    Det er tilrådelig å begrense søket med noen få nøkkelord.

    Hvis den nødvendige adressen ikke er blant de første tjue adressene som ble funnet, bør du endre forespørselen.

Hver søkemotor bruker sitt eget søkespråk. For å bli kjent med det, bruk den innebygde hjelpen til søkemotoren

Store nettsteder kan ha innebygde systemer for informasjonsinnhenting på nettsidene sine.

Forespørsler i slike søkesystemer bygges som regel etter de samme reglene som i globale søkemotorer, men kjennskap til hjelpen her vil ikke være overflødig.

Avansert søk

Søkemotorer kan gi en mekanisme for brukeren å lage komplekst søk. Følger en lenke Avansert søk gjør det mulig å redigere søkeparametere, spesifisere tilleggsparametre og velge det mest praktiske skjemaet for visning av søkeresultater. Det følgende beskriver parametrene som kan stilles inn under et avansert søk i Yanex- og Rambler-systemene.

Parameterbeskrivelse

Navn i Yandex

Navn iRambler

Hvor du skal lete søkeord(dokumenttittel, brødtekst osv.)

Ordbok filter

Søk med tekst...

Hvilke ord bør eller ikke bør være til stede i dokumentet og hvor nøyaktig samsvaret skal være

Ordbok filter

Søk etter søkeord... Ekskluder dokumenter som inneholder følgende ord...

Hvor langt fra hverandre bør søkeord plasseres?

Ordbok filter

Avstand mellom søkeord...

Begrensning på dokumentdato

Dokumentdato...

Begrens søket til ett eller flere nettsteder

Nettsted/Topp

Søk kun i dokumenter på følgende nettsteder...

Begrenser søk etter dokumentspråk

Dokumentspråk...

Søk i dokumenter som inneholder et bilde med et bestemt navn eller bildetekst

Bilde

Søk etter sider som inneholder gjenstander

Spesielle gjenstander

Søkeresultat presentasjonsskjema

Utgaveformat

Viser søkeresultater

Noen søkemotorer (for eksempel Yandex) lar deg legge inn søk på naturlig språk. Du skriver det du trenger å finne (for eksempel: bestilling av togbilletter fra Moskva til St. Petersburg). Systemet analyserer forespørselen og produserer resultatet. Hvis du ikke er fornøyd med det, bytt til søkespråket.

World Wide Web (www)

Etter hvert som Internett utviklet seg, ble mer og mer informasjon involvert i sirkulasjonen, og det ble stadig vanskeligere å navigere på Internett. Da oppsto oppgaven å lage en enkel og forståelig måte å organisere informasjon som legges ut på internettsider. Den nye www (world wide web)-tjenesten har taklet denne oppgaven fullt ut.

Verdensveven er et system av dokumenter med tekst og grafisk informasjon, plassert på internettsider og sammenkoblet med hyperkoblinger. Kanskje denne tjenesten er den mest populære, og for mange brukere er den synonymt med selve ordet INTErNET. Ofte forveksler nybegynnere to begreper - Internett og WWW (eller Web). Det bør huskes at WWW bare er en av de mange tjenestene som tilbys Internett-brukere.

Hovedideen som ble brukt i utviklingen av www-systemet var er ideen om å få tilgang til informasjon ved hjelp av hypertekstlenker. Essensen er å inkludere i teksten i dokumentet lenker til andre dokumenter, som kan være plassert enten på samme eller på eksterne informasjonsservere.

Historien til www begynner fra øyeblikket da en ansatt i den berømte vitenskapelige organisasjonen CErN Berners-Lee i 1989 foreslo til ledelsen sin å opprette en database i form av et informasjonsnettverk som skulle bestå av dokumenter som inkluderte både selve informasjonen og lenker til andre dokumenter. Slike dokumenter er ikke annet enn hypertekst.

En annen mulighet som skiller www fra andre typer tjenester er at du gjennom dette systemet kan få tilgang til nesten alle andre typer Internett-tjeneste som FTP, Gopher, Telnet.

WWW er et multimediasystem. Dette betyr at med ved å bruke www Du kan for eksempel se en video om historiske monumenter eller finne informasjon om fotball-VM. Det er mulig å få tilgang til bibliotekinformasjon og nyere fotografier av kloden tatt for fem minutter siden av meteorologiske satellitter, sammen med.

Ideen om å organisere informasjon i form av hypertekst er ikke ny. Hypertekst levde lenge før datamaskinen kom. Det enkleste eksemplet på ikke-datamaskinhypertekst er leksikon. Noen ord i artikler er merket med kursiv. Dette betyr at du kan referere til den relaterte artikkelen og få mer detaljert informasjon. Men hvis du trenger å bla i en hypertekst som ikke er datamaskin, er det øyeblikkelig å følge en hypertekstkobling på skjermen. Du trenger bare å klikke på lenkeordet.

Hovedfortjenesten til ovennevnte Tim Berners-Lee er at han ikke bare fremmet ideen om å lage et informasjonssystem basert på hypertekst, men også foreslo en rekke metoder som dannet grunnlaget for fremtidens www-tjeneste .

I 1991 begynte ideene som oppsto i CErN å bli aktivt utviklet av Center for Supercomputing Applications (NCSA). Det er NCSA som lager hypertekstspråket html-dokumenter, samt Mosaic-programmet designet for å se dem. Mosaic, utviklet av Mark Andersen, ble den første nettleseren og åpnet ny klasse programvareprodukter.

I 1994 begynte antallet www-servere å vokse raskt og den nye Internett-tjenesten fikk ikke bare verdensomspennende anerkjennelse, men trakk også folk til Internett stor mengde nye brukere.

La oss nå gi de grunnleggende definisjonene.

www– dette er et sett med nettsider som ligger på internettsider og koblet sammen med hyperkoblinger (eller ganske enkelt lenker).

nettside er en strukturell enhet av www, som inkluderer den faktiske informasjonen (tekst og grafikk) og lenker til andre sider.

nettsted– dette er nettsider fysisk plassert på én Internett-node.

Hyperlenkesystemet www er basert på at enkelte utvalgte deler av ett dokument (som kan være deler av tekst eller illustrasjoner) fungerer som lenker til andre dokumenter som er logisk relatert til dem.

I dette tilfellet kan de dokumentene som lenkes til, være lokalisert både lokalt og på ekstern datamaskin. I tillegg er tradisjonelle hypertekstlenker også mulig - dette er lenker innenfor samme dokument.

Tilknyttede dokumenter kan på sin side inneholde kryssreferanser til hverandre og til andre informasjonsressurser. Dermed er det mulig å samle til en enkelt informasjonsrom dokumenter om lignende emner. (For eksempel dokumenter som inneholder medisinsk informasjon.)

Arkitektur www

Arkitekturen til www, som arkitekturen til mange andre typer Internett-tjenester, er bygget på prinsippet klient server.

Hovedoppgaven til serverprogrammet er organiseringen av tilgang til informasjon som er lagret på datamaskinen som dette programmet kjører på. Etter oppstart fungerer serverprogrammet i modus for å vente på forespørsler fra klientprogrammer. Vanligvis brukes nettlesere som klientprogrammer, som brukes av vanlige www-brukere. Når et slikt program trenger å hente litt informasjon fra serveren (vanligvis er dette dokumenter som er lagret der), sender det en tilsvarende forespørsel til serveren. Med tilstrekkelige tilgangsrettigheter etableres en forbindelse mellom programmene, og serverprogrammet sender et svar på forespørselen til klientprogrammet. Deretter brytes forbindelsen som er etablert mellom dem.

For å overføre informasjon mellom programmer brukes HTTP-protokollen (Hypertext Transfer Protocol).

www-serverfunksjoner

www-server er et program som kjører på vertsdatamaskinen og behandler forespørsler som kommer fra www-klienter. Når du mottar en forespørsel fra en www-klient, oppretter dette programmet en forbindelse basert på TCP/IP-transportprotokollen og utveksler informasjon via HTTP-protokoll. I tillegg bestemmer serveren tilgangsrettigheter til dokumentene som ligger på den.

For å få tilgang til informasjon som ikke kan behandles av serveren direkte, brukes den låsesystem. Ved hjelp av en spesiell CGI-grensesnitt(Common Gateway Interface) for utveksling av informasjon med gatewayer, har www-serveren muligheten til å motta informasjon fra kilder som ville være utilgjengelige for andre typer Internett-tjenester. Samtidig, for sluttbrukeren, er driften av gatewayene "gjennomsiktig", det vil si at når han ser nettressurser i favorittnettleseren hans, vil en uerfaren bruker ikke en gang legge merke til at noe informasjon ble presentert for ham ved hjelp av gatewaysystemet



www klientfunksjoner

Det er to hovedtyper av www-klienter: nettlesere og hjelpeapplikasjoner.

nettlesere brukes til å jobbe direkte med www og hente informasjon derfra.

Tjeneste webapplikasjoner kan kommunisere med serveren enten for å få statistikk eller for å indeksere informasjonen der. (Det er slik informasjon kommer inn i søkemotordatabaser.) I tillegg finnes det også tjenestewebklienter, hvis arbeid er knyttet til den tekniske siden ved å lagre informasjon på en gitt server.