Arkiverede internetsider. Sådan udtrækkes unikt indhold fra et webarkiv

Hilsen, kære bloglæsere. Vil du vide, hvordan du får information om, hvad der var på et websted for et år siden eller en måned siden, men som allerede er blevet slettet i dag? Så læs artiklen og brug viden i praksis. Jeg viser dig, hvordan du kan se gamle webstedsindlæg, der er skjult af ejeren.

Der er helt sikkert mange mennesker, der har tænkt over, hvordan man kan se et websteds arkiv på internettet. Denne funktion vil være nyttig for alle, der har kørt deres egen ressource i mange år, som har flere websteder, eller som ønsker at gendanne et gammelt websted. Mærkeligt nok eksisterer en sådan mulighed og har været det længe.

Archive.org er et arkiv over alle internetwebsteder, der fungerer som et onlinebibliotek. Projektets begyndelse går tilbage til 1996, og dets oprindelsessted er San Francisco. På det tidspunkt var tjenesten ikke kun unik, men også praktisk talt ubrugelig for mange, fordi internettet var meget dårligt fordelt, og der var meget få hjemmesider.

med omdeling Internettet Arkivet opnåede stor popularitet og blev en slags tidsmaskine, da det gjorde det muligt at se selv eksisterende web websteder.

Nu har Archive.org-biblioteket en enorm lagerplads og tilbyder gratis adgang til filer for alle. I 2017 indeholder biblioteket allerede næsten 90 milliarder websider, men på trods af dette kan du næsten øjeblikkeligt finde ud af data om ethvert websted ved at indtaste dets adresse i søgefeltet.

Hvornår og hvorfor ender et websted i arkivet over internetsider?

Efter oprettelse af et websted kan det ende i Archive.org enten med det samme eller efter noget tid, og det sker, at selv et fungerende websted ikke er der. Betingelserne for at din internetressource kan medtages i arkivet er som følger:

  • fravær i robots.txt-filen af ​​en kommando for at forbyde dens indeksering

(Bruger-agent:ia_archiver

Disallow: /);

  • tilstedeværelsen på ressourcen af ​​links til søgemaskiner eller populære tjenester;
  • at flytte til et websted ved hjælp af andre brugeres søgemaskiner.
Hvordan kan jeg bruge det som arkiver?

Archive.org butikker:

  • tekstmateriale;
  • lydfiler;
  • videofiler;
  • fotos og billeder;
  • links.

Arkivet giver dig mulighed for at:

  • Udforsk hele dit websteds historie. Hvis oplysningerne på den opdateres med jævne mellemrum, og siden indeholder snesevis af sider, kan det nogle gange være svært at finde information. Det er her arkivet af internetsider vil komme til undsætning.
  • Gendan selve webstedet eller nogle af dets sider, hvis du ikke har lavet sikkerhedskopier.
  • Find unikt indhold for dit websted. Sandt nok kan netop dette indhold kun tages fra ressourcer, der ikke længere eksisterer, da det, der præsenteres på eksisterende, som vi ved, ikke vil være unikt. Derudover skal du kende webstedsadressen for at finde den og hente eventuelle oplysninger fra arkivet.
Instruktioner til at arbejde med Archive.org

Funktionsprincippet for Archive.org-tjenesten er meget enkelt. For at finde data om et websted skal du blot angive dets adresse i linjen WaybackMachine (Webarchive Machine).

Lad os se på webstedets arkiv ved at bruge min blog som eksempel. Tryk på Enter.

Bemærk. Hvis vi ikke straks indsætter adressen, men skriver den, vises andre sider med lignende navne under søgefeltet. Denne funktion er nyttig, hvis du for eksempel har glemt navnet på den ressource, du ledte efter.

En side med data åbnes. Under webstedsnavnet ser vi oplysninger om, hvor mange gange siden blev arkiveret og hvornår. Som du kan se, fandt den første arkivering sted den 18. juni 2014, og den sidste den 2. oktober 2016. Disse datoer er på ingen måde relateret til de ændringer, der finder sted på selve siden, for hvornår arkiveringen vil finde sted bestemmes af WebArchive selv.

For at se nærmere på alle ændringerne eller se den oprindelige visning af webstedet, skal du blot vælge årstal og derefter klikke på dato og måned i kalenderen.

Klik på den ældste dato. Systemet fører os til selve bloggen, hvor dens originale grænseflade og indhold vil være synligt. Jeg har også ændret designet på nogle elementer, men de allerførste artikler er nu tabt, og det bliver ikke så nemt at finde dem med det samme.

På denne måde kan du se alle de ændringer, der nogensinde er sket i bloggen, eller finde nødvendige oplysninger.

Sådan finder du unikt indhold ved hjælp af Webarchive Machine

Muligheden for at se et arkiv af gamle websteder giver enhver mulighed for at bruge de data, der var på det uden frygt for ikke-unikitet. Faktum er, at efter et websteds "død", bliver dets indhold ikke længere kontrolleret af søgemaskiner, hvilket betyder, at det igen er unikt, og det eneste problem, der er tilbage, er at finde de samme websteder.

Hvis du vil tage indhold fra din gamle ressource eller side, som du har brugt, men som ikke eksisterer længere, vil der ikke være nogen problemer, for du husker sikkert adressen. Nå, hvis du har til hensigt at søge blandt alle de "døde" websteder, kan du bruge specielle tjenester, der giver lister med ledige domæner, det vil sige med adresser på websteder, der ikke længere eksisterer.

Jeg åbnede en af ​​disse tjenester, kopierede det første domæne og indtastede WaybackMachine i Archive.org, men det gav ikke noget resultat. Den samme historie gentog sig med de fire efterfølgende domæner. Endelig afslørede en søgning efter den sjette adresse oplysninger om webstedet.

At Arcgive.org ikke åbner alle døde sider kan skyldes flere årsager. Så måske blev domænet købt, men selve webstedet var aldrig fyldt med noget indhold. Dette er tilfældet med de fleste af domænenavnene på udgivelseslister. En anden grund er, at webstedets skaber fjernede sin ressource fra selve arkivet. Det kunne også ske, og endelig var siden måske slet ikke i webarkivet.

Så det lykkedes os endelig at finde et "dødt" websted, hvorfra vi kan læse information. Som du kan se, har siden eksisteret siden 1999, og i løbet af den tid er der lavet 269 arkiver på den.

Vi kan åbne ressourcen og tage information derfra. For at gøre dette, som det er tilfældet med eksisterende websteder, vælger vi blot en hvilken som helst dato. Denne handlingåbner hovedsiden, som den var på den dato, vi valgte. Hvis der ikke er noget brugbart her, bør du tjekke andre datoer.

Efter nyttigt indhold fundet, bør du helt sikkert først tjekke det for unikhed, da for det første, nogen før du allerede kunne have brugt det, og for det andet måske stadig spores af søgemaskiner.

Sådan gendanner du et websted ved hjælp af Archive.org

Dem, der har kørt hjemmesider i lang tid, ved, at de skal gøre det med jævne mellemrum backup. Men de, der ikke har tænkt over dette, kan stå over for problemet med at miste websider eller miste funktionaliteten på et helt websted. I dette tilfælde vil Arkivet komme til undsætning igen, men hvis du har en ressource med stort beløb sider, vil restaurering tage meget lang tid. Et andet problem, der kan opstå, er muligheden for, at nogle oplysninger går tabt, eller at designet bliver forvrænget.

Hvis du beslutter dig for at gendanne dit websted ved hjælp af Archive.org, bliver du nødt til at udføre handlinger på hver side, hvilket er spild af tid.

Så for at gendanne webstedet skal vi erstatte det interne sidelink med det originale. Hvis vi kigger ind adresse bar, vil linket se ud som: http://web.archive.org/web/20161002194015/http://site/, det vil sige, at oplysninger fra en sådan side ikke bare kan kopieres.

For at gøre dette muligt, kan du blot manuelt fjerne begyndelsen af ​​linkene, men når der er hundredvis af sider, bliver dette en ret møjsommelig opgave. Derfor vil vi bruge muligheden for selve Arkivet til at erstatte links. For at gøre dette skal du indsætte "id_" i adresselinjen efter at have indtastet tallene og trykke på Enter. Det vil sige, i stedet for det originale link i linjen skulle der være: http://web.archive..

Nu er linket originalt, og du kan blot kopiere tekster, billeder og andre filer fra Arkivets kildekode. Vi udfører den samme handling med andre sider på webstedet. Selvfølgelig vil selv denne mulighed tage meget tid, men hvis ikke sikkerhedskopier, er det usandsynligt, at det vil være muligt at gendanne webstedet på nogen anden måde.

Sådan fjerner du et websted fra Archive.org

De fleste hjemmesideskabere ønsker, at deres ressource havner i Arkivet, men der er også tilfælde, hvor du tværtimod skal sikre dig, at den enten ikke ender der eller bliver slettet. InternetArchive tilbyder selv en meget enkel metode til dette. Du skal blot indstille en kommando til tjenesterobotten, som siden ikke behøver at være inkluderet i Arkivet, det vil sige skrive følgende i robots.txt:

Bruger-agent: ia_archiver
Disallow: /

At oprette et arkiv over alle websteder er således en hjælp for mange internetbrugere til at finde information og gendanne gamle ressourcer. Det er med det formål at bevare information, at Archive.org blev oprettet, og det er derfor, det bevarer arkiver over websteder, der findes i i øjeblikket, og giver mulighed for at bruge data fra "døde" eller forladte ressourcer.

Jeg håber, at materialet var nyttigt, og du vil ikke glemme at genindsende artiklen og abonnere på bloggens nyhedsbrev. Alt det bedste -))).

Med venlig hilsen Galiulin Ruslan.

Stødte på knækket link. Linket var til en manual til opsætning af sikkerhedskopier til siden. Emnet var så interessant, at jeg gik ind på archive.org for at se, hvilken slags manual det var. Der opdagede jeg en blog om en mand, der engang var involveret i hjemmesideopbygning og nogle emner på internettet. Men tilsyneladende opgav han det hele. Bloggen eksisterede indtil december 2013, så var der en stump i endnu et år. Jeg vil gå videre og tjekke webstedets domæne. Han viste sig at være fri. Faktum er, at jeg har været interesseret i sådanne sider i lang tid, fra tid til anden går jeg til telderi og leder efter en billig it-relateret side at købe. Indtil videre har jeg ikke fundet noget passende i forhold til pris/kvalitet.

Hvorfor har jeg brug for sådan en side? Jeg er ved at udklække en plan om at lave en form for fusion eller opkøb. Forbind sådan en side med denne. For at øge trafikken på den og andre lækkerier. Nogen vil sige - hvad med diversificering? Selvfølgelig er diversificering en god ting. Men der er endnu ikke noget at diversificere, vi skal først udvikle noget. Og derfor ser jeg ideen om at fusionere websteder som meget lovende.

Så det er hele baggrunden. Jeg besluttede at gendanne det websted, jeg fandt. Det blev til omkring 300 sider. Jeg registrerede domænet og begyndte at lede efter et værktøj til at downloade siden.

Hvordan gendanner man et websted fra et webarkiv?

Fremgangsmåden er enkel. Tag den og download den. Men sagen kompliceres af, at der er mange sider, og alle vil være i form af statiske html-filer. Det vil være en smerte at downloade manuelt. Jeg begyndte at spørge folk, der var involveret i denne form for arbejde. Folk anbefalede r-tools.org. Det viste sig at være betalt. Jeg begyndte at google det, fordi jeg ved, hvad det er enkel procedure, og jeg ville ikke betale for det, selvom det var sådan her lille gebyr. Løsningen blev fundet meget hurtigt i form af en rubinapplikation. Som jeg forventede, er alt meget enkelt, instruktioner er inkluderet.

Installer et hjælpeprogram til at gendanne websteder fra archive.org

Uden at tænke to gange installerer jeg alt på serveren og starter gendannelsen.

#installer rubin:

apt-get install ruby

#Installer selve værktøjet:

gem installer wayback_machine_downloader

Vi begynder at downloade siden fra webarkivet

wayback_machine_downloader http://www.site.ru --timestamp 20131209110704

Her kan du angive snapshot-mærket i tidsstempelindstillingen. Fordi et websted kan have snesevis eller hundredvis af billeder i sit webarkiv. Jeg angiver den sidste, da siden stadig var i live, logisk. Hjælpeprogrammet bestemmer straks antallet af sider og viser de downloadede sider til konsollen.

Alt downloades og gemmes, vi får en spredning af statiske filer i mappen. Opret en mappe i på det rigtige sted, og læg de downloadede filer der. Jeg kan godt lide at bruge rsync:

rsync -avh ./websites/www.site.com/ /var/www/site.com/

Hvis du ikke er bekendt med hende endnu, anbefaler jeg det. Dette er en udveksling fra Mirafox, som du måske allerede kender fra andre projekter for webmastere (Telderi, Miralinks, Gogetlinks). På Kwork udvælges freelancere ikke ud fra forslag opslået af potentielle kunder, men derimod indsender de selv forslag, som kunden selv kan vælge. Tjenestens "trick" er basisomkostning enhver quork (som freelancer-tilbud kaldes) er altid 500 rubler.

Nå, for dem, der vil finde ud af en masse bogstaver med uforståelige kommandoer og scripts og gøre det selv - vi fortsætter.

Oprettelse af nginx-konfiguration for det gendannede websted

Jeg laver en universel konfiguration med et øje til fremtiden - php-behandling. Du kan få brug for det, hvis du vil genoplive siden og forbedre funktionaliteten, for eksempel formularer til afsendelse af beskeder, abonnementer.

Men generelt set minimum konfiguration for et statisk websted vil det se sådan ud:

Server (
servernavn site.ru www.site.ru *.site.ru;
root /var/www/site.ru;
indeks index.html;

gzip på;
gzip_disable "msie6";
gzip_types text/plain text/css application/json application/x-javascript text/xml application/xml application/xml+rss text/javascript application/javascript;

location = /robots.txt (
tillade alle;
log_not_found off;
access_log off;
}

placering ~* \.(js|css|png|jpg|jpeg|gif|ico|woff)$ (
udløber max;
log_not_found off;
}
}

Denne konfiguration inkluderer også komprimering og caching i browseren.

Genstart webserveren:

service nginx genstart

Hvordan tjekker man en hjemmeside uden at ændre DNS?

I princippet kan du vente på DNS-opdateringen efter at have registreret domænet. Men jeg vil gerne se resultatet hurtigst muligt. Og du kan begynde at arbejde med det samme. Der er en enkel måde at gøre dette på - skriv server-IP'en ned for det ønskede domæne V hosts-fil, en rekord som denne:

10.10.1.1 site.ru

Herefter åbnes det ønskede websted udelukkende på din computer.

Sådan her. Jeg føler mig som en necromancer :)

Webstedet vil blive vist nøjagtigt, som dets brugere så det. Alle links vil virke, så længe du har alt nødvendige filer. Måske vil nogle af dem gå i stykker, et eller andet sted vil der mangle billeder, stilarter eller noget andet. Men det er ikke meningen - trods alt er det vigtigste for ethvert websted indhold. Og det bliver højst sandsynligt.

Rensning af koden for det gendannede websted

Men det er ikke alt. Selvom du kan lade det være som det er. Men at opnå bedre effekt, giver det mening at rydde lidt op på den restaurerede plads. Dette er generelt det mest den svære del i det hele. Faktum er, at siden siden vil blive vist, som dens brugere så det, vil der være en masse alverdens affald i sidekoden. Det er primært annoncering, bannere og skranker. Også nogle elementer, der er ubrugelige på et statisk websted. For eksempel et link til at logge ind på webstedets administrationsområde. Formularer til afsendelse af kommentarer, abonnementer, nogle knapper og andre elementer, der er arvet fra det dynamiske CMS, som siden fungerede på før. I mit tilfælde var det WordPress.

Sådan fjerner du fragmenter html kode på mange statiske sider?

Hvordan kan alt dette fjernes? Meget simpelt. Kig i koden og fjern blot det, der er unødvendigt. Det er nemt at sige. Men vi har flere hundrede sider. Derfor er der brug for magi her.

find ./site.ru/ -type f -navn "*.html" -exec sed -i "s|

Indgang

||g"
{} \;

Med denne konstruktion kan du fjerne ALLE html tags fra en fil. Det nemmeste. Du vil derefter have tekstfiler

sed -e "s/]*>//g" test.html

Den normale tilgang er, hvis du bare downloader indhold og derefter kun bruger nyttigt indhold til noget andet – til at skrive nye artikler, til døråbninger eller noget andet.

Men det her passer mig ikke, jeg vil først genskabe siden fuldstændigt og se, hvordan den kommer til live, og om den overhovedet vil eksistere. Derfor tager det mig et par timers omhyggeligt arbejde at rydde op i koden. Jeg åbner webstedets sider og kigger med en debugger kilde sider, finder jeg javascript, bannere, tællere, formularer, som jeg ikke har brug for.

Sådan fjerner jeg Liveinternet-tælleren fra alle sider på mit statiske websted:

find site.ru/ -type f -navn "*.html" -exec sed -i "//,//d" () \;

find site.ru/ -type f -navn "*.html" -exec sed -i "s||g" (
} \;

På trods af de konstruktioner, der kan virke skræmmende for en uvidende person, er disse ret simple ting, da denne tæller har unikke kommentartags, hvorved vi bestemmer den del af koden, der skal slettes, og angiver dem som mønstre.

I nogle tilfælde er du nødt til at bryde hjernen for at skære det unødvendige ud og ikke røre det, du har brug for, fordi nogle elementer kan gentages på siderne. For eksempel at slette en tæller Google Analytics Jeg var nødt til at skrive sådan noget:

Først sletter jeg linjen, hvorfra tælleren begynder. Denne kommando fjerner linjen over var gaJsHost-mønsteret, da jeg kun behøver at fjerne den på dette sted og ikke røre den andre steder:

find site.ru/ -type f -navn "*.html" -exec sed -i -n "/var gaJsHost/(x;d;);1h;1!(x;p;);$(x;p ;)" () \;

Nu skærer vi resten af ​​delen ud, som bliver let at identificere ved de unikke mønstre i første og sidste linje:

find site.ru/ -type f -navn "*.html" -exec sed -i "/var gaJsHost/,/catch(err)/d" () \;

På samme måde fjerner jeg formularen til tilføjelse af kommentarer:

Jeg rydder 4 linjer med ikke-unikke afsluttende tags efter linjen med et unikt mønster:

find theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/block_links/(N;N;N;N;s/\n.*//;)" () \;

Og nu skærer jeg en temmelig stor blok på 30 linjer ud, hvilket indikerer de unikke mønstre af dens første og sidste linje:

find theredhaired.ru/ -type f -iname "*.html" -exec sed -i "/ Subscription/,/block_links/d" () \;

Du kan selvfølgelig prøve at løse disse sidste par sager ved hjælp af multiline-mønstre, men jeg mestrede dem aldrig, uanset hvor meget jeg googlede. Jeg fandt mange eksempler med flere linjer, men de er alle enkle, uden specialtegn eller escape-tegn (tabs, linjeskift).

Måske vil al denne rengøring være lettere at udføre i PHP eller endda perl, hvor tekstbehandling er formålet. Men jeg kender dem desværre ikke, så jeg bruger bash og sed.

Jeg gjorde alt dette på separat eksemplar site med en masse iterationer, test, så det altid var muligt at rulle ændringer tilbage, gemte jeg kopier efter hver væsentlig ændring, igen ved hjælp af rsync.

Hvordan masseredigerer man titler og andre elementer på et statisk websted?

Da mit mål ikke bare er at genoplive webstedet, men at få det indekseret, rangeret i søgninger og endda få trafik fra søgning, er jeg nødt til at tænke på en form for SEO. De originale titler passer bestemt ikke til mig, så dem vil jeg gerne ændre. WordPress arvede %sitename% » %postname% ordningen. Desuden er vores webstedsnavn uklart - selve webstedets domæne. Den nemmeste mulighed er at klippe den første del af titlen ud. Men det virker heller ikke for mig. Så jeg vil ændre denne del af titlen til en vanskelig anmodning. Sådan gør jeg det:

Som du kan se, er der mange kontroller og gentagelser. Men i sidste ende bliver titlerne, hvad de har brug for. Du kan gætte, at jeg startede et forsøg på at indsamle trafik til dette websted baseret på anmodninger om gendannelse af websteder fra et webarkiv. Hvorfor har jeg brug for dette - jeg vil sørge for betalt service at gendanne sådanne websteder. Som du kan se, i I dette tilfælde Det er ret nemt at lave en erstatning. Det var muligt ikke at bøvle med flere muligheder, men at sammenfatte alt under én. Men jeg ville fjerne eller ændre unødvendige symboler, og da der var flere muligheder, ændrede jeg dem til flere af mine egne. Dette er SEO.

Nu vil jeg tilføje Yandex Metrica til alle html-filer på mit websted. Og samtidig oversætte det fra gammel ordning www på uden www.

Hvordan konverterer man en statisk hjemmeside fra www til ikke-www?

Dette gøres ved blot at erstatte:

find ./ -type f -iname '*.html' -exec sed -i 's/http:\/\/www.site.ru/http:\/\/site.ru/g' () \;

Så, for en sikkerheds skyld, vil vi i nginx-konfigurationen tilføje muligheden med www til omdirigeringen:

server (
servernavn www.site.ru;
returner 301 $skema://site.ru$request_uri;
}

Hvordan opretter man et sitemap.xml til et statisk websted?

Dette vil være nødvendigt, når vi tilføjer webstedet til søgemaskiner. Dette er meget vigtigt, da vores side er blevet gendannet, det kan mangle noget navigation, og der vil slet ikke være links til nogle sider. Sitemap udjævner dette punkt – selvom du ikke kan komme til siden ved at gå gennem selve sitet – ved at specificere det i sitemap.xml, vil vi tillade det at blive indekseret, hvilket potentielt kan føre trafik fra søgningen direkte til siden.

Derudover vil jeg efter nogen tid foretage en analyse af de resultater, jeg har opnået med denne side. Trafik, leads eller andet. Så følg med på siden, om 2-6 måneder vil du se fortsættelsen af ​​historien. Jeg viser dig statistikken, hvis der er en osv. Hvis du læser denne artikel seks måneder senere, og der stadig ikke er noget link til fortsættelsen, så mind mig om dette i kommentarerne, tak :)

Har du fundet ud af det, ikke?

Hvis du er inspireret, har fundet ud af det og vil gøre det selv - lav bue og respekt for dig. Jeg kan godt lide mennesker, der gerne vil forstå og forstå alt.

Hej kære læsere af bloggen. For ikke så længe siden skrev jeg om noget, der bestemt fortjener alle mulige smigrende epitet, på trods af dets små mangler og kritik af dets artikler fra det videnskabelige samfund.

Netop det faktum, at et non-profit projekt har arbejdet til gavn for hele internetsamfundet i årtier, fortjener stor respekt. Men der er også et lignende storstilet projekt på internettet, som, uden at modtage nogen indtægt fra det, spiller en meget vigtig rolle - det bevarer arkiver af websteder, videoer, lyd og trykte materialer.

Hvad der er bemærkelsesværdigt er, at den sidste kolonne på denne liste (som kan åbnes i Excel) vil vise antallet af arkiver, der er oprettet for hvert websted i webarkivet (du kan dog kontrollere tilgængeligheden af ​​et domæne i webarkivet i et antal af onlinetjenester for eksempel på denne eller på denne).

En liste over borgerlige domænenavne, der frigives eller allerede er frigivet, kan downloades fra dette link. Nå, så ser vi indholdet af de websteder, der blev gemt af webarkivet igennem, og forsøger at finde noget, der er værd. Derefter tjekker vi disse materialers unikke karakter (jeg gav linket lige ovenfor) og, hvis det lykkes, offentliggør vi dem på vores ressource eller sælger dem i nogle.

Ja, metoden er kedelig og er ikke testet af mig personligt. Men jeg tror, ​​at det med en vis grad af automatisering og hjernekraft kan producere godt output. Sandsynligvis har nogen allerede sat dette på stream. Og hvad synes du?

Held og lykke! Vi ses snart på bloggens sider

Du kan se flere videoer ved at gå til ");">

Du kan være interesseret

Sammenligning af websteder i SEObuilding.RU for gratis analyse af potentielle donorer ved køb af links
Gratis online service til at vælge smukke og gratis domæner til registrering (Frishki.ru)
Fotoaktier og fotobanker - 30 gratis juridiske kilder til fotos, billeder og ikoner
SEObuilding.RU - komplet gratis analyse af websteder med beregning af deres tillid, værdi og meget mere
Webstedsbekræftelse (analyse) - 85 onlinetjenester og programmer

Hvert websted er en historie, der har en begyndelse og en slutning. Men hvordan sporer man stadierne i projektets dannelse, dets livscyklus? Til disse formål er der særlig service, som kaldes et webarkiv. I denne artikel vil vi tale om præsentationen af ​​sådanne ressourcer, deres brug og muligheder.

Hvad er et webarkiv, og hvorfor er det nødvendigt?

Et webarkiv er et specialiseret websted, der er designet til at indsamle oplysninger om forskellige internetressourcer. Robotten gemmer automatisk en kopi af projekter og manuel tilstand, det hele afhænger af webstedet og dataindsamlingssystemet.

I øjeblikket er der flere dusin websteder med lignende mekanik og opgaver. Nogle af dem betragtes som private, andre er almennyttige projekter, der er åbne for offentligheden. Ressourcerne adskiller sig også fra hinanden i besøgshyppigheden, fuldstændigheden af ​​de lagrede oplysninger og mulighederne for at bruge den modtagne historik.

Som nogle eksperter bemærker, betragtes lagringssider for informationsflow som en vigtig komponent i Web 2.0. Altså en del af ideologien om udviklingen af ​​internettet, som er i konstant udvikling. Indsamlingsmekanikken er meget middelmådig, men der er ingen mere avancerede metoder eller analoger. Ved hjælp af et webarkiv kan du løse flere problemer: sporing af information over tid, gendannelse af et tabt websted, søgning efter information.

Hvordan bruger man webarkiv?

Som nævnt ovenfor er et webarkiv et websted, der leverer en bestemt slags søgetjeneste i historien. For at bruge projektet skal du:

  • Gå til en specialiseret ressource (f.eks. web.archive.org).
  • Indtast oplysninger til søgningen i specialfeltet. Det kunne være Domænenavn eller nøgleord.
  • Få relevante resultater. Dette vil være et eller flere websteder, som hver har en fast crawldato.
  • Ved at klikke på en dato, gå til den tilsvarende ressource og brug oplysningerne til personlige formål.
  • Vi taler om specialiserede websteder til at søge efter historiske optegnelser over projekter senere, så bliv hos os.

    Projekter, der giver webstedshistorik

    I dag er der flere projekter, der tilbyder tjenester til at finde gemte kopier. Her er nogle af dem:

  • Den mest populære og efterspurgte blandt brugerne er web.archive.org. Det præsenterede websted anses for at være det ældste på internettet; dets oprettelse går tilbage til 1996. Tjenesten indsamler data automatisk og manuelt, og al information hostes på enorme udenlandske servere.
  • Det næstmest populære websted er peeep.us. Ressourcen er meget interessant, fordi den kan bruges til at gemme en kopi informationsflow, som kun er tilgængelig for dig. Bemærk, at projektet arbejder med alle domænenavne og udvider grænserne for brugen af ​​webarkiver. Hvad angår fuldstændigheden af ​​oplysningerne, gemmer det præsenterede websted ikke billeder og rammer. Siden 2015 har det også været inkluderet på listen over forbudte produkter i Rusland.
  • Et lignende projekt som det ovenfor beskrevne er archive.is. Forskellene omfatter fuldstændigheden af ​​informationsindsamlingen samt muligheden for at gemme sider fra sociale netværk. Derfor, hvis du har mistet et indlæg eller interessant information, kan du søge gennem webarkivet.
  • Mulighed for brug af webarkiver

    Nu ved alle, hvad et webarkiv er, og hvilke websteder der tilbyder tjenester til at gemme kopier af projekter. Men mange forstår stadig ikke, hvordan man bruger de præsenterede oplysninger. Kapaciteten af ​​arkivdata er udtrykt som følger:

  • Valg af domænenavn. Det er ingen hemmelighed, at mange webmastere bruger allerede opgraderede domæner. Det er værd at forstå, at erfarne brugere sporer ikke kun målparametre, men også historien om tidligere brug. Enhver netværksbruger ønsker at vide, hvad de køber: om der tidligere var forbud eller sanktioner, om projektet var underlagt filtre.
  • Gendannelse af et websted fra arkiver. Nogle gange sker der en katastrofe, der truer eksistensen af ​​dit eget projekt. Manglen på rettidige sikkerhedskopier i hostingprofilen og en utilsigtet fejl kan føre til tragedie. Hvis dette sker, skal du ikke blive ked af det, for du kan bruge webarkivet. Vi vil tale om gendannelsesprocessen nedenfor.
  • Søg efter unikt indhold. Hver dag dør websteder fyldt med indhold på internettet. Dette sker med særlig konsistens, hvorfor en enorm informationsstrøm går tabt. Med tiden falder sådanne sider ud af indekset, og en ressourcestærk webmaster kan låne oplysningerne til et personligt projekt. Selvfølgelig er der et søgeproblem, men det er en sekundær bekymring.
  • Vi har set på de vigtigste funktioner, som webarkiver giver, nu er det tid til at gå videre til en mere detaljeret undersøgelse af individuelle elementer.

    Gendannelse af et websted fra et webarkiv

    Ingen er immune over for problemer med websteder. De fleste af dem løses ved hjælp af sikkerhedskopier. Men hvad hvis der ikke er nogen gemt kopi på hostingserveren? Brug webarkivet. For at gøre dette skal du:

  • Gå til den specialiserede ressource, vi talte om tidligere.
  • Indtast dit eget domænenavn i søgefeltet og åbn projektet i et nyt vindue.
  • Vælg det mest succesrige billede, som er placeret tættere på problemdatoen og har en fuldgyldig visning.
  • At rette interne links til lige linjer. For at gøre dette skal du bruge linket "http://web.archive.org/web/any_sequence_number_id_/Site name".
  • Kopi mistede oplysninger eller designdata, der skal anvendes til restaurering.
  • Bemærk, at processen er noget kedelig, i betragtning af arkivets hastighed. Derfor anbefaler vi, at ejere af store webressourcer tager backup oftere, hvilket vil spare tid og nerver.

    Vi leder efter unikt indhold til vores egen hjemmeside

    Nogle webmastere bruger interessant måde få en ny, ingen påkrævet indhold. Hver dag går hundredvis af websteder i glemmebogen, og information går tabt sammen med dem. For at blive indholdsejer skal du gøre følgende:

  • Indtast URL
    https://www.nic.ru/auction/forbuyer/download_list.shtml#buying i søgefeltet.
  • På domænenavnsauktionswebstedet skal du downloade filer med navnet ru.
  • Åbn modtagne filer fra ved hjælp af excel og begynde valg baseret på tilgængeligheden af ​​designinformation.
  • Indtast de projekter, der findes i listen på webarkivets søgeside.
  • Åbn øjebliksbilledet og få adgang til informationsstrømmen.
  • Vi anbefaler at overvåge indhold for plagiat, dette vil give dig mulighed for at finde virkelig værdige tekster. Og det er alt! Nu ved alle om mulighederne og metoderne til at bruge et webarkiv. Brug viden klogt og rentabelt.

    Vi løslod ny bog"Indholdsmarkedsføring i i sociale netværk: Sådan kommer du ind i dine abonnenters hoveder og får dem til at forelske sig i dit brand."

    Abonner

    Webarkiv er gratis platform, hvor alle de steder, der nogensinde er blevet oprettet, er samlet, og hvor der ikke er et forbud mod at bevare dem.


    Flere videoer på vores kanal - lær internetmarkedsføring med SEMANTICA

    Dette er et rigtigt bibliotek, hvor alle kan åbne en webressource, der interesserer dem, og se på dens indhold på den dato, hvor webarkivet besøgte webstedet og gemte en kopi.

    Introduktion til arkivorganisation eller hvordan Valery fandt gamle tekster fra webarkivet
    I 2010 oprettede Valery en hjemmeside, hvor han skrev artikler om internetmarkedsføring. Han skrev en af ​​dem om annoncering på Google (AdWords) i form af et kort resumé. Et par år senere havde han brug for denne information. Men siden med teksterne blev ved en fejl slettet af ham for noget tid siden. Det sker for alle.

    Valery vidste dog, hvordan han skulle komme ud af situationen. Han åbnede selvsikkert webarkivtjenesten, og søgelinjen indtastet den adresse, han havde brug for. Få øjeblikke senere læste han allerede det materiale, han havde brug for, og lidt senere gendannede han teksterne på sin hjemmeside.

    Historien om oprettelsen af ​​Internet Archive

    I 1996 oprettede Brewster Kyle, en amerikansk programmør, Internet Archive, hvor han begyndte at indsamle kopier af websteder med alle de oplysninger, der var indeholdt i dem. Disse blev fuldstændigt bevaret i i rigtig form sider, som om du havde åbnet det påkrævede websted i en browser.

    Alle kan bruge webarkivets data helt gratis. Da Brewster Kyle oprettede det, havde Brewster Kyle et hovedmål - at bevare de kulturelle og historiske værdier af internetrummet og skabe et omfattende elektronisk bibliotek.

    I 2001 blev hovedtjenesten Internet Archive Wayback Machine oprettet, som stadig kan findes i dag på https://archive.org. Det er her kopier af alle ind fri adgang at se.

    For ikke at være begrænset til en samling af websteder begyndte de i 1999 at arkivere tekster, billeder, lydoptagelser, videoer og software.

    I marts 2010, ved den årlige Free Software Awards, blev Internet Archive tildelt titlen som vinder i kategorien Project of Social Benefit.

    Biblioteket vokser hvert år, og allerede i august 2016 udgjorde Webarchive-volumen 502 milliarder kopier af websider. Alle er gemt på meget store servere i San Francisco, New Alexandria og Amsterdam.

    Alt om archive.org: hvordan man bruger tjenesten, og hvordan man får et websted fra et webarkiv

    Brewster Kyle skabte Internet Archive Wayback Machine, uden hvilken det er umuligt at forestille sig arbejdet med moderne internetmarkedsføring. Se historien for enhver portal, se hvordan de så ud visse sider tidligere, gendan din gamle webressource eller find nødvendigt og interessant indhold - alt dette kan gøres ved hjælp af Webarchive.

    Sådan får du vist webstedshistorik på archive.org

    Takket være , gemmer webarkivbiblioteket de fleste internetsider med alle deres sider. Den gemmer også alle dens ændringer. Således kan du se historikken for enhver webressource, selvom den ikke har eksisteret i lang tid.

    For at gøre dette skal du gå til https://web.archive.org/ og indtaste adressen på webressourcen i søgefeltet.

    Efter nogen tid vil webarkivet vise en kalender med datoerne for ændringer på denne side og information om dens oprettelse og antallet af ændringer for hele perioden.

    Ifølge de modtagne oplysninger kan det konstateres hjemmeside vores side blev først fundet af tjenesten den 24. maj 2014. Og fra det tidspunkt og frem til i dag er en kopi af den blevet gemt 38 gange. Datoer for ændringer på siden er markeret med blåt på kalenderen. For at se ændringshistorikken og se, hvordan en bestemt del af webressourcen så ud den dag, du er interesseret i, skal du vælge påkrævet periode i feedet med tidligere år, og en dato i kalenderen fra dem, tjenesten tilbyder.

    Om et øjeblik åbner webarkivet den ønskede version på sin platform, hvor du kan se, hvordan vores side så ud i sin oprindelige form.

    Ved at bruge kalenderen med pile helt øverst på skærmen kan du bladre gennem siderne i henhold til kronologien af ​​deres ændringer for at spore, hvordan udseende og deres indhold.

    Således kan du dykke ned i fortiden og se alle de ændringer, der er sket med den gennem dens eksistens.

    Hvorfor du måske ikke finder ud af på Webarchive, hvordan siden så ud før
    Det sker, at et websted ikke kan findes ved hjælp af Internet Archive Wayback Machine-tjenesten. Og dette sker af flere årsager:

    • indehaveren af ​​ophavsretten har besluttet at slette alle kopier;
    • webressourcen blev lukket i overensstemmelse med loven om beskyttelse af intellektuel ejendomsret;
    • V rodmappe Internetplatforme er der indført et forbud gennem robots.txt-filen

    For at siden til enhver tid kan være i webarkivet, anbefales det at tage forholdsregler og selv gemme det i Webarkivets bibliotek. For at gøre dette skal du i sektionen Gem side nu indtaste adressen på den webressource, du vil arkivere, og klikke på knappen Gem side.

    Af hensyn til sikkerheden og sikkerheden af ​​alle oplysninger er det således nødvendigt at gentage denne procedure med hver ændring. Dette vil give en 100% garanti for, at dine sider bliver gemt i lang tid.

    Sådan gendanner du et inaktivt websted fra et webarkiv

    Der er forskellige situationer, når browseren rapporterer, at en sådan og sådan en webservice ikke længere eksisterer. Men dataene skal hentes. Webarkiv vil hjælpe.

    Og for dette er der to muligheder. Den første er velegnet til gamle websteder, der er små i størrelse og godt indekseret. Bare udtræk dataene den nødvendige version. Dernæst gennemgås sidekoden, og linkene poleres manuelt. Processen er noget arbejdskrævende med hensyn til tid og trin. Derfor er der en anden, mere optimal måde.

    Den anden mulighed er ideel til dem, der ønsker at spare tid og løse downloadproblemet så hurtigt og nemt som muligt. For at gøre dette skal du åbne webstedsgendannelsestjenesten fra Webarchive - RoboTools. Indtast domænenavnet på den portal, du er interesseret i, og angiv datoen for dens gemte version. Efter nogen tid vil opgaven være fuldført, med alle sider udfyldt.

    Sådan finder du indhold fra et webarkiv

    Webarkiv er en vidunderlig kilde til at fylde webressourcer med fuldtekster. Der er mange sider, der af en række årsager er ophørt med at eksistere, men som indeholder nyttige og nødvendige oplysninger. Som ikke er inkluderet i indekserne søgemaskiner, og er i det væsentlige ikke-gentagende.

    Så der er gratis domæner, der gemmer meget interessant materiale. Alt du skal gøre er at finde passende indhold og tjekke dets unikke karakter. Dette er meget rentabelt, både økonomisk - fordi du ikke behøver at betale for forfatternes arbejde, og i tide - fordi alt indhold allerede er skrevet.

    Sådan forhindrer du et websted i at blive inkluderet i webarkivbiblioteket

    Der er situationer, hvor ejeren af ​​et websted værdsætter oplysningerne på hans portal, og han ikke ønsker, at det bliver tilgængeligt for en bred kreds. I sådanne situationer er der én enkel vej ud - i robots.txt-filen skal du skrive et forbudt direktiv til Webarchive. Efter denne ændring i indstillingerne vil webmaskinen ikke længere oprette kopier af en sådan webressource.