Språk for informasjonsinnhenting. Indekseringssystem

En av de viktigste operasjonene for analytisk og syntetisk behandling av informasjon som et middel informasjonsinnhenting– indeksering av dokumenter og informasjonsforespørsler.

Indeksering – prosessen med å uttrykke innholdet i et dokument og (eller) forespørselinformasjonsinnhentingsspråk (IRL) ved å bruke indekseringsvilkår– klassifikasjonsindekser, emneoverskrifter (PR), søkeord, beskrivelser, koder . Med andre ord er indeksering prosessen med å oversette innholdet i dokumenter og forespørsler fra naturlig språk til FL, noe som resulterer i opprettelsen dokumentsøkebilde (DOI) og query search image (QI). Dermed blir informasjonen i dokumentet "kollapset" og presentert i IPL i form av en indeks, emneoverskrift eller beskrivelse, eller nøkkelord.

Språk for informasjonsinnhenting (IRL) – Dette er et spesiallaget kunstig språk designet for å uttrykke innholdet i dokumenter og (eller) forespørsler med det formål å søke etter dem. IPL er hovedelementet i det logisk-semantiske apparatet for informasjon- søkemotor(IPS).

Behovet for å skape kunstig språk(for å uttrykke det semantiske innholdet i dokumenter med det formål å søke i dem) skyldes det faktum at naturlig språk har en rekke egenskaper som hindrer dets bruk for å registrere og hente informasjon: dette er tvetydigheten og polysemien til ord i naturlig språk. Nøyaktig verdi Mange ord kan bare bestemmes ut fra konteksten de brukes i (slaginstrument, støtdose osv.). Disse faktorene tillater ikke å oppnå en nøyaktig samsvar mellom innholdet i dokumentet og måten å uttrykke dette innholdet på.

Vanskelighetene med å bruke naturlig språk som FP forverres ytterligere av at IPS ikke kan bruke dokumenter som innspill. fulltekster, og sammendrag, merknader, bibliografiske beskrivelser, som er resultatet av å kollapse innholdet i dokumenter.

Grunnleggende krav for IPJ:

· Entydighet;

· Tilstrekkelig semantisk kraft

· Åpenhet (mulighet for språkjustering)

Hver IPL har et spesifikt vokabular som representerer et sett med leksikale enheter (LE)– betegnelse på et eget konsept, minimalt og udelelig i denne funksjonen. Ordforrådet til naturlige språk brukes som en LE i IPL - ord, setninger i emneoverskriften, digitale eller alfanumeriske koder, etc.

Et viktig poeng når indeksering er opprettelsen av et søkebilde av dokumenter (SID). Søk dokumentbilde– det viktigste semantiske innholdet i dokumentet (og ikke all informasjonen i det), uttrykt i form av en formalisert IP. PML er unikt tilpasset dette dokumentet, og det søkes etter dokumenter i en rekke dokumenter.


Indeksering av en spørring utføres også ved å oversette innholdet til FP. Dermed kalles settet med indekseringstermer som uttrykker det semantiske innholdet i spørringen søkeordbilde (POS).

Søket utføres ved hjelp av et sett med indekseringsord. For å øke effektiviteten av å søke etter informasjon på forespørsel, kan POS suppleres med spesielle instruksjoner om utførelsessekvensen logiske operasjoner i ferd med informasjonssøk, som kalles søkerekkefølge.

Indeksering implementeres i følgende prosesser: subjektivering, systematisering og koordinatindeksering.

Systematisering – en type indeksering der innholdet i et dokument og (eller) forespørsel er uttrykt av klassifikasjonsindekser, i samsvar med reglene for en viss klassifisering IP (KS). Dette indekseringsprinsippet anses å være klassifisering. Det gir muligheten til å organisere informasjonssøk på hierarkisk basis. Spesialister som utfører prosessen med systematisering i biblioteker og informasjonssentre, kalles systematiserere.

Subjektifisering– en type indeksering der innholdet i et dokument og (eller) forespørsel er uttrykt med en emneoverskrift (SR) i samsvar med reglene i en viss fagspesifikk FL. Fagindekseringsprinsippet er basert på bruk av LE-er, som er en del av emneoverskrifter, naturlig språk(dvs. emneoverskrifter som uttrykker POD og POP er satt sammen på grunnlag av naturlig språk). Fagindekseringsprinsippet gir muligheten til å organisere informasjonssøk alfabetisk. Subjektiseringsprosesser utføres i biblioteker og informasjonssentre av subjektiviserere.

Koordinatindeksering – en type indeksering der det semantiske innholdet i et dokument og (eller) spørring er flerdimensjonalt uttrykt med en rekke nøkkelord eller beskrivelser. Et språk beregnet for koordinatindeksering kalles et deskriptorspråk. Spesialister som utfører koordinatindeksering kalles indeksere.

Begrepene "indeksering" og "indekser" er vanlige i engelskspråklig litteratur og er mye brukt i internasjonal og nasjonal bibliotekpraksis.

Så, avhengig av type indeksering, skilles emneidentifikasjon, klassifisering og deskriptor FP. De inkluderer mange LE-er og grammatiske (paradigmatiske og syntagmatiske) forhold mellom dem. LE er betegnelsen på et eget konsept, akseptert i IPL og udelelig i denne funksjonen. LE-er kan representere ord som er akseptert i naturlig språk, faste setninger, forkortelser, symboler, datoer, generelt aksepterte forkortelser, leksikisk signifikante komponenter vanskelige ord, samt tilsvarende kode eller symbolske betegnelser på et kunstig språk. Grammatiske relasjoner lar deg organisere LE i et system.

Krav til IP:

· Fullstendig og nøyaktig formidle innholdet i dokumentet som gjenspeiles i denne IRS;

· Sikre entydig tolkning av indekseringsbegreper;

· Tillat multi-aspekt indeksering;

· Tillat endringer (tilføyelser, rettelser);

· Sikre enkelhet og bekvemmelighet ved indeksering, informasjonsinnhenting og vedlikehold av denne IRS;

· Reflektere nåværende tilstand terminologisystemer innen dette kunnskapsfeltet.

Reglene for bruk av IP er registrert i referanse- og metodologiske apparatet til den tilsvarende IP.

Syntagma (gresk - bygget sammen, koblet) er en semantisk enhet, som i en bestemt sammenheng uttrykkes av et ord, en gruppe ord eller en setning. Individuelle ord (for eksempel "metodikk", "manuell", "indeksering") inngår syntagmatiske relasjoner i en setning ved å bruke språkets grammatiske virkemidler, for eksempel deklinasjon, bøying, preposisjoner, konjunksjoner, etc.

4. TEMA: UNIFISERING OG STANDARDISERING AV DOKUMENTINDEKSERING.

Begrepet "indeksering" ble introdusert i innenlandsk bibliotekteori og praksis i 1991 av GOST 7.59 - 90 "Indeksering av dokumenter. Generelle krav til systematisering og subjektisering.» Standarden ble introdusert for å erstatte 3 tidligere GOST-er utviklet på 80-tallet:

1. GOST 7.39 – 82 Systematisering og subjektivering. Begreper og definisjoner.

2. GOST 7.44 – 84 Systematisering av dokumenter. Generelle krav.

3. GOST 7.45 – 84 Emneidentifikasjon av dokumenter. Generelle krav.

Alle disse standardene ble utviklet innenfor rammen av Information, Librarianship and Publishing Standards System (SIBID) for å forene indekseringsprosesser. Det endelige målet med standardisering er å forbedre kvaliteten og effektiviteten i arbeidet i dette tilfellet– kvaliteten på indeksering og de elementene i referanse- og gjenfinningsapparatet som er knyttet til indeksering. Enhver standard er født som et resultat av en generalisering av mange års praksis.

Bibliotekarer studerte fra lærebøker, brukt praktiske hjelpemidler. Det fantes ingen standarder som regulerer teknologiske prosesser på mange tiår. Fremkomsten av sentralisert katalogisering (for eksempel trykte katalogkort), et klassifiseringssystem som er felles for alle eller mange biblioteker, førte til at bibliotekarer forsto det tilrådelige med vanlige prinsipper og arbeidsmetoder. På et visst utviklingsstadium internasjonale relasjoner det var behov for maksimalt å harmonisere innenlandsk katalogiseringspraksis med utenlandsk.

GOST 7,59 – 90 ble fokusert på Internasjonal standard MS ISO 5963 "Dokumentasjon - Metoder for å analysere dokumenter, bestemme emnet og velge indekseringsbegreper" introdusert av International Organization for Standardization (ISO) i 1985.

Den internasjonale standarden hadde en rekke fordeler som innenlandske utviklere tok hensyn til:

· En uavhengig del av standarden var definisjonene av begrepene som ble funnet i den (i innenlandske standarder ble de avledet av en egen GOST).

· MS introduserte konsepter og definerte krav general, som dekker både systematisering og subjektivering (i innenlandske standarder ble disse prosessene betraktet som uavhengige ikke-relaterte prosesser i separate GOST-er).

Fordelene med ISO MS var åpenbare: det er lettere å mestre enhver prosess, spesielt et sett med komplekse prosesser, som systematisering og subjektivering, hvis vi skiller det generelle, det individuelle og det spesielle. Det ble besluttet å slå sammen innenlandske standarder, bringe dem så nært som mulig til den internasjonale i struktur og innhold. I tillegg var det nødvendig å utvikle en standard hvis anvendelse ikke skulle begrenses til avdelingsgrenser. Dette medførte at en rekke terminologiske problemer måtte løses, siden i disse årene fungerte to begrepssystemer parallelt i landet - bibliotek og informasjon. Det ble besluttet å bruke moderne internasjonal terminologi i standarden.

Under utviklingen av GOST 7.59 - 90, alvorlig forske om implementering av tidligere standarder. Dermed sørget GOST 7.44 - 84 for obligatorisk vedlikehold i alle biblioteker av en alfabetisk emneindeks (ASU) til en systematisk katalog - ikke som et hjelpeapparat, men som en integrert del av katalogen. Derfor ble det foreskrevet at det skulle utarbeides et APU-kort i prosessen med å behandle nye kvitteringer. Dette kravet var basert på moderne ideer om at forsikringsselskapet er i stand til å utføre sine funksjoner dersom det er utstyrt med et tilstrekkelig kontrollsystem. Obligatorisk redigering av klassifiseringsvedtaket og emneoverskriftene til APU ble også innført. Følgelig ble nasjonale tidsstandarder endret.

Undersøkelsen viste at hundrevis av biblioteker utførte disse prosessene, men med innføringen av GOST ble de obligatoriske for alle biblioteker.

Siden januar 2004, satt i kraft som en statlig standard Den russiske føderasjonen GOST 7.59 – 2003 “Indeksering av dokumenter. Generelle krav til systematisering og subjektisering.»

I samsvar med moderne krav GOST 7.59 - 2003 "Indeksering av dokumenter" består av 6 seksjoner. Strukturen til GOST er som følger:

Noen år senere ble en annen standard utviklet og satt i kraft, med tanke på den tredje indekseringsprosessen - GOST 7.66 - 92 "Indeksering av dokumenter. Generelle krav til koordinatindeksering", som også var basert på reglene i ISO 5963.

Mer enn ti år har gått. Gjennom årene har klassifiseringspraksis i landet endret seg. Mange bibliotek har automatiserte systemer og elektroniske kataloger. Det var nødvendig å klargjøre listen og navnene på klassifiseringssystemer. Terminologien til den vurderte fagområde. Terminologiske standarder ble godkjent:

· GOST 7,73 – 96 SIBID. Søk og formidling av informasjon. Begreper og definisjoner.

· GOST 7,74 – 96 SIBID. Språk for informasjonsinnhenting. Begreper og definisjoner.

· GOST 7,76 – 96 SIBID. Innsamling av dokumenter. Bibliografi. Katalogisering. Begreper og definisjoner.

Siden januar 2004, GOST 7.59 - 2003 "SIBID. Indeksering av dokumenter. Generelle krav til systematisering og subjektisering.»

I henhold til moderne krav består standarden av 6 seksjoner. Strukturen til GOST er som følger:

1. Anvendelsesområde

3. Definisjoner

4. Generelle bestemmelser

4.1 Essensen av indeksering

4.2 Indekseringsobjekt

4.3 Indekseringsbetingelser

4.4 Indekseringsprinsipper

4.5 Typer IP og indekseringsvilkår

5. Krav til IP

5.1 Generelle krav

5.2 Krav til klassifisering IP

5.3 Krav til fagspesifikk FP

6. Teknologiske prosesser og generelle indekseringsregler

6.1 Generelle regler indeksering

6.2 Systematiseringsregler

6.3 regler for spesifikasjoner.

GOST 7.59 – 2003 etablerer generelle krav til indeksering: systematisering og subjektivering av dokumenter og informasjonsinnhentingsspråk som brukes i indeksering. Standarden er beregnet på biblioteker, vitenskapelige og tekniske informasjonsorganer, bokkamre, redaksjoner og forlag.

I tidsskriftet "Library", fra og med andre utgave av 2004, i overskriften "Library Science", holdes "School of Indexing" av E.R.. Sukiasyan, hvor materiale er publisert som kommenterer innholdet i GOSTs om indeksering.

Indekseringssystem (SI) er et sett med metoder og verktøy for å oversette tekster fra naturlig språk til FL i samsvar med et gitt sett med ordbøker over leksikale enheter og med reglene for bruk av FL.

La oss vurdere klassifiseringen av indekseringssystemer.

1. Basert på graden av automatisering av indekseringsprosessen, skilles følgende systemer ut:

Manuell indeksering;

Automatisk indeksering

Automatisert indeksering.

2. Basert på graden av kontrollerbarhet skilles systemer ut:

Ingen ordbok;

Med et tøft ordforråd;

Med en gratis ordbok.

3. Basert på arten av algoritmen for å velge tekstord, skilles følgende systemer:

Med sekvensiell visning av teksten (alle ord med full betydning er valgt);

Med heuristiske prosedyrer for å velge ord i en tekst (ord velges intuitivt eller i henhold til en gitt prosedyre);

Med statistiske ordvalgsprosedyrer (kun informative ord velges i samsvar med frekvensfordelingen av bruken deres).

Den gratis indekseringsprosessen er som følger. Indeksøren skriver ned ord eller uttrykk som etter hans mening gjenspeiler innholdet i teksten. Han kan ta ord som er fraværende i teksten, men som fra hans ståsted er viktige for å uttrykke tekstens betydning. Den valgte ordlisten er et søkebilde av dokumentet. Dette er en manuelt indeksert SI.

Prosessen med halvfri indeksering ligner den som er beskrevet ovenfor, men ordene for AML er kun hentet fra ordboken.

Med hard indeksering tas ord kun fra teksten.

Til å begynne med ble indeksering utført av spesialtrente fageksperter som kunne utføre en grundig analyse av det semantiske innholdet i et dokument og tilordne det (indeks) til bestemte klasser, overskrifter og nøkkeltermer. I dette tilfellet var overheadkostnadene høye, siden det krevde høyt kvalifiserte indeksere på personalet. I tillegg var indekseringsprosessen noe subjektiv. Derfor oppsto oppgaven med å automatisere dokumentindeksering.

Det er to tilnærminger til automatisk indeksering. Den første er basert på bruk av en nøkkelordbok og brukes i IPT-baserte systemer. Indeksering i slike systemer utføres ved sekvensiell automatisk søk Nøkkelord i teksten til dokumentet. En indeks som representerer dokumentsøkeområdet bygges.

Den andre tilnærmingen til automatisk indeksering brukes i fulltekstsystemer. Under indekseringsprosessen legges informasjon om alle ordene i dokumentteksten inn i indeksen (derav navnet "fulltekst").

Prosedyren for å oversette fra et naturlig språk til et fremmedspråk kalles indeksering. Resultatet av en slik oversettelse er POD (når dokumenter legges inn i et informasjonsinnhentingssystem) eller POS (ved indeksering av en brukerforespørsel).

Indekseringsproblemet er knyttet til semantisk analyse av dokumenttekster. Kompleksiteten skyldes det faktum at indeksering av dokumenter som er lagt inn i søkematriser og brukerforespørsler er atskilt i tid.

For algoritmisering og automatisering av indeksering er det nødvendig å løse problemet med å velge de mest betydningsfulle søkeordene, deskriptorene og frasene (avhengig av de leksikale enhetene til FL) for inkludering i AML eller POZ.

Viktigheten kan bestemmes av flere tegn:

  • statistisk, dvs. basert på hyppigheten av bruken av begrepet i dokumentet;
  • basert på forfatterens uttalelser (hans mening gjenspeiles i tittelen på dokumentet eller underoverskrifter fremhevet av forfatteren i dokumentet);
  • bruke en grammatikk som lar deg reflektere relasjonene mellom leksikale enheter inneholdt i konteksten;
  • i henhold til viktighetskriterier formulert av brukeren, for hvilke deskriptorvekter kan angis ved indeksering av dokumenter.

Indekseringssystemet til en bestemt IP bestemmes hovedsakelig av egenskapene til IP og de leksikale og syntaktiske midlene som er tilgjengelige i den. Imidlertid er det noen spesifikke regler og anbefalinger, studiet av som gjorde det mulig å identifisere noen typer indekseringssystemer.

Det finnes ulike typer indekseringssystemer.

1. Den første typen inkluderer systemer gratis indeksering.

Med denne metoden skrives ord eller uttrykk som reflekterer innholdet i det indekserte dokumentet ut fra dokumentet som indekseres inn i POD. I tillegg kan AML-elementer inkludere ord som ikke er til stede i disse dokumentene, men som mer nøyaktig gjenspeiler betydningen av tekstene deres fra synspunktet om formålet med å opprette en IPS. De utskrevne elementene er bestilt inn alfabetisk rekkefølge. Et slikt ordnet sett med ord (fraser) representerer POD for denne typen indeksering. På samme måte dannes en POS fra teksten til brukerens forespørsel.

Denne indekseringsprosessen er grunnleggende ikke-algoritmisk, dvs. ikke-automatisert.

2. I den andre metoden, som konvensjonelt kalles metoden halvfri indeksering, Ord og uttrykk skrives ut fra dokumentet først på samme måte som ved gratis indeksering.

Imidlertid blir de utskrevne elementene deretter sammenlignet med en fast ordbok, de som ikke finnes i den blir eliminert, og de resterende, ordnet i alfabetisk rekkefølge, representerer POD (eller POS).

3. Den tredje indekseringsmetoden er basert på statistisk tilnærming.

Utvalget av ord (uttrykk) av kildeteksten som skal inkluderes i PML er gjort på grunnlag av statistisk analyse av teksten, der ordene betraktes som tegn som ikke har semantiske betydninger. Samtidig ulike statistiske kriterier, basert på en sammenligning av den relative bruksfrekvensen av et ord i et dokument og den relative bruksfrekvensen av et ord i et representativt utvalg av dokumenter (dvs. i et representativt statistisk utvalg).

For eksempel foreslås følgende kvantitative kriterier:

Hvor F– relativ hyppighet av bruk av et ord i et dokument; R– relativ hyppighet av ordbruk i et representativt utvalg dokumenter.

Det er lett å se at grunnlaget for relasjonene ovenfor er ideen om at den informasjonsmessige betydningen av et ord bestemmes av uoverensstemmelsen i hyppigheten av dets bruk i dette dokumentet og i hele strømmen av dokumenter som vurderes.

Ulike tilnærminger for å bestemme avviket er mulig:

  • i henhold til den første beregnes avviket mellom hyppigheten av bruk av ord i en strøm av dokumenter om et gitt emne (monotematisk strøm) og hyppigheten av forekomsten av dette ordet i en flertema strøm av dokumenter (polytematisk strøm);
  • det andre prinsippet er basert på å beregne avviket mellom frekvensen av bruk av et ord i en strøm av tekster om et gitt emne og frekvensen av det samme ordet i en strøm av tekster om et emne som er langt fra det gitte (“motsatt " emne).

Den statistiske metoden for indeksering kan algoritmes og automatiseres, og i dag finnes det verktøy for automatisert statistisk analyse av tekster.

Imidlertid uavhengig praktisk anvendelse Jeg har ikke funnet denne metoden i informasjonsinnhentingssystemet den brukes som en hjelpemetode i kombinasjon med semantisk analyse av dokumenttekster.

4. Den fjerde typen inkluderer indekseringssystemer kontrollert av en gitt ordbok (synonymordbok).

Indekseringsalgoritmen koker ned til det faktum at hvert ord i teksten sammenlignes, ned til stammen, med ordboken, og de matchende ordene blir registrert i POD.

I noen systemer brukes ordboken som en assistent for spesialisten som er involvert i tekstindeksering.

Slike systemer inkluderer for eksempel UDC. I andre er en slik ordbok et element i indekseringsalgoritmen: et ord som vises samtidig i teksten og i ordboken, er registrert i POD. I beskrivelsen IPA i POD

(POZ) det er ikke selve tekstordet som er registrert, men den tilsvarende beskrivelsen.

Indeksering av dokumenter ved hjelp av spesialutviklede hierarkiske klassifikasjoner som reflekterer formålet med å søke og bruke dokumenter virker lovende.

Slike klassifiserere kan brukes som IPL i informasjonssystemer Normativ og metodisk støtte for ledelsen: en hierarkisk klassifikator som kombinerer normative og metodiske dokumenter utvikles på grunnlag av strukturen til mål (hovedretninger) og virksomhetens funksjoner.

Den hierarkiske IPJ-klassifikatoren kan være grunnlaget for et system for selektiv informasjonsdistribusjon (SDI): en klassifisering av behovene til kategorien arbeidere som bruker SDI-systemet, er under utvikling.

  • Ved utarbeidelsen av denne delen ble klassifiseringen som ble foreslått i arbeidet brukt: Pevzner B.R. Systemer for informasjonsinnhenting og informasjonsinnhentingsspråk / B. R. Pevzner. M.: IPKIR, 1974. S. 10-11.

Hver prosess som skjer i søkemotorer er unik og interessant. Når du kjenner arkitekturen til søkemotoren, kan du forstå årsakene til at et nettsted "faller ut" fra søkeresultatene eller øker rangeringen. La oss vurdere hver prosess separat.

Indeksering er en prosess der søkeroboter besøker nettsteder, samler inn forskjellig informasjon fra sidene deres og legger den inn i spesielle databaser. Deretter behandles disse dataene, og det bygges en indeks - et utdrag fra dokumentene. Det er gjennom indeksen søkemotoren søker og gir lenker til nettsteder basert på brukerforespørsler.

La oss se på indekseringsprosessen ved å bruke Yandex-søkemotoren som et eksempel.

Det er 2 typer roboter i søkemotoren: raskog hoved. Hovedrobotens oppgave er å indeksere alt innhold, og oppgaven til den raske roboten er å legge inn siste informasjon i databasen. Søkerobotplanleggeren tegner besøksruter og overfører dem til "edderkoppen", som går gjennom utvalgte sider og pumper informasjon ut av dem. Hvis nye lenker oppdages i dokumenter under indeksering, legges de til den generelle listen.

Ved det første besøket sjekker edderkoppen statusen til ressursen. Hvis egenskapene oppfyller kravene til Yandex, legges nettstedet inn i databasen. Når edderkoppen besøker en allerede indeksert side igjen, oppdateres informasjonen på den.

Dokumenter er inkludert i indeksen på følgende måter: automatisk når søkerobot han går gjennom ytre og interne lenker, fordi hvis nettstedseieren selv la til URL-en gjennom et spesielt skjema eller gjennom Yandex.Metrica installert på nettstedet. Denne tjenesten overfører Nettadresser til siden for indeksering av Yandex. Om nødvendig kan du deaktivere dette alternativet i Metrics-grensesnittet.

Hastighet for indeksering og oppdatering av nettstedssider

Ideelt sett så snart den er opprettet ny side, bør den indekseres umiddelbart. Store mengder informasjon gjør det imidlertid vanskelig å indeksere nye sider og oppdatere gamle. Søkemotorroboter oppdaterer databasen kontinuerlig, men for at den skal være tilgjengelig for brukerne, må den overføres til " grunnleggende søk" Databasen er ikke fullstendig overført dit. Speilsider, sider som inneholder søkesøppel og andre unødvendige dokumenter, etter søkemotorens oppfatning, er ekskludert.

Robot oppdager speil, sjekker speilsider spesifisert i robots.txt-filen. Hvis de er identiske, vil det i søkemotorresultatene bare være ett nettsted - hovedspeilet.

En spesiell robot sjekker tilgjengeligheten til et nettsted lagt til gjennom skjemaet "Legg til URL" i Yandex.Webmaster.

Det finnes andre typer indekseringsroboter: indeksere av videoer og nettsidepiktogrammer (ikoner); en robot som sjekker ytelsen til nettsteder i Yandex.Catalog; indekserer "raskt" innhold på nettsteder som Yandex.News, etc.

Det er viktig å forstå at indekseringsprosessen for nettstedet er lang, etterfulgt av en oppdateringsprosess indeksdatabaser, som også krever tid. Derfor vil resultatet av endringer som er gjort på nettstedet være synlig først etter 1-2 uker.

Indekseringssystemer

Indekseringssystem (SI) er et sett med metoder og verktøy for å oversette tekster fra naturlig språk til FL i samsvar med et gitt sett med ordbøker over leksikale enheter og med reglene for bruk av FL.

La oss vurdere klassifiseringen av indekseringssystemer.

1. Basert på graden av automatisering av indekseringsprosessen, skilles følgende systemer ut:

Manuell indeksering;

Automatisk indeksering;

Automatisert indeksering.

2. Basert på graden av kontrollerbarhet skilles systemer ut:

Ingen ordbok;

Med et tøft ordforråd;

Med en gratis ordbok.

3. Basert på arten av algoritmen for å velge tekstord, skilles følgende systemer:

Med sekvensiell visning av teksten (alle ord med full betydning er valgt);

Med heuristiske prosedyrer for å velge ord i en tekst (ord velges intuitivt eller i henhold til en gitt prosedyre);

Med statistiske ordvalgsprosedyrer (valgt
bare informative ord i samsvar med frekvensfordelingen av bruken deres).

4. Basert på arten av leksikografisk kontroll, skilles følgende systemer ut:

Ingen leksikografisk kontroll;

Med full kontroll;

Med mellomstyring.

Leksikografisk kontroll sørger for:

Eliminering av synonymi, polysemi og homonymi basert på normative ordbøker over leksikale enheter med paradigmatiske forhold mellom dem;

Normalisering av ord basert på morfologisk normativ
ordbøker.

5. Basert på arten av den morfologiske analysen av ord, skilles systemer ut:

Bruke morfologiske ordbøker;

Bruke grunnleggende leksikalske ordbøker;

Bruke morfologisk analyse med ordavkorting.

Indekseringssystemer uten morfologisk analyse er mulig.

Den gratis indekseringsprosessen er som følger. Indeksøren skriver ned ord eller uttrykk som etter hans mening gjenspeiler innholdet i teksten. Han kan ta ord som er fraværende i teksten, men som fra hans ståsted er viktige for å uttrykke tekstens betydning. Den valgte ordlisten er et søkebilde av dokumentet. Dette er en manuelt indeksert SI.

Prosessen med halvfri indeksering ligner den som er beskrevet ovenfor, men ordene for AML er kun hentet fra ordboken.

Med hard indeksering tas ord kun fra teksten.

Til å begynne med ble indeksering utført av spesialtrente fageksperter som kunne utføre en grundig analyse av det semantiske innholdet i et dokument og tilordne det (indeks) til bestemte klasser, overskrifter og nøkkeltermer. I dette tilfellet var overheadkostnadene høye, siden det krevde høyt kvalifiserte indeksere på personalet. I tillegg var indekseringsprosessen noe subjektiv. Derfor oppsto oppgaven med å automatisere dokumentindeksering.

Det er to tilnærminger til automatisk indeksering. Den første er basert på bruk av en nøkkelordbok og brukes i IPT-baserte systemer. Indeksering i slike systemer utføres ved sekvensielt automatisk søk ​​av nøkkeltermer i dokumentteksten. En indeks som representerer dokumentsøkeområdet bygges. Det er to mulige typer av en slik indeks - direkte og invertert.

Direkteindekstypen bygges i henhold til dokumentvilkårsskjemaet. Søkerommet i dette tilfellet er representert som en matrise med dimensjon nxm. Radene i denne matrisen representerer søkebilder av dokumenter.