Независими интернет търсачки. Интернет търсачки: преглед на съществуващи решения

Здравейте, скъпи читатели на сайта на блога. , тогава малкото му потребители имаха достатъчно собствени отметки. Но както си спомняте, това се случи в геометрична прогресия и много скоро стана по-трудно да се ориентирате в цялото му разнообразие.

Тогава се появиха директории (Yahoo, Dmoz и други), в които техните автори добавяха и сортираха различни сайтове в категории. Това веднага улесни живота на тогавашните, все още не многобройни потребители на глобалната мрежа. Много от тези каталози са живи и днес.

Но след известно време размерът на техните бази данни стана толкова голям, че разработчиците първо помислиха за създаване на търсене в тях, а след това за създаване на автоматизирана система за индексиране на цялото интернет съдържание, за да го направят достъпно за всички.

Основните търсачки на рускоезичния сегмент на Интернет

Както разбирате, тази идея беше реализирана със зашеметяващ успех, но всичко се оказа добре само за шепа избрани компании, които успяха да не изчезнат в интернет. Почти всички търсачки, които се появиха в първата вълна, сега или изчезнаха, замряха, или бяха закупени от по-успешни конкуренти.

Търсачката е много сложен и, което е важно, много ресурсоемък механизъм (това означава не само материални ресурси, но и човешки). Зад привидно простия, или неговия аскетичен аналог от Google, стоят хиляди служители, стотици хиляди сървъри и много милиарди инвестиции, които са необходими, за да може този колос да продължи да работи и да остане конкурентоспособен.

Навлизането на този пазар сега и започването от нулата е по-скоро утопия, отколкото реален бизнес проект. Например, една от най-богатите корпорации в света, Microsoft, се опитва да се наложи на пазара за търсене от десетилетия и едва сега тяхната търсачка Bing бавно започва да отговаря на техните очаквания. А преди това имаше цяла поредица от провали и неуспехи.

Какво можем да кажем за навлизането на този пазар без особени финансови влияния. Например нашата местна търсачка Nigma има много полезни и иновативни неща в своя арсенал, но техният трафик е хиляди пъти по-нисък от лидерите на руския пазар. Например, погледнете ежедневната аудитория на Yandex:

В тази връзка можем да предположим, че списъкът на основните (най-добрите и най-щастливите) търсачки на Runet и целия Интернет вече е формиран и цялата интрига е само в това кой кого в крайна сметка ще погълне или какъв ще бъде техният процентен дял да бъдат разпределени, ако всички те оцелеят и ще останат на повърхността.

Руски пазар на търсачкисе вижда много ясно и тук вероятно можем да различим двама или трима основни играчи и няколко второстепенни. Като цяло в RuNet се разви доста уникална ситуация, която, доколкото разбирам, се е повторила само в две други страни в света.

Говоря за факта, че търсачката Google, след като дойде в Русия през 2004 г., все още не е успяла да поеме лидерство. Всъщност около този период се опитаха да купят Yandex, но нещо не се получи и сега „нашата Русия“, заедно с Чехия и Китай, са онези места, където всемогъщият Google, ако не победи, то в във всеки случай срещна сериозна съпротива.

Всъщност, за да видите текущото състояние на нещата сред най-добрите търсачки в RunetВсеки може. Ще бъде достатъчно да поставите този URL в адресната лента на вашия браузър:

Http://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

Факт е, че повечето от тях използват.

След като въведете дадения Url, ще видите снимка, която не е много привлекателна и представителна, но добре отразява същността на въпроса. Обърнете внимание на първите пет търсачки, от които сайтовете на руски получават трафик:

Да, разбира се, не всички ресурси с рускоезично съдържание се намират в тази зона. Има също SU и RF, а общи области като COM или NET са пълни с интернет проекти, фокусирани върху Runet, но все пак извадката е доста представителна.

Тази зависимост може да бъде представена по-цветисто, както например някой направи онлайн за своята презентация:

Това не променя същността. Има няколко лидери и няколко много, много изостанали търсачки. Между другото, вече писах за много от тях. Понякога може да бъде доста интересно да се потопите в историята на успеха или, обратно, да се задълбочите в причините за неуспехите на някога обещаващи търсачки.

И така, по ред на важност за Русия и Runet като цяло, ще ги изброя и ще им дам кратки характеристики:

Търсенето в Google вече се превърна в нарицателно за много хора на планетата - можете да прочетете за това в линка. В тази търсачка ми хареса опцията „превод на резултатите“, когато получавате отговори от цял свят, но на родния си език, но сега, за съжаление, не е налична (поне в google.ru).

Напоследък също бях озадачен от качеството на тяхната продукция (страница с резултати от търсачката). Лично аз винаги първо използвам огледалната търсачка RuNet (има такава, добре, свикнах с нея) и само ако не намеря разбираем отговор там, се обръщам към Google.

Обикновено излизането им ме радваше, но напоследък само ме озадачаваше - понякога излизат такива глупости. Възможно е тяхната борба за увеличаване на приходите от контекстна реклама и постоянното разместване на резултатите от търсенето с цел дискредитиране на SEO промоцията да доведе до обратния резултат. Във всеки случай тази търсачка има конкурент в RuNet и какъв точно.

Мисля, че е малко вероятно някой да отиде конкретно на Go.mail.ru, за да търси в RuNet. Следователно трафикът към развлекателни проекти от тази търсачка може да бъде значително повече от десет процента. Собствениците на такива проекти трябва да обърнат внимание на тази система.

Въпреки това, в допълнение към явните лидери на пазара на търсачки в рускоезичния сегмент на Интернет, има още няколко играчи, чийто дял е доста нисък, но въпреки това самият факт на тяхното съществуване налага да кажем няколко думи за тях.

Търсачките на Runet от втория ешелон

Интернет търсачки

Като цяло в мащаба на целия Интернет има само един сериозен играч - Google. Това е безспорен лидер, но все още има известна конкуренция.

Първо, все още е същото Bing, който например има много добра позиция на американския пазар, особено като се има предвид, че неговият двигател се използва и във всички услуги на Yahoo (почти една трета от целия пазар на търсене в САЩ).

Е, второ, поради огромния дял, който потребителите от Китай съставляват в общия брой интернет потребители, основната им търсачка т.нар. Baiduсе вклинява в разпределението на местата на световния Олимп. Той е роден през 2000 г. и сега неговият дял е около 80% от цялата национална публика в Китай.

Трудно е да се каже нещо по-разбираемо за Baidu, но в интернет има мнения, че местата в неговия Топ са заети не само от най-подходящите за заявката сайтове, но и от тези, които са платили за него (директно към търсачката , а не към SEO офиса). Разбира се, това се отнася предимно за търговските обяви.

Като цяло, разглеждайки статистиката, става ясно защо Google лесно се съгласява да влоши резултатите от търсенето си в замяна на увеличаване на печалбите от контекстна реклама. Всъщност те не се страхуват от оттеглянето на потребителите, защото в повечето случаи няма къде да отидат. Тази ситуация е малко тъжна, но ще видим какво ще се случи по-нататък.

Между другото, за да направи живота още по-труден за оптимизаторите и може би за да запази спокойствието на потребителите на тази търсачка, Google наскоро използва криптиране при предаване на заявки от браузърите на потребителите към лентата за търсене. Скоро вече няма да е възможно да видите в статистиката на броячите на посетители за какви заявки са дошли потребителите на Google при вас.

Разбира се, освен посочените в тази публикация търсачки има хиляди други – регионални, специализирани, екзотични и т.н. Опитът да се изброят и опишат всички в една статия би бил невъзможен и вероятно не е необходим. Нека по-добре да кажем няколко думи за колко лесно е да създадете търсачкаи колко лесно и евтино е да го поддържате актуален.

По-голямата част от системите работят на подобни принципи (прочетете за това и онова) и преследват една и съща цел - да дадат на потребителите отговор на техния въпрос. При това този отговор трябва да е релевантен (съответстващ на въпроса), изчерпателен и, което не е маловажно, релевантен (от първа свежест).

Решаването на този проблем не е толкова лесно, особено като се има предвид, че търсачката ще трябва да анализира съдържанието на милиарди интернет страници в движение, да отсее ненужните и от останалите да формира списък (издание), където най-много първи ще се появят подходящи отговори на въпроса на потребителя.

Тази изключително сложна задача се решава чрез предварително събиране на информация от тези страници с помощта на различни индексиращи роботи. Те събират връзки от вече посетени страници и зареждат информация от тях в базата данни на търсачката. Има ботове, които индексират текст (обикновен и бърз бот, който живее от новини и често актуализирани ресурси, така че най-новите данни винаги да се представят в резултатите).

Освен това има роботи, които индексират изображения (за последващото им извеждане), фавикони, огледала на сайтове (за последващото им сравняване и евентуално залепване), ботове, които проверяват функционалността на интернет страници, които потребители или чрез инструменти за уебмастъри (тук можете можете да прочетете за, и) .

Самият процес на индексиране и последващият процес на актуализиране на индексни бази данни отнема доста време. Въпреки че Google прави това много по-бързо от своите конкуренти, поне Yandex, който отнема седмица или две, за да направи това (прочетете за това).

Обикновено търсачката разделя текстовото съдържание на интернет страница на отделни думи, които се свеждат до основните принципи, така че след това да може да даде правилни отговори на въпроси, зададени в различни морфологични форми. Всички допълнителни неща под формата на HTML тагове, интервали и т.н. нещата се изтриват, а останалите думи се сортират по азбучен ред и до тях се посочва позицията им в този документ.

Този вид нещо се нарича обратен индекс и ви позволява да търсите не по уеб страници, а по структурирани данни, разположени на сървърите на търсачката.

Броят на такива сървъри за Yandex (който търси предимно само рускоезични сайтове и малко украински и турски) е в десетки или дори стотици хиляди, а за Google (който търси на стотици езици) - в милиони .

Много сървъри имат копия, които служат както за повишаване на сигурността на документите, така и за увеличаване на скоростта на обработка на заявките (чрез разпределяне на товара). Оценете разходите за поддържане на цялата тази икономика.

Заявката на потребителя ще бъде изпратена от балансиращото натоварване към сегмента на сървъра, който в момента е най-малко натоварен. След това се извършва анализ на региона, от който потребителят на търсачката е изпратил заявката си, и се анализира морфологично. Ако наскоро е въведена подобна заявка в лентата за търсене, тогава на потребителя се дават данни от кеша, за да не се претоварват отново сървърите.

Ако заявката все още не е кеширана, тогава тя се прехвърля в зоната, където се намира индексната база данни на търсачката. В отговор ще получите списък с всички интернет страници, които са поне донякъде свързани със заявката. Вземат се предвид не само преките появления, но и други морфологични форми, както и др. неща.

Техен трябва да се класираи на този етап алгоритъмът (изкуственият интелект) влиза в действие. Всъщност заявката на потребителя се умножава чрез всички възможни опции за нейната интерпретация и се търсят отговори на много заявки едновременно (чрез използването на оператори на езика на заявката, някои от които са достъпни за обикновените потребители).

По правило резултатите от търсенето съдържат по една страница от всеки сайт (понякога повече). сега са много сложни и отчитат много фактори. Освен това, за да ги коригирате, и се използват, които ръчно оценяват референтните сайтове, което ви позволява да коригирате работата на алгоритъма като цяло.

Общо взето е ясно, че материята е тъмна. Можем да говорим за това дълго време, но вече е ясно, че удовлетвореността на потребителите от системата за търсене се постига, о, колко е трудно. И винаги ще има такива, които не харесват нещо, като вас и мен, скъпи читатели.

Късмет! Ще се видим скоро на страниците на сайта на блога

Можете да гледате още видеоклипове, като отидете на

");">

Може да се интересувате

Yandex People - как да търсите хора в социалните мрежи Apometr е безплатна услуга за проследяване на промени в резултатите от търсенето и актуализации на търсачките. DuckDuckGo - търсачка, която не ви следва
Как да проверите скоростта на интернет - онлайн тест за връзка на компютър и телефон, SpeedTest, Yandex и други измервателни уреди
Yandex и Google изображения, както и търсене по графичен файл в Tineye (tinai) и Google

На пръв поглед може да изглежда, че само Yandex може да бъде по-добър от Google и дори това не е факт. Тези компании инвестират огромни суми пари в иновации и развитие. Има ли наистина някой шанс не само да се мери с лидерите, но и да спечели? Отговорът на Lifehacker: "Да!" Има няколко търсачки, които са успели. Нека погледнем нашите герои.

Какво е това

Това е доста добре позната търсачка с отворен код. Сървърите се намират в САЩ. В допълнение към собствения си робот, търсачката използва резултати от други източници: Yahoo! Търсене в BOSS, Wikipedia, Wolfram|Alpha.

Колкото по-добре

DuckDuckGo се позиционира като търсачка, която осигурява максимална поверителност и поверителност. Системата не събира никакви данни за потребителя, не съхранява регистрационни файлове (няма история на търсенията) и използването на бисквитки е възможно най-ограничено.

DuckDuckGo не събира и не споделя лична информация от потребителите. Това е нашата политика за поверителност.
Габриел Вайнберг, основател на DuckDuckGo

Защо ви трябва това

Всички големи търсачки се опитват да персонализират резултатите от търсенето въз основа на данни за човека пред монитора. Това явление се нарича „филтърен балон“: потребителят вижда само онези резултати, които са в съответствие с неговите предпочитания или които системата счита за такива.

DuckDuckGo създава обективна картина, която не зависи от миналото ви поведение в интернет, и елиминира тематичната реклама от Google и Yandex въз основа на вашите заявки. С DuckDuckGo е лесно да търсите информация на чужди езици: Google и Yandex по подразбиране дават предпочитание на сайтове на руски език, дори ако заявката е въведена на друг език.

Какво е това

"" е руска система за метатърсене, разработена от завършилите Московския държавен университет Виктор Лавренко и Владимир Чернишов. Търси в индексите на Google, Bing, Yandex и други, като има и собствен алгоритъм за търсене.

Колкото по-добре

Търсенето в индексите на всички основни търсачки ви позволява да генерирате подходящи резултати. Освен това Nigma разделя резултатите на няколко тематични групи (клъстери) и приканва потребителя да стесни полето за търсене, като изхвърли ненужните или подчертае приоритетните. Благодарение на модулите Математика и Химия можете да решавате математически задачи и да изисквате резултатите от химичните реакции директно в лентата за търсене.

Защо ви трябва това

Елиминира необходимостта от търсене на една и съща заявка в различни търсачки. Клъстерната система улеснява манипулирането на резултатите от търсенето. Например Nigma събира резултати от онлайн магазини в отделен клъстер. Ако нямате намерение да купувате нищо, просто изключете тази група. Избирайки клъстера „Сайтове на английски език“, ще получите резултати само на английски език. Модулите по математика и химия ще са в помощ на учениците.

За съжаление, проектът в момента не се разработва, тъй като разработчиците са прехвърлили дейността си на виетнамския пазар. Въпреки това „Нигма“ не само че все още не е остаряла, но в някои неща все още дава преднина на Google. Да се надяваме, че развитието ще се възобнови.

Какво е това

not Evil е система, която търси в анонимната мрежа Tor. За да го използвате, трябва да отидете в тази мрежа, например, като стартирате специализиран браузър със същото име. not Evil не е единствената търсачка по рода си. Има LOOK (търсенето по подразбиране в браузъра Tor, достъпно от обикновения интернет) или TORCH (една от най-старите търсачки в мрежата Tor) и други. Спряхме се на not Evil поради ясната алюзия към самия Google (само вижте началната страница).

Колкото по-добре

Търси там, където Google, Yandex и други търсачки обикновено са затворени.

Защо ви трябва това

Мрежата Tor съдържа много ресурси, които не могат да бъдат намерени в спазващия закона интернет. И тъй като правителственият контрол върху съдържанието на интернет се затяга, техният брой ще расте. Tor е вид мрежа в мрежата: със собствени социални мрежи, торент тракери, медии, платформи за търговия, блогове, библиотеки и т.н.

YaCy

Какво е това

YaCy е децентрализирана търсачка, която работи на принципа на P2P мрежите. Всеки компютър, на който е инсталиран основният софтуерен модул, сканира интернет независимо, тоест е аналогичен на робот за търсене. Получените резултати се събират в обща база данни, която се използва от всички участници в YaCy.

Колкото по-добре

Трудно е да се каже дали това е по-добро или по-лошо, тъй като YaCy е напълно различен подход за организиране на търсенето. Липсата на един сървър и компания собственик прави резултатите напълно независими от нечии предпочитания. Автономността на всеки възел елиминира цензурата. YaCy може да търси в дълбоката мрежа и неиндексирани обществени мрежи.

Защо ви трябва това

Ако сте привърженик на софтуер с отворен код и безплатен интернет, не се влияете от държавни агенции и големи корпорации, тогава YaCy е вашият избор. Може да се използва и за организиране на търсене в рамките на корпоративна или друга автономна мрежа. И въпреки че YaCy не е много полезен в ежедневието, той е достойна алтернатива на Google по отношение на процеса на търсене.

Пипл

Какво е това

Pipl е система, предназначена за търсене на информация за конкретно лице.

Колкото по-добре

Авторите на Pipl твърдят, че техните специализирани алгоритми търсят по-ефективно от „обикновените“ търсачки. По-специално, приоритетните източници на информация включват профили в социалните мрежи, коментари, списъци с членове и различни бази данни, които публикуват информация за хора, като например съдебни решения. Лидерството на Pipl в тази област се потвърждава от оценки на Lifehacker.com, TechCrunch и други публикации.

Защо ви трябва това

Ако трябва да намерите информация за човек, живеещ в САЩ, тогава Pipl ще бъде много по-ефективен от Google. Базите данни на руските съдилища очевидно са недостъпни за търсачката. Следователно той не се справя толкова добре с руските граждани.

Какво е това

Друга специализирана търсачка. Търси различни звуци (къща, природа, коли, хора и др.) в отворени източници. Услугата не поддържа заявки на руски, но има впечатляващ списък с тагове на руски език, които можете да търсите.

Колкото по-добре

Резултатът съдържа само звуци и нищо допълнително. В настройките за търсене можете да зададете желания формат и качество на звука. Всички намерени звуци са достъпни за изтегляне. Има търсене на звуци по модел.

Защо ви трябва това

Ако трябва бързо да намерите звука на изстрел от мускет, ударите на бозаещ кълвач или вика на Хоумър Симпсън, тогава тази услуга е за вас. И аз избрах това само от наличните заявки на руски език. На английски спектърът е още по-широк. Но сериозно, една специализирана услуга изисква специализирана публика. Но какво ще стане, ако е полезно и за вас?

Животът на алтернативните търсачки често е мимолетен. Lifehacker попита бившия генерален директор на украинския клон на Yandex Сергей Петренко за дългосрочните перспективи на подобни проекти.

Що се отнася до съдбата на алтернативните търсачки, тя е проста: да бъдат много нишови проекти с малка аудитория, следователно без ясни търговски перспективи или, обратно, с пълна яснота за липсата им.

Ако погледнете примерите в статията, можете да видите, че такива търсачки или се специализират в тясна, но популярна ниша, която може би все още не е нараснала достатъчно, за да бъде забележима на радарите на Google или Yandex, или тестват оригинална хипотеза в класирането, която все още не е приложима при редовно търсене.

Например, ако търсенето в Tor изведнъж се окаже търсено, тоест резултатите от там са необходими на поне процент от аудиторията на Google, тогава, разбира се, обикновените търсачки ще започнат да решават проблема как да намерете ги и ги покажете на потребителя. Ако поведението на аудиторията показва, че за значителна част от потребителите в значителен брой заявки резултатите, дадени без да се вземат предвид фактори, зависещи от потребителя, изглеждат по-подходящи, тогава Yandex или Google ще започнат да произвеждат такива резултати.

„Бъди по-добър“ в контекста на тази статия не означава „бъди по-добър във всичко“. Да, в много аспекти нашите герои са далеч от Google и Yandex (дори далеч от Bing). Но всяка от тези услуги дава на потребителя нещо, което гигантите в търсачката не могат да предложат.

Pathfinder помага на посетителите на вашия уеб сървър да намерят необходимата информация бързо и лесно.

Значителното увеличаване на обема на информацията в Интернет доведе до факта, че намирането на правилния документ дори на един уеб сървър се превърна в истински проблем. Опитът показва, че с нарастването на обема на уеб сайта дори най-модерната и добре обмислена система от връзки между документи често не позволява на потребителя да намери необходимата информация в разумен срок. За да разреши този проблем, беше разработен пакетът Server Pathfinder.

Системата Server Pathfinder принадлежи към класа на т.нар търсачки, тоест програми за търсене на информация на отделен уеб сайт или корпоративен интранет сървър. При разработването на Pathfinder бяха взети предвид следните две характеристики на работата на програмите в Интернет. Първо, взето е предвид, че по-голямата част от интернет потребителите не са специалисти в областта на компютърните технологии. Това означава, че процедурата за търсене на информация трябва да бъде възможно най-проста, а резултатите от търсенето - ясни и информативни. В резултат на това в системата Pathfinder бяха включени следните функции, което значително опростява работата на непрофесионалните потребители:

търсене на документи с помощта на заявки на естествен руски и английски език,
класиране на документите според степента на близост до заявката,
подчертаване на открити фрази и изрази в намерени документи,
автоматично изготвяне на резюмета на документи.

Нека обясним значението на тези функции, които отличават Pathfinder от редица други сървъри за търсене.

Търсете документи с помощта на заявки на естествен езикреализиран въз основа на технологията за търсене Pathfinder™, разработена от MediaLingua. Тази технология се е доказала добре в системата за персонално търсене Pathfinder v1.0. По този начин посетителите на вашия уеб сайт вече не трябва да изучават официалния език на заявките към търсачката и да съставят сложни структури от думи, изрази и логически оператори: достатъчно е да напишете въпрос в свободна форма, сякаш се изпраща на човек. Такава заявка ще намери не само документи, съдържащи точно една и съща фраза, но и всички документи, съдържащи изрази, които са подобни по значение. Заявките се обработват на руски и английски език.

Класиране на документите по степен на близост до заявката. Докладът на Server Pathfinder съдържа списък с намерени документи, подредени както следва: документите, които най-много отговарят на заявката, се показват първи в отчета. По този начин, ако съответните документи бъдат намерени, те почти сигурно ще се озоват в горната част на отчета. Това спестява потребителя на системата от досадно разглеждане на голям брой документи, които не са му интересни.

Подчертаване на фрази и изрази в документи.За да се опрости анализа на документи, открити от Pathfinder, те подчертават думи и фрази, които са били използвани, за да се реши дали документът съответства на заявката. Тази функция на системата значително опростява работата с намерени документи и позволява, ако е необходимо, да видите само фрагменти от големи документи, които представляват интерес. Трябва да се отбележи, че класирането и подчертаването в намерените документи също се изпълняват въз основа на технологията Pathfinder™.

Автоматично изготвяне на резюмета на документи.За всеки документ, обработен от системата за търсене, автоматично се съставя кратко резюме, което отразява съдържанието на документа. Тези резюмета се представят на потребителя в отчет за намерените документи и ви позволяват да оцените съдържанието на документа, без дори да се позовавате на него. За съставяне на резюмета използваме технология за автоматично абстрахиране на текст, разработена от специалисти от компанията MediaLingua.

Вторият момент, който беше взет предвид при разработването на този софтуерен продукт, беше, че системата е предназначена за работа в Интернет. Това означава, че системата трябва да е съвместима със съществуващите интернет технологии и стандарти и да работи стабилно при условия на високо натоварване, характерни за уеб сървърите. Оттук и редица технологични характеристики:

индексиране на уеб страници,
клиент-сървър изпълнение на търсачка,
висока скорост на работа,
поддръжка на основни интернет технологии,
работа с пет кодировки на кирилица.

Индексиране на уеб страници. Search Engine Server Pathfinder е така наречената система за индексиране. Това означава, че преди да търси документи, системата натрупва информация за позицията на всички думи на всички страници на уеб сайта. Тази информация се съхранява в специализирана компактна база данни, което допълнително гарантира бързото намиране на необходимите документи.

Клиент-сървър изпълнение на системата.Системата за търсене е реализирана чрез технология клиент-сървър. Това означава, че функциите за индексиране, търсене и показване на информация са разпределени между различни компоненти на системата. Този подход позволява, ако е необходимо, ефективно да се разпредели натоварването между различни компютри и по този начин да се увеличи производителността на системата като цяло.

Висока скорост.За всички сървърни системи най-важният критерий за тяхната ефективност е тяхната скорост. По-специално за Server Pathfinder важни параметри са скоростта на индексиране и извличане на информация. Както показват тестовете и експлоатационният опит, Pathfinder ви позволява да индексирате информация със скорост до 80–100 MB на час и да обработвате поне 10–15 хиляди заявки на ден.

Поддръжка на основни интернет технологии.Стандартният интернет протокол TCP/IP се използва за обмен между компонентите на Server Pathfinder, а протоколът CGI/1.1 се използва за взаимодействие между клиентите за търсене и уеб сървъра. Това позволява на Pathfinder да работи с повечето уеб сървъри, работещи на платформа Windows/Intel.

Работа с пет кодировки на кирилица.Исторически руската част на интернет използва няколко кодировки на кирилица едновременно. Server Pathfinder автоматично разпознава пет основни набора от символи: Windows-1251, DOS Cyrillic 866, KOI8-R (Unix), Mac Cyrillic и ISO 8859-5 (Sun). Отчетите за намерените документи могат да се генерират във всяка от изброените кодировки.

По този начин Server Pathfinder е мощна търсачка, която улеснява работата с информация на вашия сайт в World Wide Web.

Server Pathfinder се използва за търсене на информация на сървъра на MediaLingua.

Можете също така да видите Server Pathfinder в действие на сървъра на електронното издателство "

Днес пазарът предлага значителен списък от различни инструменти за търсене, програми и системи от различни нива. Има два вида софтуер в този клас*. (Градски П. Системи за търсене. // Санкт-Петербургски вестник //, 26 юни 2002 г.; Дериев И. Особености на националното търсене. // Компютърен преглед // № 15.17 - 23 април 2002 г. Уваров С. Тези, които търсят ще намери. http://nrd.pnpi.spb.ru/UseSoft/Journals/IntemetZone/izone229/pub/izone8.htm www.cronos.ru )

Софтуерни продукти, използващи технология за директно търсене,те просто преминават през файловете и търсят във всеки от тях. Недостатъкът на тази технология е значителните времеви разходи. Подобни помощни програми традиционно присъстват във всички операционни системи, файлови мениджъри и пакети с инструменти.

1. AV търсачка Търсене. Ако изобщо нямате пари, тогава безплатната програма на Анатолий Вознюк - AVSearch (www.avtlab.ru) може да ви помогне. Този софтуерен продукт обаче може да работи само с текстови файлове и RTF файлове, въпреки че във всички кодировки от CP866 до Unicode, което по-специално осигурява „поддръжка“ на DOC формата, т.к. Документите на Microsoft Word се разглеждат като обикновен текст. Програмата търси всички популярни архиви, без да използва външни модули. Интерфейсът му е доста прост и удобен. Като цяло програмата не е лоша, но същественият й недостатък е бавността.

2. Търсачка SSScannerработи с доста висока скорост с Word, WordPerfect, PDF, HLP документи, както и няколко десетки езика и кодировки.

Има възможност за размито търсене (по контекст) с оценка на релевантността и формално. Резултатите се показват в отделен прозорец с извадки от оригиналните документи. SSScanner струва около $30, Shareware версията има редица ограничения.

В момента програмите за директно търсене избледняват на заден план и се заменят активно софтуерни продукти, използващи технология за търсене с индексиране.Този тип софтуер сканира и анализира определени текстови файлове, създавайки собствена база данни („индекс“), в която след това се търси. Индексирането е доста дълъг процес, но търсенето отнема само няколко секунди. Доскоро основните недостатъци на този софтуер бяха продължителността на първоначалната операция за създаване на индекс и допълнителното потребление на дисково пространство. За мощните съвременни компютри обаче това не е от значение. Все още има известно неудобство, свързано с необходимостта от редовно актуализиране на индекси, но това не е проблем.

Нека започнем разглеждането на този сегмент от пазара на търсачки с пълен текст със западни проби.

1. Търсачка Разширено Документ сървър http://ads.newmail.ru/1 заема малко дисково пространство, разпространява се безплатно и има много функции: поддръжка на документи на Microsoft Office, PDF, някои бази данни; търсене в архивни файлове; вграден уеб сървър за отдалечен достъп. Вярно е, че има едно важно „но“: за да работите с почти всеки формат, ви е необходим „роден“ софтуер. За DOC - Microsoft Word, за XLS - Excel, за PDF - пълноценен Adobe Acrobat, както и Internet Explorer, архиватори и др.

И ако мнозина, които работят с документи на Word, използват самото приложение (въпреки че Microsoft също има специален преглед), тогава този принцип вече не е подходящ за PDF. В допълнение, използването на инструменти за автоматизация OLE в този случай има изключително негативно въздействие върху производителността.

2. Софтуер Грийнстоуне предназначен за създаване на „дигитални библиотеки“, което предполага нещо повече от просто търсене с предварително индексиране на документи DOC, PDF и др.. Този софтуерен продукт създава каталог от документи, конвертира ги в HTML формат и осигурява отдалечен достъп до библиотеката чрез браузър. Разпространява се безплатно, със сорс код. Вярно, работи доста бавно.

3. Търсачка dtSearch работен плот(автоматично разпознава различни кодировки, включително кирилица (с изключение на KOI-8), както и няколко дузини файлови формати, сред които си струва да подчертаете DOC, XLS, RTF, PDF, DBX (Outlook Express), XML, плюс популярни бази данни (чрез ODBC).В бази данни и хипертекстови документи е възможно да се търси по съдържанието на определени полета и тагове.Дори защитените PDF файлове се индексират, но програмата не може да получи техните имена и други атрибути.Несъмнено предимство на Програмата търси в ZIP архиви.

По вид търсене се използват: морфологично, фонетично, търсене на синоними, както и търсене на думи с правописни грешки. Освен това dtSearch Desktop предлага на потребителя речник (създаден по време на процеса на създаване на индекс) и автоматично търси в него при въвеждане на заявка.

Единственият недостатък е английският интерфейс на програмата. dtSearch Desktop струва около $200.

Руски софтуер.По отношение на възможностите си за търсене, местните разработки имат известно предимство пред западните, тъй като техните разработчици априори са по-добре запознати с всички видове езикови нюанси на нашия държавен език от чужденците.

1. Търсачка " Блъдхаунд" www.isleuthhound.com или http://www.isleuthhound.ru) (iSleuthHound Technologies).

"Snoop" е система за пълнотекстово персонално търсене, работата с която напомня работата в интернет търсачки като AltaVista, Yahoo, Rambler. Когато го стартирате за първи път, той създава база данни от съществуващи документи и я индексира. Всяка база данни е зона за търсене - пространство на твърдия диск, състоящо се от директории, в които програмата незабавно намира документи и файлове. Тестовата версия на програмата поддържа възможност за създаване само на две зони за търсене с максимум 500 индексирани файла във всяка. Преди да търси документи, „Snoop“ трябва да посочи зона за търсене или да създаде нова, след което да въведете ключовите думи, които документът трябва да съдържа в диалоговия прозорец и да щракнете върху бутона Търсене!

Безплатната версия на Snoop работи само с текстови и DOC файлове, професионалната версия ($15) също работи с RTF и HTML. В допълнение, професионалната версия има набор от допълнителни plug-in филтри - за текст във всички кодировки, документи от други приложения на Microsoft Office и PDF.

Поддръжката на PDF наскоро се появи в програмата и досега този модул не „разбира“ руския език, въпреки че представителите на компанията обещават да премахнат този недостатък в най-близко бъдеще. Но модулът работи чудесно със защитени документи - той не само индексира тяхното съдържание, но също така е в състояние да определи правилно името и дори да извлече текста.

2. Интелигентна система за търсене "Pathfinder" ((„МедиаЛингва“). Последната версия на програмата използва Microsoft SQL Server Desktop Edition за съхраняване на информация. Той елиминира почти всички коментари и въпроси, възникнали преди.

По своята функционалност Pathfinder е подобен на dtSearch. Потребителите имат на разположение няколко опции за търсене: размито, т.е. „на естествен език“ самата система ще отхвърли „шумните“ думи, а останалите ще бъдат сведени до морфологична основа; strict, който търси точно думите, посочени в заявката; формален - с логически и други оператори и възможност за комбиниране на двата предходни.

Поддържат се текстови файлове в различни кодировки, документи от основни приложения на Microsoft Office, PDF файлове, включително тези, пакетирани в zip архиви, както и папки на Microsoft Outlook (както самите съобщения, така и прикачените файлове). Трябва да се отбележи, че използваните филтри са доста "честни", те работят с DOC файлове точно както с Word документи, не индексират PDF файлове, които са защитени от копиране и т.н. - естествено, това може да се тълкува по два начина. Въпреки това, PDF филтърът от Pathfinder изглеждаше един от най-добрите при работа с руски език.

Интерфейсът на програмата е доста удобен, с изключение на няколко нюанса. Например, прозорецът за преглед на намерени документи трябва да бъде извикан специално, но той винаги остава „горният“ и в някои случаи пречи на работата с програмата. Но извлича текст много правилно от документи от всички поддържани формати и подчертава думите на заявката.

Просто трябва да имате предвид, че Pathfinder работи само когато работи приложението Microsoft SQL Server; това приложение се инсталира едновременно с инсталирането на самия Pathfinder.

Програмата се разпространява в три версии - лична, професионална и корпоративна.

Personal, на цена от $10, е лишен от почти всички най-интересни функции - не поддържа морфология и формални заявки, не индексира PDF и Outlook папки.

Професионалният “Pathfinder” ще струва $48 и може да бъде златна среда, тъй като корпоративната версия се разпространява с доста скъпи лицензни пакети, въпреки че допълнителната услуга е работа само с ресурси на локалната мрежа.

3. Система за търсене на документна информация "Крос» (www.cronos.ru („Kronos-Inform“), както и преди, претендира да бъде нещо повече от заглавието на проста търсачка. Разработчиците наричат „Cros“ „система за натрупване и обработка на информация“. има предвид, че “Cros” не просто създава "индекс" на зададените му текстови файлове, той ги копира в собствен архив - банка документи, като същевременно ги компресира и индексира. Търсенето се извършва в собствен архив , Това решение има няколко ефекта наведнъж: скорост на търсене и надеждна защита на документните банки от неоторизиран достъп.

“CROS”, когато се зареди в него, автоматично разпознава всички основни формати и кодировки на текстови файлове, поддържа архиви на електронни документи и бързо търси информация в тях, използвайки произволна комбинация от думи и свойства на документа. Програмата е разработила инструменти за навигация (прост, но мощен език за заявки), сортиране и преглед на намерени фрагменти от документи, както и автоматизирано оформление на отчета.

Има и отделно разпространен уеб интерфейс (под формата на уеб сайт за IIS, Apache или друг сървър с поддръжка на CGI), който позволява на отдалечени потребители да се свързват с “Cros” и да извършват всички основни операции с банката данни.

Този софтуер работи надеждно в Windows OS, не изисква ресурси, удобен е и лесен за използване. Има както локални, така и мрежови версии на този софтуерен продукт.

В сравнение със съществуващите аналози, CROS практически няма ограничения за обема на натрупаната информация, като същевременно значително спестява място на твърдия диск.

Има безплатна демо версия с намалени възможности, работи с една база данни до 5000 документа. Цената на версията за един потребител на CROS е $140; предлагат се значителни отстъпки при инсталиране на няколко компютъра в една и съща организация.

4. " Ефрат 99" ) (Когнитивни технологии). Този продукт също не е „чиста“ търсачка, а система за организиране на управление на електронни документи в персонален мащаб, което предполага максимална автоматизация на създаването и въвеждането на типични офис документи, както и тяхното организиране, регистриране, съхранение, архивиране и съответно търсене.

“Euphrates @SOHO” е почти пълна работна среда със собствен работен плот, кошче, инструменти за работа с файлове и т.н. В допълнение към всички тези “звънци и свирки”, програмата “разбира” документите на Microsoft Office, индексира ги и извършва контекстуално търсене и дори автоматично следи актуализирането на определени документи и папки. Основният му недостатък е липсата на поддръжка за други формати, по-специално PDF, но има някои хубави допълнителни функции като вграден OCR за въвеждане на документи от скенер. Цената на програмата е $20.

"Euphrates Office" поддържа документни формати MS Office 95/97/2000 (DOC, XLS, PPT), текстови (RTF, HTML, TXT (ASCII, ANSI, KOI-8), графични документи - черно-бели и цветни - TIF, PCX, JPG, BMP, GIF и т.н.. Режимът на преглед "чернова" работи (като се вземе предвид оригиналният дизайн и форматиране на документа) Има функция за експортиране към външни приложения, които поддържат необходимия формат.

"Euphrates Office" извършва пълнотекстово и подробно търсене на документи при заявка с всякаква сложност, използвайки логическите операции "И", "ИЛИ", "НЕ", контекстно търсене (заявка по избрани думи от документ в режим на преглед неговият текст). Скоростта на търсене е доста висока и не зависи от броя на регистрираните документи и сложността на заявката.

Има допълнително инсталиран модул Euphrates Document Server, който осигурява едновременна работа на няколко потребителя с една база данни.

Кратко обобщение.В края на нашия преглед бих искал да отбележа, че имате избор на софтуер - това са много ефективните dtSearch Desktop, Bloodhound, Pathfinder, Cros и Euphrates, за притежаването на които ще трябва да се разделите с определена сума на зелените универсални ценности.

Е, ако вашето стиснато ръководство не ви дава пари за софтуер, но изисква резултати, тогава не забравяйте за AVSearch. Вярно е, че разходите за време и труд в този случай се увеличават значително.

Най-новите технологии, приети от московската полиция, ще позволят да се определи за минути дали дадено лице е замесено в престъпление или не. И въобще един гражданин, спрян на улицата или в кола представлява ли интерес за полицията? Руското министерство на вътрешните работи съобщи, че е въведена информационно-извличащата система „Следопит-М“, която е интегрирана със системите на Главния информационно-аналитичен център на министерството по отношение на издирването на хора. При това всички, които се издирват, не само престъпници или заподозрени, но и изчезнали лица.

Основното тук е скоростта на проверка. Човек е помолен да постави пръста си върху устройството и устройството почти мигновено дава отговор: те казват, че няма данни за този конкретен гражданин. Тоест една от многото услуги работи автоматично - централизирана информация за пръстови отпечатъци, където търсенето се извършва в колосален масив, състоящ се от повече от 72 (!) милиона карти с пръстови отпечатъци.

Както казаха експерти от МВР, целта на това нововъведение е не само бързото намиране на престъпника, но и защитата на правата на обикновен невинен гражданин и спестяване на времето и нервите му. Представете си ситуацията: в къща, която минавате на улицата, например, се е случил грабеж или дори убийство. Полицията вече е снела всички налични пръстови отпечатъци и други следи, разпитала е свидетели, проучила е записи от видеокамери и дори е съставила скица на предполагаемия престъпник. Разбира се, тя обяви всички възможни мерки - планове „Прихващане“, „Бариера“ и др. И сега - "късмет": отивате, изглеждайки толкова много като прясно нарисувана скица. Имате право да бъдете задържан за два дни. Тогава, разбира се, ще ви пуснат и дори ще ви се извинят. Но утайката, както се казва, ще остане. И сега, благодарение на интелигентната електроника, процедурата за проверка ще отнеме няколко минути. Освен ако, разбира се, наистина не сте оставили следа на местопрестъплението.

И това е само един от многото, така да се каже, варианти, които преди три години започнаха да се изпълняват по специалната програма, одобрена от кмета на Москва Сергей Собянин „Списък на мерките за закупуване, създаване, внедряване и експлоатация на информационни технологии, комуникации и средства за информационна сигурност в интерес на Главното управление на Министерството на вътрешните работи на Русия в Москва". В рамките на една година беше създадена интегрирана мултисервизна телекомуникационна мрежа. Във всяко районно полицейско управление беше осигурен мощен комуникационен канал и беше монтирано мрежово оборудване, рутери и суичове. Всички патрулни коли са оборудвани с информационни технологии. На екипите на патрулната служба вече са раздадени 800 таблета. До края на годината ще бъдат закупени още около две хиляди компютърни устройства. Всеки автопатрул ще има достъп до информационни служби за проверка на място в бази данни на задържани нарушители или заподозрени лица.

Лице, преминало доброволно процедурата за снемане на пръстови отпечатъци, има право впоследствие да се откаже от нея.

Между другото, въз основа на тази услуга отделите на Държавната инспекция по безопасност на движението, лицензирането и разрешаването, миграцията и други служби внедриха електронна опашка, което позволи значително да се намали времето за приемане на населението. За да бъде банката с данни възможно най-пълна и обективна, столичната полиция сключи споразумения за информационно взаимодействие с правителството на Москва, различни отдели и служби, включително данъчната служба и съдебните изпълнители.

Акцентът върху пръстовите отпечатъци в тази информационна банка не е случаен. Факт е, че все повече хора дават доброволно пръстовите си отпечатъци. Тази процедура се регулира от Федералния закон „За държавната регистрация на пръстови отпечатъци в Руската федерация“. За да информирате близките си навреме и да получите правилната кръвна група, трябва да знаете точно всичко за изпадналия в беда човек и да не губите ценно време в търсене на необходимата информация.

Важното е, че тази процедура се счита за обществена услуга, която се предоставя напълно безплатно. Материалите с пръстови отпечатъци ще се съхраняват възможно най-дълго до навършване на 100-годишна възраст. Те могат да бъдат унищожени, в допълнение към личната молба на „собственика“, след смъртта на човек по молба на роднини.

Въпреки това, лице, което доброволно се подложи на такава регистрация, има право впоследствие да я откаже и да поиска унищожаване на резултатите от пръстовите отпечатъци. И искането му трябва да бъде удовлетворено в рамките на 30 дни от получаването на искането.