3. Принцип на работа на търсещите машини

Търсещите машини се намират в центъра на информационните операции в интернет, като всеки ден насочват милиарди интернет потребители към уебсайтове, които се появяват в горната част на страницата с резултатите от търсене. Според повечето автори търсачките са “приложения, които използват ключови думи и фрази за намиране на информация в Интернет[1]“. Тези приложения включват няколко основни компоненти[2]:

  • интерфейс за търсене;
  • уеб паяци (ботове, роботи);
  • бази данни;
  • алгоритми за търсене и извличане на информация.

Интерфейсътза търсене е страницата, където се пишат заявките за търсене. Той е връзката между потребителите и базите с данни. В Google интерфейсът е индивидуален, така че потребителите могат да избират няколко опции,  като новини, видеоклипове, изображения, публикации и т.н.

Ботовете се дефинират от Google  като “общ термин за всяка автоматизирана програма (робот или паяк), използвана за автоматично откриване и сканиране на уебсайтове, като следват връзки от една уеб страница към друга[1].” Уеб ботовете постоянно “обхождат” мрежата за нова информация, като по график проследяват поставените връзки в първоначално създаден списък от сайтове и изтеглят новите страници във формат HTML за последваща обработка и класифициране.

Базите данни съхраняват информацията, извлечена от уеб ботовете (роботите, паяците) и я класифицират в подходящ за възпроизвеждане вид. Всеки път, когато правим заявки в търсачката, ние търсим информация в базите  данни[2].

Алгоритмите за търсене и класиране се определят от Google като “компютърни процеси и модели, които правят търсенето значително по-лесно и дават релевантен отговор на запитванията на потребителите[3]“. Всяка търсачка използва различни алгоритми, така че при една и съща заявка за търсене ще се видят различни варианти на резултата.

Ботовете, базите данни, интерфейсът за търсене и алгоритмите са водещи технологии за търсачката, която показва крайния резултат от тяхната работа  в интерфейса за търсене.

Работа на Уеб бот

При създаването на една чисто нова уеб страница в Интернет търсещите машини не знаят за нейното съществуване и съответно тя е невидима за хората, които не влизат в нея. Тя не се появява в резултатите от търсене, докато Google не я индексира. Това значи ботовете (обхождащите паяци) на търсачката да я намерят, обработят и да я съхранят в базата данни на Google, където се класифицира и подрежда по тематика и ключови думи.

В своята работа уеб ботовете „обхождат“ мрежата за нова информация движейки се по връзките между страниците. При посещение на индексирана страница те проследяват всички хипервръзки в нея и ако открият нова, неиндексирана страница сканират кода на страницата, заглавията, уеб съдържанието, търсят етикети, описания и инструкции за да научат повече за нейната тема, кой стои зад това, какво прави и какво го интересува, след което записват новите данни с определена точност в базите данни (индексират ги).

Това не е малко работа, като се има в предвид, че всяка минута се изграждат между 300 – 500  нови уебсайта, всеки от които има средно 7 страници. По данни  на Internetlivestats.com от септември 2017 г. Google обработва почти 3,8 милиона търсения всяка минута или 5,5 милиарда на денонощие, а в техния индекс се съхранява информация за над 30 трилиона уникални уеб страници и над 100 милиона гигабайта информация[1].

Това е огромно количество информация поради което търсачката много бързо трябва да обработи, класифицира и покаже информацията при търсене за по-малко от секундата.

Когато потребителя направи заявка за определена ключова дума, търсачката намира всички подходящи индексирани уеб страници по тази тематика и ги показва в SERP (страницата с показаните резултати) подредени според ранг по реда на релевантност и авторитет.

Първо са тези с по-голям ранг, после с по-малък ранг и т.н.  Този ранг се определя според действащите математически алгоритми, които в днешно време отчитат над 200 информационни параметъра за сайта[2].


[1] Google Search Console. No date. Irrelevant keywords. Accessed on 20 December 2016.

[2] Michigan Public Health Training Center, ei pvm

[3] GoogleInside Search. 2012. Algorithms. Accessed 22 March 2017. https://www.google.com/in-sidesearch/howsearchworks/algorithms.html

[1] Google. No date. Google Crawlers. Accessed 10 January 2017. https://sup-port.google.com/уебmasters/answer/1061943?hl=en



[1] Tilley, S. & Rosenblatt, H. Systems Analysis and Design. Eleventh edition. Boston, MA: Cen-gage Learning