Принцип на работа на търсещите машини

Търсещите машини се намират в центъра на информационните операции в интернет, като всеки ден насочват милиарди интернет потребители към уебсайтове, които се появяват в горната част на страницата с резултатите от търсене. Според повечето автори търсачките са „приложения, които използват ключови думи и фрази за намиране на информация в Интернет[1]„. Тези приложения включват няколко основни компоненти[2]:

  • интерфейс за търсене;
  • уеб паяци (ботове, роботи);
  • бази данни;
  • алгоритми за търсене и извличане на информация.

Интерфейсътза търсене е страницата, където се пишат заявките за търсене. Той е връзката между потребителите и базите с данни. В Google интерфейсът е индивидуален, така че потребителите могат да избират няколко опции,  като новини, видеоклипове, изображения, публикации и т.н.

Ботовете се дефинират от Google  като „общ термин за всяка автоматизирана програма (робот или паяк), използвана за автоматично откриване и сканиране на уебсайтове, като следват връзки от една уеб страница към друга[1].“ Уеб ботовете постоянно „обхождат“ мрежата за нова информация, като по график проследяват поставените връзки в първоначално създаден списък от сайтове и изтеглят новите страници във формат HTML за последваща обработка и класифициране.

Базите данни съхраняват информацията, извлечена от уеб ботовете (роботите, паяците) и я класифицират в подходящ за възпроизвеждане вид. Всеки път, когато правим заявки в търсачката, ние търсим информация в базите  данни[2].

Алгоритмите за търсене и класиране се определят от Google като „компютърни процеси и модели, които правят търсенето значително по-лесно и дават релевантен отговор на запитванията на потребителите[3]„. Всяка търсачка използва различни алгоритми, така че при една и съща заявка за търсене ще се видят различни варианти на резултата.

Ботовете, базите данни, интерфейсът за търсене и алгоритмите са водещи технологии за търсачката, която показва крайния резултат от тяхната работа  в интерфейса за търсене.


[1] Google Search Console. No date. Irrelevant keywords. Accessed on 20 December 2016.

[2] Michigan Public Health Training Center, ei pvm

[3] GoogleInside Search. 2012. Algorithms. Accessed 22 March 2017. https://www.google.com/in-sidesearch/howsearchworks/algorithms.html

[1] Google. No date. Google Crawlers. Accessed 10 January 2017. https://sup-port.google.com/уебmasters/answer/1061943?hl=en



[1] Tilley, S. & Rosenblatt, H. Systems Analysis and Design. Eleventh edition. Boston, MA: Cen-gage Learning