В статията “Борба с уеб спама” на Стандфордския университет се предлага иновативна техника за анализ на връзките, която решава проблема с манипулирането на резултатите в класирането на търсещите машини[1]. Основната идея е използване на полуавтоматично отделяне на полезните страници от спама (нежеланите страници). Терминът “уеб спам” се отнася до нискокачествени страници с хипервръзки, създадени с намерение за подвеждане на търсачките и манипулиране на резултатите.
Новият алгоритъм Trust Rank се стреми да се бори срещу този спам, като филтрира мрежата въз основа на надеждността на източника[2].
Методът изисква предварителен избор на първоначална представителна извадка от списък с качествени страници и списък с лоши страници, които са ръчно оценени от експерти.
Хората са най-добрия спам детектор и се налага да покажат на търсачката кои страници са спам!
Към добрите сайтове предварително са поставени правителствените сайтове, уеб страници на университети, някои основни директории, големи марки и други авторитетни източници, които се ползват с всепризнато доверие.
След определяне на първоначалната извадка ботовете започват да търсят сходни страници при обхождане на Мрежата. За да открият качествените страници търсачките разчитат на едно важно емпирично наблюдение, което се нарича „приблизителна изолация на добрия набор“: добрите страници рядко сочат към лошите. Логиката е, че качествените страници поставят връзки към други качествени страници. Затова колкото сайта е по-близо до предварително избрания списък, толкова е по-качествен той. Обратния вариант се нарича антитръстов ранг, колкото по-близо е дадения сайт до спам страниците, толкова по-голяма е вероятността и той да е спам43.
За да оценят страниците без да разчитат на човешка намеса, търсачките преценяват вероятността дадена страница p да е добра, като дефинират доверителна тръст функция T(p), която връща вероятността страница p да е добра или лоша със следните стойности:
(12)
Освен това доверието на Trust Rank
намалява с увеличаване на разстоянието между документите и отдалечаване от
списъка на експертите. Технически този проблем е решен, чрез намаляване на предавания тръст с всяка
следваща итерация.
Със сигурност Trust Rank силно влияе на резултатите от Page Rank, но за съжаление точните параметри се пазят като фирмена тайна на Google.
Поради тази причина към момента в публичното пространство се използват четири основни показателя за измерването на силата на даден уебсайт:
- Domain Authority за измерване на цялостния авторитет на домейна;
- Page Authority за авторитет на ниво страница;
- Citation Flow (CF) за измерване цитиранията на вашия бранд (домейн) в Интернет пространството;
- Тrust Flow оценява тръстовия поток със стойности от 0 до 100.
Последните два показателя са изключително полезна метрика предложена от компанията Majestic SEO, която отлично наподобява класическия TrustRank и изчислява по същия начин, чрез скрит списък на добри и лоши сайтове[1].
Алгоритъма измерва качеството на вашите входящи връзки въз основа на качеството на входящите връзки на донорския сайт, които сочи към вас. С други думи обхваща хипервръзките с няколко стъпки назад. Ако всички те идват от сайтове с висок доверителен поток, тогава вашият домейн ще има висок Trust Flow и колкото по-близо сте до първоначалната извадка, толкова по-добре.
Съдейки от практическия опит с линкове силата на Trust Flow измерена с инструмента на Majestic SEO може да се класифицира така:
- стойност на TF под 10 – лошо качество,
- TF от 10 до 15 – добро,
- TF от 16-20 – много добро
- TF над 20 – отличен показател за сайта.
Според руския експерт Сергей Кокчаров комбинацията от двете метрики CF и TF позволява да се оцени силата на даден сайт и качеството на връзката от него по формулата[2]:
Т = (TF – CF) / (TF + CF + 1) + TF / (CF + 1) + TF / 100 (13)
където Т е общ тръст на сайта,
CF – числова стойност на Citation Flow,
TF – стойност на Trust Flow.
Първата част на формулата нормализира абсолютната разлика между резултатите на TF и CF, втората част е относителна разлика, а последната част нормализира стойността на доверието.
След редица емпирични експерименти със стотици сайтове се установи, че при изчисления по горепосочената формула резултат по-малък от 0,3 следва да се приема за изключително лошо качество на сайта.
Полученото число може да се използва за почистване на профила на оптимизирания сайт от лоши връзки. Всички връзки, които са по-малки от 0.3 следва да бъдат премахнати за формиране на оптимална картина на връзките.
Друг извод от изследването е, че в никакъв случай Citation Flow не трябва да бъде по-голям от два пъти Trust Flow. Например при TF=15, не трябва CF да е по-голям от 30. В противен случай сайта може да бъде засегнат от Penguin алгоритъма за спам.
Идеалният
вариант, към който следва да се стремим е двата параметъра да бъдат равни CF =
TF.
[1] Majestic SEO https://majestic.com/
[2] Сергей Кокчаров Простой метод быстро определить качество ссылочного профиля https://devaka.ru/articles/trust-flow
[1] Krishnan, Vijay; Raj, Rashmi. Web Spam Detection with Anti-Trust Rank” Stanford University. http://i.stanford.edu/~kvijay/krishnan-raj-airweb06.pdf
[2] Доверителен ранг https://devaka.ru/articles/trust-flow [преглед 22.06.2018]