Об алгоритме счетчика обновленного WWW.uz

www
Автор Азиз Мадетов.
Как и обещал, рассказываю подробно об алгоритме счетчика новой версии сервиса WWW.uz. Для начала разберемся, чем отличается новая версия WWW.uz от старой.
Самая первая версия была разработана в то время, когда сайты Узнета не были настолько популярными, как сейчас, и архитектура сервиса не была рассчитана на работу с большим объемом данных.


Со временем это компенсировалось наращиванием мощностей серверов и переписыванием кода анализатора статистики под многопоточность – таким образом создавались следующие версии анализатора, но изменения не затрагивали алгоритм анализа – поэтому для пользователей это было незаметно. Сейчас алгоритм сбора и анализа статистики полностью изменен, и он, как бы это громко ни звучало, уникален – далее я объясню, почему. Если раньше работоспособность сервиса обеспечивалась серверами одной архитектуры и все входящие и обработанные данные хранились в СУБД, а обрабатывались PHP-скриптами, то в новой версии задействованы сервера с архитектурой, оптимально подходящей для их конкретных задач. Так, на входе быстрый сбор данных обеспечивается за счет проксирования запросов на быстрые кеширующие сервера, с которых написанные на языках высокого уровня анализаторы забирают только нужные данные – каждый в соответствии со своей задачей, и помещают обработанные структурированные данные в СУБД, откуда информация выводится на страницах WWW.UZ и счетчиках.

Старый анализатор считал количество хостов – уникальных IP адресов посетителей за сутки и хитов – просмотров страниц с каждого хоста. Такой метод подсчета был не объективным, так как обычно с одного IP адреса в сеть выходят работники целых организаций и абоненты некоторых провайдеров, выдающих пользователям только динамические IP адреса – за сутки у одного пользователя IP адрес может смениться 2-5 раз, а если с нового выданного IP адреса в тот день на сайт уже заходил другой пользователь, такой хост не засчитывался. В новой версии разработчики учли этот факт, заменив «хосты» на «визиты» и изменив алгоритм их подсчета: теперь вместо IP адреса посетителя учитывается хэш-сумма, состоящая из IP адреса и HTTP-заголовка браузера «User-Agent», который для каждого учитываемого IP адреса является относительно уникальным. Погрешность такого метода подсчета настолько мала, что ее можно не рассматривать. Все последующие визиты, хэш-сумма которых совпадает с предыдущими данными за текущие сутки, засчитываются только как просмотр. Похожий алгоритм используется при подсчете статистики в Google Analytics, с той разницей, что в Google Analytics визит имеет срок жизни 30 минут с последней активности, после истечения которых он будет снова засчитан как уникальный. Подробнее о подсчете посещений в Google Analytics тут: https://support.google.com/analytics/answer/2731565?hl=ru

У многих пользователей возникает справедливый вопрос: почему, если алгоритм анализа Google Analytics и WWW.UZ схож, отмечается существенная разница в подсчете визитов? Все объясняется тем, что в новой версии все параметры визита проходят сложную валидацию. Согласно правилам, визиты, содержащие невалидный HTTP-заголовок «User-Agent», анализатором не учитываются. Также не обрабатываются данные, полученные от счетчика, размещенного на домене, не входящем в список доменов ресурса, которому он принадлежит – то есть, отклоняются накрутки визитов за счет вставки кода счетчика на другой сайт или загрузка страницы, содержащей счетчик, в iframe и т.д. Отклоняются запросы и от ботов (пауков, краулеров) поисковых систем, что также уменьшает количество учтенных визитов и просмотров.

Стоп! Если это так, почему статистика новой версии WWW.UZ чаще всего показывает количество визитов, приближенное к данным статистики Google Analytics, а количество просмотров намного меньше? – Все дело в Tas-IX. Да, именно в Узбекистанской точке обмена трафиком. Так как внешний трафик для пользователей все еще дорогой, а доступ в Tas-IX большинство провайдеров предоставляют за символическую плату, сформировалась тенденция подключения юридических лиц к тарифам без включенного лимита внешнего трафика, в основном для доступа к сайтам государственных служб. Визиты таких пользователей Google Analytics не может засчитать, так как его код попросту не загружается у них в браузерах из-за отсутствия доступа к внешнему интернету. А счетчик WWW.UZ успешно загружается и отсылает данные о визите в датацентр UZINFOCOM. Возникающие большие несовпадения просмотров и визитов с данными Google Analytics объясняются тем, что Google Analytics не может посчитать пользователей без доступа к внешнему интернету, но считает визиты поисковых ботов, а WWW.UZ наоборот – отклоняет ботов и считает пользователей в Tas-IX.

Как правило, люди уходят с непонравившегося сайта, оставляя в его статистике один визит и максимум пару просмотров, а боты поисковых систем переходят по всем ссылкам на странице входа, создавая записи о нескольких просмотрах за один визит. Поэтому WWW.UZ является уникальным и самым объективным сервисом учета статистики сайтов в узнете.

Если вам кажется, что WWW.UZ показывает мало просмотров страниц вашего сайта, стоит задуматься о качестве контента!

Похожие статьи

Старикам здесь место: как правильно взрослеть в программировании
Программист — относительно новая профессия, но время идет, и в ней появляются ветераны. Как быть

Похожие статьи

Магазин приложений ZTE
ZTE — ведущий мировой поставщик телекоммуникационного оборудования и мобильных телефонов. Ассортимент продукции ZTE охватывает практически

2 Комментарии

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *