Каждый, кто сталкивался с необходимостью зарегистрировать домен в зоне .com, мог быть удивлён числом занятых доменных имён, которые не используются своими владельцами. Пытаясь подобрать комбинацию, несложно заметить, что кто-то застолбил почти все слова на распространённых языках. Это ещё не всё! Не поддающиеся расшифровке и произнесению последовательности букв тоже заняты. Неужели рынок доменов настолько широк, и каждое имя ждёт своего покупателя? Что по этому поводу могут рассказать цифры?
На декабрь 2019 года в зоне .com было занято почти 138 миллионов доменов, при этом свободных пятициферных не так и много. Динамику можно отслеживать на сервисе Verisign. Все комбинации делятся на три почти одинаковые группы:
- реально работающие доменные имена, прикреплённые к сайтам компаний, частным веб-страницам, используемые для имэйл-адресов;
- недействующие домены;
- работающие в «тёмном» сегменте интернета.
Ниже приведём исследование одного из пользователей сети, который, проанализировав в ручном режиме выборку из более чем двух тысяч domains, показал, для чего их используют. Чтобы получить выборку, пользователем была проведена большая подготовительная работа.
Откуда все эти данные?
Краулинг был начат с рандомной подборки верхнеуровневых доменов DNS-файла .com и длился 2-е суток до отметки в сто тыс. валидных единиц. Не все записи можно было отнести к валидным. Исключены ханипоты для отлавливания посетителей, подпольно распространяющие файлы зоны. Кроме того, около процента – это нейм-сервера. Всего было отсечено более тысячи доменов.
Для каждого из оставшихся были получены данные:
- WHOIS;
- все DNS-записи;
- HTTP/HTTPS-отклик , а в случае, если сертификат SSL оказывался невалидным, данный сайт отправлялся в категорию «ошибка»;
- скрин заглавной страницы.
Сведения собирались с одного сингапурского дата-центра.
Ряд domains нельзя было проверить из-за всевозможных случайных ошибок, в результате чего не получалось подсоединиться через HTTP(HTTPS). Для более чем 2000 ресурсов предприняли следующий шаг: информация была проверена в ручном режиме. Последнее действие было необходимо, если «ЯваСкрипт» запрещал DOM-события либо краулер вышел бы из-за истечения срока.
После этого автор исследования создал программу, которая помогла ему распределять сайты по группам в зависимости от содержимого и скрина. На классификацию ушло 2 дня. Ручной работы потребовалось не так много: места многих площадок становились очевидны уже из графы «тайтл». В отдельных случаях действенным оказывался только ручной способ сортировки с открыванием страниц в браузере.
Данные в цифрах и краткие итоги
Анализ информации вылился в несколько показательных тезисов.
1/3 часть всех имён (>40 млн) зарегистрированы через GoDaddy, включая 30 проыентов парковочных веб-страниц. Отсюда следует вывод: >десятой части всей .com-зоны заполнены объявлениями данного регистратора.
В данную выборку попали почти 2 тысячи регистраторовв, на них приходится мизерное число операторов. Для примера: свыше 1 тыс. регистраторов у одного лишь Drop Catch, именуются они с числовыми приписками: «…1000...», «…1001...» и дальше по порядку. Подобная система встречается и у других регистраторах, но не у всех она так бросается в глаза.
Четверть существующих сейчас имён зарегистрированы за последние 12 месяцев.
Классификация имён
В скобках обозначен процент и приблизительное общее количество, пропорциональное данным выборки.
Контент (31 %/43 миллиона)
По этим адресам «прописаны» сайты с уникальными материалами. Сюда же помещались ресурсы, в назначении которых имелись сомнения.
Реклама (23 %/30 млн)
Любопытный факт: 50 % состава этой группы – это паркинговые web-страницы GoDaddy, где сам он публикует контентные объявления «Гугла», подобранные по запросам, связанным со значением названия домена.
Отсутствует веб-сервер (11 %/15 млн)
В эту группу помещены домены, к которым невозможно было подсоединиться и для которых не выдавался валидный отклик, а кроме того, не имелось MX-записи. С точностью нельзя утверждать, применяется ли какая-то часть из этих доменов как сервера для игр или FTF. Какое-то незначительное количество может служить подобным целям. Кроме того, в эту категорию добавлены и страницы на IPv6, что связано с настройками для IPv4.
Пустая страница (9 %/около 13 млн)
Здесь, в отличие от предыдущей категории, сервер отвечал на запросы, но возвращал ошибку 404, пустую страницу или неготовые шаблоны (пример: дефолтные настройки «Вордпресс»). Можно предположить, что такие сайты уже готовятся к реальной работе, просто владельцы ещё не добавили контент.
Выставлены для реализации (7 %/10 млн)
Судя по всему, крупнейший игрок доменного рынка – HugeDomains – держит около 50% всей торговли, но информация на сайте продавца говорит лишь о 200 тысячах доменов, выставленных для реализации. Для этой выборки учитывались только лоты от крупных площадок или случаи, когда контактная информация не размещалась в самом объявлении (брокеры нередко умалчивают, что не имеют отношения к хозяину домена). Все сомнительные в этом отношении страницы причислялись к обычным объявлениям.
Выдаётся ошибка (5.7 %/8 % млн)
Сюда попали домены, возвратившие любую разновидность ошибки. Есть вероятность погрешности из-за ненамеренного отнесения к данной серии нескольких приватных доменов, применяющих стандартную аутентификацию. Это связано с отсутствием технической возможности отделить 40-ю от прочих «Errors».
Запаркован (5 %/6.5 млн)
На таких доменах пользователь видит веб-страницу компании-регистратора либо оповещение, что процедура настройки находится в стадии выполнения. К этой группе не отнесли страницы со сторонней рекламой, но размещение рекламы собственных услуг не становилось препятствием для отнесения к категории запаркованных.
Занят под сервисы азартных игр (3 %/4 млн)
Примечательно, что подавляющее большинство страниц данного типа функционирует под алиасами и выполнено на китайском. Нередко именами служат последовательности рандомных чисел либо слова из одних только согласных букв (38838338, drwgbzm). Такие страницы выполнены по единым шаблонам и публикуют близкие по смыслу картинки. Иногда логотипы генерируются на автомате. Можно предположить, что смысл заключается в попытке заманить пользователей.
Почта (2.6 %/3.5 млн)
Домен может не относиться ни к одной группе, но иметь MX-запись в DNS (с целью заведения электронного адреса). В рабочем ли состоянии почтовый сервер и доставляются ли послания, на практике не проверялось, поэтому есть вероятность, что некоторый процент доменных имён из этой группы вовсе не применяется для почтовых услуг.
Редирект (1 %/1.6 млн)
Такие веб-страницы перенаправляют пользователей к аккаунтам своих владельцев в «Фейсбуке». Сюда же относятся наименования брендов с альтернативным написанием, неофициальные названия фирм и другие подобные случаи.
Приватный (0.64 %/1 млн)
Попадая по такому адресу, пользователь видит форму для входа (реже присутствует ещё и возможность регистрации). Доступ к информации приватных сайтов открыт только для «своих».
Порно-контент (0.6/0.8 млн)
Схема работы таких сайтов схожа с онлайн-казино: присутствие в сети под множеством различных алиасов, и здесь тоже большинство страниц представлено на китайском, а наименование доменов подвержено определённой логике шаблонов.