Сколько доменных имен .com не используется?

Каждый, кто сталкивался с необходимостью зарегистрировать домен в зоне .com, мог быть удивлён числом занятых доменных имён, которые не используются своими владельцами. Пытаясь подобрать комбинацию, несложно заметить, что кто-то застолбил почти все слова на распространённых языках. Это ещё не всё! Не поддающиеся расшифровке и произнесению последовательности букв тоже заняты. Неужели рынок доменов настолько широк, и каждое имя ждёт своего покупателя? Что по этому поводу могут рассказать цифры?

На декабрь 2019 года в зоне .com было занято почти 138 миллионов доменов, при этом свободных пятициферных не так и много. Динамику можно отслеживать на сервисе Verisign. Все комбинации делятся на три почти одинаковые группы:

  • реально работающие доменные имена, прикреплённые к сайтам компаний, частным веб-страницам, используемые для имэйл-адресов;
  • недействующие домены;
  • работающие в «тёмном» сегменте интернета.

Ниже приведём исследование одного из пользователей сети, который, проанализировав в ручном режиме выборку из более чем двух тысяч domains, показал, для чего их используют. Чтобы получить выборку, пользователем была проведена большая подготовительная работа.

Откуда все эти данные?

Краулинг был начат с рандомной подборки верхнеуровневых доменов DNS-файла .com и длился 2-е суток до отметки в сто тыс. валидных единиц. Не все записи можно было отнести к валидным. Исключены ханипоты для отлавливания посетителей, подпольно распространяющие файлы зоны. Кроме того, около процента – это нейм-сервера. Всего было отсечено более тысячи доменов.

Для каждого из оставшихся были получены данные:

  • WHOIS;
  • все DNS-записи;
  • HTTP/HTTPS-отклик , а в случае, если сертификат SSL оказывался невалидным, данный сайт отправлялся в категорию «ошибка»;
  • скрин заглавной страницы.

Сведения собирались с одного сингапурского дата-центра.

Ряд domains нельзя было проверить из-за всевозможных случайных ошибок, в результате чего не получалось подсоединиться через HTTP(HTTPS). Для более чем 2000 ресурсов предприняли следующий шаг: информация была проверена в ручном режиме. Последнее действие было необходимо, если «ЯваСкрипт» запрещал DOM-события либо краулер вышел бы из-за истечения срока.

После этого автор исследования создал программу, которая помогла ему распределять сайты по группам в зависимости от содержимого и скрина. На классификацию ушло 2 дня. Ручной работы потребовалось не так много: места многих площадок становились очевидны уже из графы «тайтл». В отдельных случаях действенным оказывался только ручной способ сортировки с открыванием страниц в браузере.

Данные в цифрах и краткие итоги

Анализ информации вылился в несколько показательных тезисов.

1/3 часть всех имён (>40 млн) зарегистрированы через GoDaddy, включая 30 проыентов парковочных веб-страниц. Отсюда следует вывод: >десятой части всей .com-зоны заполнены объявлениями данного регистратора.

В данную выборку попали почти 2 тысячи регистраторовв, на них приходится мизерное число операторов. Для примера: свыше 1 тыс. регистраторов у одного лишь Drop Catch, именуются они с числовыми приписками: «…1000...», «…1001...» и дальше по порядку. Подобная система встречается и у других регистраторах, но не у всех она так бросается в глаза.

Четверть существующих сейчас имён зарегистрированы за последние 12 месяцев.

Классификация имён

В скобках обозначен процент и приблизительное общее количество, пропорциональное данным выборки.

Контент (31 %/43 миллиона)

По этим адресам «прописаны» сайты с уникальными материалами. Сюда же помещались ресурсы, в назначении которых имелись сомнения.

Реклама (23 %/30 млн)

Любопытный факт: 50 % состава этой группы – это паркинговые web-страницы GoDaddy, где сам он публикует контентные объявления «Гугла», подобранные по запросам, связанным со значением названия домена.

Отсутствует веб-сервер (11 %/15 млн)

В эту группу помещены домены, к которым невозможно было подсоединиться и для которых не выдавался валидный отклик, а кроме того, не имелось MX-записи. С точностью нельзя утверждать, применяется ли какая-то часть из этих доменов как сервера для игр или FTF. Какое-то незначительное количество может служить подобным целям. Кроме того, в эту категорию добавлены и страницы на IPv6, что связано с настройками для IPv4.

Пустая страница (9 %/около 13 млн)

Здесь, в отличие от предыдущей категории, сервер отвечал на запросы, но возвращал ошибку 404, пустую страницу или неготовые шаблоны (пример: дефолтные настройки «Вордпресс»). Можно предположить, что такие сайты уже готовятся к реальной работе, просто владельцы ещё не добавили контент.

Выставлены для реализации (7 %/10 млн)

Судя по всему, крупнейший игрок доменного рынка – HugeDomains – держит около 50% всей торговли, но информация на сайте продавца говорит лишь о 200 тысячах доменов, выставленных для реализации. Для этой выборки учитывались только лоты от крупных площадок или случаи, когда контактная информация не размещалась в самом объявлении (брокеры нередко умалчивают, что не имеют отношения к хозяину домена). Все сомнительные в этом отношении страницы причислялись к обычным объявлениям.

Выдаётся ошибка (5.7 %/8 % млн)

Сюда попали домены, возвратившие любую разновидность ошибки. Есть вероятность погрешности из-за ненамеренного отнесения к данной серии нескольких приватных доменов, применяющих стандартную аутентификацию. Это связано с отсутствием технической возможности отделить 40-ю от прочих «Errors».

Запаркован (5 %/6.5 млн)

На таких доменах пользователь видит веб-страницу компании-регистратора либо оповещение, что процедура настройки находится в стадии выполнения. К этой группе не отнесли страницы со сторонней рекламой, но размещение рекламы собственных услуг не становилось препятствием для отнесения к категории запаркованных.

Занят под сервисы азартных игр (3 %/4 млн)

Примечательно, что подавляющее большинство страниц данного типа функционирует под алиасами и выполнено на китайском. Нередко именами служат последовательности рандомных чисел либо слова из одних только согласных букв (38838338, drwgbzm). Такие страницы выполнены по единым шаблонам и публикуют близкие по смыслу картинки. Иногда логотипы генерируются на автомате. Можно предположить, что смысл заключается в попытке заманить пользователей.

Почта (2.6 %/3.5 млн)

Домен может не относиться ни к одной группе, но иметь MX-запись в DNS (с целью заведения электронного адреса). В рабочем ли состоянии почтовый сервер и доставляются ли послания, на практике не проверялось, поэтому есть вероятность, что некоторый процент доменных имён из этой группы вовсе не применяется для почтовых услуг.

Редирект (1 %/1.6 млн)

Такие веб-страницы перенаправляют пользователей к аккаунтам своих владельцев в «Фейсбуке». Сюда же относятся наименования брендов с альтернативным написанием, неофициальные названия фирм и другие подобные случаи.

Приватный (0.64 %/1 млн)

Попадая по такому адресу, пользователь видит форму для входа (реже присутствует ещё и возможность регистрации). Доступ к информации приватных сайтов открыт только для «своих».

Порно-контент (0.6/0.8 млн)

Схема работы таких сайтов схожа с онлайн-казино: присутствие в сети под множеством различных алиасов, и здесь тоже большинство страниц представлено на китайском, а наименование доменов подвержено определённой логике шаблонов.