Ноябрь
12
2009

Отчет Яndex о рунете

Компанией яндекс было проведено исследование сайтов рунета. Под «Рунетом» подразумевают все сайты написанные на русском, украинском, белорусском или казахском языках, а также сайты на любых языках, размещенные в национальных доменах .am, .az, .by, .ge, .kg, .kz, .md, .ru, .su, .tj, .ua или uz. Конечно информацию нельзя считать полной, но кое-что посмотреть интересно.

Полнота

Информацию нельзя считать полной, потому что:

  • Интернет постоянно меняется и уследить за ним нериально
  • Использованы только страницы из индекса Яндекса
  • Использованы только страницы, которые доступны без ввода логина

Общая статистика

В Рунете 15 миллионов сайтов, это 6,5% от всего интернета(Netcraft посчитало, что во всем интернете 230 млн сайтов). Российских пользователей в интернете 35 млн, это 2,2% пользователей в мире(из 1,4 млрд пользователей в мире). Итак у яндекса вышло, что на пользователя из россии приходится больше сайтов, чем в среднем в мире. Обалденная статистика, но давайте смотреть правде в глаза: откинуто 7,7 млн пользователей из Украины, около 2,5 миллионов пользователей Беларуси. Для правильного подсчета, нужно делить весь «Рунет», между всеми русскоговорящими пользователями.

Суммарное количество текстов в интернете 140 тысяч Гигабайт(140 Терабайт). И это количество не учитывает количество дублей, когда новости кочуют между сайтами методом копипасты.

А вот интересная статистика о количестве страниц

На самом деле статистика совсем другая, просто снова идет умалчивание о способе сбора данных:

  • указаны страницы из индекса яндекса, а он часто любит выбрасывать страницы, которые посчитал неправильными
  • указаны страницы не требующие пароля, а это обычно и есть страница авторизации. Страница регистрации и тому подобное обычно запрещены файликом robots.txt

Эмоции

Слова, обозначающие позитивные эмоции и чувства, в интернете встречаются в два раза чаще, чем негативные.

Часто эмоции выражают смайлами, так вот грустных смайлов в 2,5 раза меньше чем веселых.

Приятно, что самые частые слова это любовь и добро. В бумажном словаре они не попали даже в топ-50. И после такой статистики кто-то предлагает читать книги, а не сидеть в интернете.

Правописание

Приятно, что доля орфографических ошибок и опечаток в словах всего 5-6%. Не знаю даже кого благодарить, то-ли грама-наци, то-ли встроенную проверку орфографии в программах.

В отчете упоминается интересный факт с кофе. По правилам русскгого языка это слово среднего рода. Однако сайтов с надписью «хороший кофе» в 12 раз больше, чем сайтов с правильным вариантом «хорошее кофе». «Черное кофе» проигрывает варианту «чорный кофе» в 16 раз, а «растворимый кофе» встречается в 19 раз чаще, чем «растворимое кофе».

Про написание иностранных слов в транслитерации говорить даже не стоит.

Спец слова и региональные названия

В топ слов попали технические термины, которые есть пракически на каждом сайте, на каждой странице: «регистрация», «посик», «сайт», «форум», «комментарий». Это значит лишь то, что поисковик неправильно определяет контекст слов. Логично предположить, что эти слова служебные и поисковикам нуно учится отделять их от содержания. Это увеличит релативность поисковой выдачи.

Обозначения российских регионов ледируют среди слов, описывающих местность. Дело не в том, что пользователям не интересны дальние страны, а в том, что эти названия часто пишут в профиле, а потом в каждом сообщении на форуме или блоге вставляется эта информация.

Вывод

Всегда интересно порыться в статистике и узнать какие-то интересные факты, но к информации нужно подходить с умом и делать выоды самостоятельно.

Источник

Скачать полный отчет вы можете на сайте яндекса: http://download.yandex.ru/company/yandex_on_content_autumn_2009.pdf

Неправильная раскладка: jnxtn zтвуч j heytnt

Понравилась статья? Посоветуйте друзьям!

IMO


Понравилась статья? Подпишись на рассылку по E-Mail или в RSS.