Насколько популярен белорусский язык в байнете?

Но ни для кого не секрет, что язык титульной нации нашего государства (белорусский), хоть и является государственным, но не очень популярен среди населения Беларуси. На нем разговаривает совсем небольшой процент граждан. Он пользуется популярностью разве что в определенных политических кругах, в слоях интеллигенции, среди некоторых представителей молодежи и, пожалуй, у деревенских жителей (в виде пресловутой «трасянки»).

Разумеется, это весьма прискорбно, что один из европейских языков находится, если не на грани вымирания, то уж точно в тяжелом положении. Не находя достаточной поддержки со стороны государства, белорусский язык живет и развивается во многом благодаря энтузиастам. А для них одним из способов самовыражения является интернет, где можно писать хоть по-русски, хоть по-белорусски, хоть по-монгольски, и никто не упрекнет тебя: «ой мужчына, гаварыце нармальна, я вас не панимаю».

Тот факт, что интернет является территорией относительной свободы, натолкнул на мысль исследовать насколько белорусскоязычен, если можно так выразиться, белорусский интернет. К слову, в байнете не так уж и много сайтов, по сравнению с интернет-сегментами других государств. Следовательно, можно чуть ли не каждый ресурс проверить на предмет того, какой язык на нем используется. Проверить, конечно же, не вручную, а максимально автоматизировав этот процесс.

Этап 1. Сбор базы данных адресов сайтов байнета

Благо информацию о белорусских сайтах можно легко раздобыть, благодаря разного рода каталогам, поисковикам и т.п. Для исследования был выбран каталог сайтов байнета с сайта www.akavita.by. Это один из наиболее старых и полных каталогов сайтов белорусского сегмента Сети. Большинство сайтов этого каталога «живые», но не все регулярно обновляются.

На момент обращения к каталогу (30 июля 2015 г.) в нем содержались сведения о 5315 сайтах, администраторы которых сочли их частью байнета и зарегистрировали в каталоге. Это конечно же не весь байнет, но как говорят работники статистических органов, выборка репрезентативная. И действительно, она охватывает достаточно большой кусок белорусского интернета.

Поначалу были идеи воспользоваться поисковой выдачей Google или Яндекс и собрать все сайты доменной зоны .by. Но ведь в силу ряда причин белорусские сайты зачастую имеют домен верхнего уровня отличный от родного .by. Причем те сайты, которые рассчитаны на белорусскую аудиторию, и имеют белорусскоязычный контент часто и доменные имена имеют в зонах .org, .net, .com и других. Поэтому решено было остановиться именно на готовом  каталоге сайтов. Спарсить адреса и названия сайтов из готового каталога было делом не сложным и на нем подробно останавливаться не будем. В результате была получена база данных на локальном компьютере, с которой и велась дальнейшая работа.

Этап 2. Разработка и обкатка алгоритма определения языка.

Как определить на русском или на белорусском языке написан текст? Нет, с человеком все понятно. Любой, кто более-менее знаком с обоими языками, без труда определит язык текста. Наша задача — научить компьютер определять язык.

Первое что пришло в голову поверить текст на предмет наличия в нем символов «і», «ў», а также «и», «ъ» и «щ». Первые два будут свидетельствовать о том, что текст белорусскоязычный, остальные — о том, что это русский язык.

Для проверки работы алгоритма решено было пройтись по названиям сайтов, которые заполняют администраторы, регистрируя свой сайт в каталоге. Дело в том, что, регистрируя сайт на Акавите, пользователь заполняет его название на русском, белорусском  и английском (по желанию) языках. Небезынтересно будет узнать какой процент пользователей в белорусском названии сайта использовали белорусской язык, а не продублировали русское название. Заодно и алгоритм проверим.

Первый прогон позволил определить язык около 75% заголовков. Но оставшаяся тысяча с небольшим сайтов, в названиях которых не содержалось перечисленных выше букв, тоже требовала определения языка, а вручную это делать не хотелось. Вспомнились и другие отличия между русским и белорусским языками. Например, недавно увиденный на просторах интернета белорусскоязычный прикол «ЖЫ, ШЫ пішы з літарай Ы». То есть эти буквосочетания являются отличительным признаком белорусского языка.

Добавив к алгоритму это и еще несколько правил, вновь пропустил через него базу сайтов. На этот раз «за бортом» остались 300 с лишним сайтов, язык которых алгоритм определить так и не смог. После небольшой доработки были отсеяны сайты, название которых содержало только латинские буквы. Оставшиеся были проверены вручную. Язык многих из них точно установить нельзя. Например, такое название, как «Футбол» может быть с равным успехом отнесено как к русскому, так и к белорусскому языку. И подобных названий набралось достаточно много.

Этап 3. Подведение итогов проверки заголовков

Подавляющее большинство заголовков проверяемых сайтов, содержало не более 5 слов. Но, как ни странно, 48 названий содержали смесь русского и белорусского языков (вот уж поистине страна трасянки). Самый большой вклад в это дело внесли сайты районных газет. Сами названия газет в большинстве своем белорусские, а вот заголовки сайтов, написанные в виде «Сайт районной газеты «Зара над Віліяй», как раз и являются примером смешивания двух языков в одном коротком предложении.

Итоги анализа языков заголовков 5315 сайтов байнета приведены на диаграмме.

В таблице — абсолютные значения:

Язык заголовков сайтов

Количество сайтов

Белорусский

1102

Русский

3826

Смешанный рус.+бел.

48

Другой

204

Не определено

135

Отметим, что язык, помеченный как «Другой» это в подавляющем большинстве случаев либо английский, либо просто написание адреса сайта вместо названия.

Итак, чуть более 20 процентов белорусскоязычных названий это уже неплохо. Посмотрим, как обстоят дела с текстами на сайтах.

Этап 4. Проверка контента сайтов

После того, как алгоритм определения языка текста был обкатан на заголовках, оставалось дело за малым — пройтись по всем адресам из каталога, загрузить главную страницу каждого сайта и проверить язык текстов на ней. Лезть вглубь сайтов особого смысла не было. Это значительно увеличило бы время работы программы, но не дало бы результатов, принципиально отличающихся от полученных.

Отметим, что значительная часть сайтов (828) по тем или иным причинам не смогла быть проверена. Это либо недоступные сайты, либо те, в настройках безопасности которых не позволено посещать их неизвестным роботам.

Кроме того, на 204 сайтах робот не нашел признаков ни русского, ни белорусского языков. Удалось установить, что иногда это было вызвано неверно распознанной кодировкой. На диаграмме и в таблице язык таких сайтов помечен как «Другой».

Так или иначе, найти признаки русского и/или белорусского языка получилось более чем на 4000 сайтов. Этого материала вполне достаточно, чтобы делать определенные выводы.

Итак, результаты — на диаграмме.

Что ж, белорусский смотрится как-то печально: 0%. В абсолютных цифрах это 13. То есть всего 13 сайтов, где контент чисто белорусскоязычный. В таблице — это и другие абсолютные значения.

Язык контента сайтов байнета

Количество сайтов

Белорусский

13

Русский

3617

Смешанный рус+бел

653

Другой

204

Не определено

828

 

Честно говоря, ожидал чего-то большего от белорусского языка. Нет, конечно с русским ему тягаться не получится, но хотя бы процентов 10 иметь можно было бы. Но, как говорится, имеем то что имеем.

Можно даже сказать, что языковая картина в интернете повторяет картину в обществе. В конце концов люди говорят и пишут на том языке на котором думают и на котором им удобно говорить и писать. Можно было бы в очередной раз посокрушаться на отсутствие поддержки для белорусского языка со стороны государства, сказать о том, что каждый должен начинать с себя разговаривать по-белорусски. Но это все философия. А реальность такова, что процессы глобализации сейчас идут такими темпами, которыми не шли никогда ранее. И видимо, белорусский язык, как и многие другие языки мира со временем буде поглощен более мощным языком страны-соседки.

Дмитрий Макарский

Версия для печатиВерсия для печати

Рубрики: 

  • 1
  • 2
  • 3
  • 4
  • 5
Всего голосов: 0
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Комментарии

Страницы

Аватар пользователя mike

...один из европейских языков находится, если не на грани вымирания, то уж точно в тяжелом положении.

Перефразирую. Один из диалектов русского языка находится, если не на грани вымирания, то уж точно в тяжелом положении.

Не вижу ничего прискорбного. Диалектика!

Автор проделал большую работу. + ему.

Аватар пользователя Dmitry

Автор проделал большую работу

что большая редкость в интернетах.

mike > Один из диалектов русского языка находится

В настоящее время принято рассматривать все настоящие европейские языки как идущие из одного корня - из индо-европейского праязыка.

Поэтому - никаких диалектов русского. Украинский, белорусский и русский языки вполне равноправные и идут все три прямо из одного корня - из индо-европейского праязыка.

Таковы принятые современные толерантные нормы в языкознании.

Кстати, если брать слова этого индо-европейского праязыка, и смотреть как эти слова изменялись в современных европейских языках, то:

- самым "застывшим" языком, где эти слова мало изменились или вовсе не изменились, является литовский.

- самым "подвижным" языком, где эти слова сильно изменились или вовсе заменились на иные, является английский.

Surprised

Аватар пользователя mike

Логик, а что такое диалект, ты знаешь?

> Логик, а что такое диалект, ты знаешь?

Ещё раз - В настоящее время принято рассматривать все настоящие европейские языки как идущие из одного корня - из индо-европейского праязыка.

Аватар пользователя mike

Ещё раз: Логик, что такое диалект, -- знаешь?

На вопрос, плз, ответь. А про корень общеизвестно.

Аватар пользователя leo3

Логик, несете полную ахинею... или охинею:-) как больше нравится:-) Посмотрите дерево происхождения языков. Там куча семейств. Балто-славянские, южно-славянские, западно-славянские, проторусский... от проторусского отпочковался украинский, а потом маленькой шишечкой в самом конце веточки - белорусский. Я очень люблю белорусский язык, но насильно язык не навяжешь... У нас очень нормальная подержка языка со стороны государства. Просто писать нужно на нем настоящие произведения и... тогда читать будут и слушать. 

mike > что такое диалект, -- знаешь?

Да не привык я заменять википедию.

Но повторяю в третий раз: В настоящее время принято рассматривать все настоящие европейские языки как идущие из одного корня - из индо-европейского праязыка.

leo3 > Посмотрите дерево происхождения языков. Там куча семейств. Балто-славянские, южно-славянские, западно-славянские, проторусский... от проторусского отпочковался украинский, а потом маленькой шишечкой в самом конце веточки - белорусский.

Выбросите эти книжки - ОНИ УСТАРЕЛИ.

В 21 веке ПРИНЯТО ТОЛЕРАНТНО СЧИТАТЬ, что все настоящие европейские языки идут из одного корня - из индо-европейского праязыка.

То есть - они образуют НЕ КУСТ, а типа ОСОКИ - где все стебли идут из ЕДИНОГО КОРНЯ!

21 век, Лео, на дворе.

Аватар пользователя mike

В настоящее время принято рассматривать все настоящие европейские языки как идущие из одного корня ...

Бла-бла-бла. Типа следующего. 

В настоящее время принято рассматривать все настоящие живые организмы, как идущие из одного корня...

Логик, отсыпь, не жадничай;  наверное, ещё не в списке?


Страницы