Насколько популярен белорусский язык в байнете?

Но ни для кого не секрет, что язык титульной нации нашего государства (белорусский), хоть и является государственным, но не очень популярен среди населения Беларуси. На нем разговаривает совсем небольшой процент граждан. Он пользуется популярностью разве что в определенных политических кругах, в слоях интеллигенции, среди некоторых представителей молодежи и, пожалуй, у деревенских жителей (в виде пресловутой «трасянки»).

Разумеется, это весьма прискорбно, что один из европейских языков находится, если не на грани вымирания, то уж точно в тяжелом положении. Не находя достаточной поддержки со стороны государства, белорусский язык живет и развивается во многом благодаря энтузиастам. А для них одним из способов самовыражения является интернет, где можно писать хоть по-русски, хоть по-белорусски, хоть по-монгольски, и никто не упрекнет тебя: «ой мужчына, гаварыце нармальна, я вас не панимаю».

Тот факт, что интернет является территорией относительной свободы, натолкнул на мысль исследовать насколько белорусскоязычен, если можно так выразиться, белорусский интернет. К слову, в байнете не так уж и много сайтов, по сравнению с интернет-сегментами других государств. Следовательно, можно чуть ли не каждый ресурс проверить на предмет того, какой язык на нем используется. Проверить, конечно же, не вручную, а максимально автоматизировав этот процесс.

Этап 1. Сбор базы данных адресов сайтов байнета

Благо информацию о белорусских сайтах можно легко раздобыть, благодаря разного рода каталогам, поисковикам и т.п. Для исследования был выбран каталог сайтов байнета с сайта www.akavita.by. Это один из наиболее старых и полных каталогов сайтов белорусского сегмента Сети. Большинство сайтов этого каталога «живые», но не все регулярно обновляются.

На момент обращения к каталогу (30 июля 2015 г.) в нем содержались сведения о 5315 сайтах, администраторы которых сочли их частью байнета и зарегистрировали в каталоге. Это конечно же не весь байнет, но как говорят работники статистических органов, выборка репрезентативная. И действительно, она охватывает достаточно большой кусок белорусского интернета.

Поначалу были идеи воспользоваться поисковой выдачей Google или Яндекс и собрать все сайты доменной зоны .by. Но ведь в силу ряда причин белорусские сайты зачастую имеют домен верхнего уровня отличный от родного .by. Причем те сайты, которые рассчитаны на белорусскую аудиторию, и имеют белорусскоязычный контент часто и доменные имена имеют в зонах .org, .net, .com и других. Поэтому решено было остановиться именно на готовом  каталоге сайтов. Спарсить адреса и названия сайтов из готового каталога было делом не сложным и на нем подробно останавливаться не будем. В результате была получена база данных на локальном компьютере, с которой и велась дальнейшая работа.

Этап 2. Разработка и обкатка алгоритма определения языка.

Как определить на русском или на белорусском языке написан текст? Нет, с человеком все понятно. Любой, кто более-менее знаком с обоими языками, без труда определит язык текста. Наша задача — научить компьютер определять язык.

Первое что пришло в голову поверить текст на предмет наличия в нем символов «і», «ў», а также «и», «ъ» и «щ». Первые два будут свидетельствовать о том, что текст белорусскоязычный, остальные — о том, что это русский язык.

Для проверки работы алгоритма решено было пройтись по названиям сайтов, которые заполняют администраторы, регистрируя свой сайт в каталоге. Дело в том, что, регистрируя сайт на Акавите, пользователь заполняет его название на русском, белорусском  и английском (по желанию) языках. Небезынтересно будет узнать какой процент пользователей в белорусском названии сайта использовали белорусской язык, а не продублировали русское название. Заодно и алгоритм проверим.

Первый прогон позволил определить язык около 75% заголовков. Но оставшаяся тысяча с небольшим сайтов, в названиях которых не содержалось перечисленных выше букв, тоже требовала определения языка, а вручную это делать не хотелось. Вспомнились и другие отличия между русским и белорусским языками. Например, недавно увиденный на просторах интернета белорусскоязычный прикол «ЖЫ, ШЫ пішы з літарай Ы». То есть эти буквосочетания являются отличительным признаком белорусского языка.

Добавив к алгоритму это и еще несколько правил, вновь пропустил через него базу сайтов. На этот раз «за бортом» остались 300 с лишним сайтов, язык которых алгоритм определить так и не смог. После небольшой доработки были отсеяны сайты, название которых содержало только латинские буквы. Оставшиеся были проверены вручную. Язык многих из них точно установить нельзя. Например, такое название, как «Футбол» может быть с равным успехом отнесено как к русскому, так и к белорусскому языку. И подобных названий набралось достаточно много.

Этап 3. Подведение итогов проверки заголовков

Подавляющее большинство заголовков проверяемых сайтов, содержало не более 5 слов. Но, как ни странно, 48 названий содержали смесь русского и белорусского языков (вот уж поистине страна трасянки). Самый большой вклад в это дело внесли сайты районных газет. Сами названия газет в большинстве своем белорусские, а вот заголовки сайтов, написанные в виде «Сайт районной газеты «Зара над Віліяй», как раз и являются примером смешивания двух языков в одном коротком предложении.

Итоги анализа языков заголовков 5315 сайтов байнета приведены на диаграмме.

В таблице — абсолютные значения:

Язык заголовков сайтов

Количество сайтов

Белорусский

1102

Русский

3826

Смешанный рус.+бел.

48

Другой

204

Не определено

135

Отметим, что язык, помеченный как «Другой» это в подавляющем большинстве случаев либо английский, либо просто написание адреса сайта вместо названия.

Итак, чуть более 20 процентов белорусскоязычных названий это уже неплохо. Посмотрим, как обстоят дела с текстами на сайтах.

Этап 4. Проверка контента сайтов

После того, как алгоритм определения языка текста был обкатан на заголовках, оставалось дело за малым — пройтись по всем адресам из каталога, загрузить главную страницу каждого сайта и проверить язык текстов на ней. Лезть вглубь сайтов особого смысла не было. Это значительно увеличило бы время работы программы, но не дало бы результатов, принципиально отличающихся от полученных.

Отметим, что значительная часть сайтов (828) по тем или иным причинам не смогла быть проверена. Это либо недоступные сайты, либо те, в настройках безопасности которых не позволено посещать их неизвестным роботам.

Кроме того, на 204 сайтах робот не нашел признаков ни русского, ни белорусского языков. Удалось установить, что иногда это было вызвано неверно распознанной кодировкой. На диаграмме и в таблице язык таких сайтов помечен как «Другой».

Так или иначе, найти признаки русского и/или белорусского языка получилось более чем на 4000 сайтов. Этого материала вполне достаточно, чтобы делать определенные выводы.

Итак, результаты — на диаграмме.

Что ж, белорусский смотрится как-то печально: 0%. В абсолютных цифрах это 13. То есть всего 13 сайтов, где контент чисто белорусскоязычный. В таблице — это и другие абсолютные значения.

Язык контента сайтов байнета

Количество сайтов

Белорусский

13

Русский

3617

Смешанный рус+бел

653

Другой

204

Не определено

828

 

Честно говоря, ожидал чего-то большего от белорусского языка. Нет, конечно с русским ему тягаться не получится, но хотя бы процентов 10 иметь можно было бы. Но, как говорится, имеем то что имеем.

Можно даже сказать, что языковая картина в интернете повторяет картину в обществе. В конце концов люди говорят и пишут на том языке на котором думают и на котором им удобно говорить и писать. Можно было бы в очередной раз посокрушаться на отсутствие поддержки для белорусского языка со стороны государства, сказать о том, что каждый должен начинать с себя разговаривать по-белорусски. Но это все философия. А реальность такова, что процессы глобализации сейчас идут такими темпами, которыми не шли никогда ранее. И видимо, белорусский язык, как и многие другие языки мира со временем буде поглощен более мощным языком страны-соседки.

Дмитрий Макарский

Версия для печатиВерсия для печати

Рубрики: 

  • 1
  • 2
  • 3
  • 4
  • 5
Всего голосов: 0
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Комментарии

Страницы

mike >В настоящее время принято рассматривать все настоящие живые организмы, как идущие из одного корня...

Не знаю.

Тут беседа не выходит на такое обобщение.

Тут беседа про языки.

Старые книги пытались мыслить про языки как про КУСТЫ (с ветками и веточками) - но в 21 веке решили учёные современные - что мыслить про языки надо как про ОСОКУ - никаких веточек - только стебли из одного корня. - И всем стало нормально и не обидно. - То есть затихли споры типа, русский язык это диалект украинского или наоборот?

Такие споры обычно решались методом - КОГО МНОГО(носителей языка) ТОТ И ПРАВ - что есть чушь собачья и ересь несустветная.

Аватар пользователя Dmitry

КОГО МНОГО(носителей языка) ТОТ И ПРАВ

кстати, неплохая мысль. Логик, а в наши дни такой аргумент использовать нельзя? хотя бы разок.

>а в наши дни такой аргумент использовать нельзя? хотя бы разок.

Нельзя, Дима. Хотя некоторым БОЛЬШИМ по территории и имеющим свыше сотни миллионов жителей государствам ой как хочется.

Но нельзя - ибо не 20 век, а 21 век на дворе.

Аватар пользователя Dmitry

Нельзя, Дима

ОК, т.б. что есть Китай и Индия)...

>ОК, т.б. что есть Китай и Индия)...

Да, Дима, мы тут про "Китай" и его влияние на мову. Именно об этом мы тут...  ;-)

Аватар пользователя Dmitry

Я про "некоторым БОЛЬШИМ по территории и имеющим свыше сотни миллионов жителей государствам ой как хочется". Понятно, что на мову китайский язык никак не влияет.

Аватар пользователя mike

на мову китайский язык никак не влияет.

Влияет. Китайцы, которых приглашает РБ, учат русский. И остаются тут навсегда.

Аватар пользователя Dmitry

Китайцы, которых приглашает РБ, учат русский

Во-1ых, сколько тех трех китайцев на 10 млн. человек; во-2ых, если они учат русский, то на белорусский это, если и влияет, то косвенно (минус те 3 китайца, которые выучили др., не белорусский язык).

А вообще, лет через 50 все будут говорить на китайском (см. сколько их в РФ, в Питере хотят за 34 млрд. росс.рублей отстроить свой Чайна-таун и заселиться).

Поэтому кто куда, а я к аборигенам.

Аватар пользователя mike

Вы, dmitry, и правы, и нет. Действительно, китайцы между собой по-русски не общаются. Но им приходится общаться с городскими белорусами, а не сельскими. И общаться на русском.

Страницы