Но ни для кого не секрет, что язык титульной нации нашего государства (белорусский), хоть и является государственным, но не очень популярен среди населения Беларуси. На нем разговаривает совсем небольшой процент граждан. Он пользуется популярностью разве что в определенных политических кругах, в слоях интеллигенции, среди некоторых представителей молодежи и, пожалуй, у деревенских жителей (в виде пресловутой «трасянки»).
Разумеется, это весьма прискорбно, что один из европейских языков находится, если не на грани вымирания, то уж точно в тяжелом положении. Не находя достаточной поддержки со стороны государства, белорусский язык живет и развивается во многом благодаря энтузиастам. А для них одним из способов самовыражения является интернет, где можно писать хоть по-русски, хоть по-белорусски, хоть по-монгольски, и никто не упрекнет тебя: «ой мужчына, гаварыце нармальна, я вас не панимаю».
Тот факт, что интернет является территорией относительной свободы, натолкнул на мысль исследовать насколько белорусскоязычен, если можно так выразиться, белорусский интернет. К слову, в байнете не так уж и много сайтов, по сравнению с интернет-сегментами других государств. Следовательно, можно чуть ли не каждый ресурс проверить на предмет того, какой язык на нем используется. Проверить, конечно же, не вручную, а максимально автоматизировав этот процесс.
Этап 1. Сбор базы данных адресов сайтов байнета
Благо информацию о белорусских сайтах можно легко раздобыть, благодаря разного рода каталогам, поисковикам и т.п. Для исследования был выбран каталог сайтов байнета с сайта www.akavita.by. Это один из наиболее старых и полных каталогов сайтов белорусского сегмента Сети. Большинство сайтов этого каталога «живые», но не все регулярно обновляются.
На момент обращения к каталогу (30 июля 2015 г.) в нем содержались сведения о 5315 сайтах, администраторы которых сочли их частью байнета и зарегистрировали в каталоге. Это конечно же не весь байнет, но как говорят работники статистических органов, выборка репрезентативная. И действительно, она охватывает достаточно большой кусок белорусского интернета.
Поначалу были идеи воспользоваться поисковой выдачей Google или Яндекс и собрать все сайты доменной зоны .by. Но ведь в силу ряда причин белорусские сайты зачастую имеют домен верхнего уровня отличный от родного .by. Причем те сайты, которые рассчитаны на белорусскую аудиторию, и имеют белорусскоязычный контент часто и доменные имена имеют в зонах .org, .net, .com и других. Поэтому решено было остановиться именно на готовом каталоге сайтов. Спарсить адреса и названия сайтов из готового каталога было делом не сложным и на нем подробно останавливаться не будем. В результате была получена база данных на локальном компьютере, с которой и велась дальнейшая работа.
Этап 2. Разработка и обкатка алгоритма определения языка.
Как определить на русском или на белорусском языке написан текст? Нет, с человеком все понятно. Любой, кто более-менее знаком с обоими языками, без труда определит язык текста. Наша задача — научить компьютер определять язык.
Первое что пришло в голову поверить текст на предмет наличия в нем символов «і», «ў», а также «и», «ъ» и «щ». Первые два будут свидетельствовать о том, что текст белорусскоязычный, остальные — о том, что это русский язык.
Для проверки работы алгоритма решено было пройтись по названиям сайтов, которые заполняют администраторы, регистрируя свой сайт в каталоге. Дело в том, что, регистрируя сайт на Акавите, пользователь заполняет его название на русском, белорусском и английском (по желанию) языках. Небезынтересно будет узнать какой процент пользователей в белорусском названии сайта использовали белорусской язык, а не продублировали русское название. Заодно и алгоритм проверим.
Первый прогон позволил определить язык около 75% заголовков. Но оставшаяся тысяча с небольшим сайтов, в названиях которых не содержалось перечисленных выше букв, тоже требовала определения языка, а вручную это делать не хотелось. Вспомнились и другие отличия между русским и белорусским языками. Например, недавно увиденный на просторах интернета белорусскоязычный прикол «ЖЫ, ШЫ пішы з літарай Ы». То есть эти буквосочетания являются отличительным признаком белорусского языка.
Добавив к алгоритму это и еще несколько правил, вновь пропустил через него базу сайтов. На этот раз «за бортом» остались 300 с лишним сайтов, язык которых алгоритм определить так и не смог. После небольшой доработки были отсеяны сайты, название которых содержало только латинские буквы. Оставшиеся были проверены вручную. Язык многих из них точно установить нельзя. Например, такое название, как «Футбол» может быть с равным успехом отнесено как к русскому, так и к белорусскому языку. И подобных названий набралось достаточно много.
Этап 3. Подведение итогов проверки заголовков
Подавляющее большинство заголовков проверяемых сайтов, содержало не более 5 слов. Но, как ни странно, 48 названий содержали смесь русского и белорусского языков (вот уж поистине страна трасянки). Самый большой вклад в это дело внесли сайты районных газет. Сами названия газет в большинстве своем белорусские, а вот заголовки сайтов, написанные в виде «Сайт районной газеты «Зара над Віліяй», как раз и являются примером смешивания двух языков в одном коротком предложении.
Итоги анализа языков заголовков 5315 сайтов байнета приведены на диаграмме.
В таблице — абсолютные значения:
Язык заголовков сайтов |
Количество сайтов |
Белорусский |
1102 |
Русский |
3826 |
Смешанный рус.+бел. |
48 |
Другой |
204 |
Не определено |
135 |
Отметим, что язык, помеченный как «Другой» это в подавляющем большинстве случаев либо английский, либо просто написание адреса сайта вместо названия.
Итак, чуть более 20 процентов белорусскоязычных названий это уже неплохо. Посмотрим, как обстоят дела с текстами на сайтах.
Этап 4. Проверка контента сайтов
После того, как алгоритм определения языка текста был обкатан на заголовках, оставалось дело за малым — пройтись по всем адресам из каталога, загрузить главную страницу каждого сайта и проверить язык текстов на ней. Лезть вглубь сайтов особого смысла не было. Это значительно увеличило бы время работы программы, но не дало бы результатов, принципиально отличающихся от полученных.
Отметим, что значительная часть сайтов (828) по тем или иным причинам не смогла быть проверена. Это либо недоступные сайты, либо те, в настройках безопасности которых не позволено посещать их неизвестным роботам.
Кроме того, на 204 сайтах робот не нашел признаков ни русского, ни белорусского языков. Удалось установить, что иногда это было вызвано неверно распознанной кодировкой. На диаграмме и в таблице язык таких сайтов помечен как «Другой».
Так или иначе, найти признаки русского и/или белорусского языка получилось более чем на 4000 сайтов. Этого материала вполне достаточно, чтобы делать определенные выводы.
Итак, результаты — на диаграмме.
Что ж, белорусский смотрится как-то печально: 0%. В абсолютных цифрах это 13. То есть всего 13 сайтов, где контент чисто белорусскоязычный. В таблице — это и другие абсолютные значения.
Язык контента сайтов байнета |
Количество сайтов |
Белорусский |
13 |
Русский |
3617 |
Смешанный рус+бел |
653 |
Другой |
204 |
Не определено |
828 |
Честно говоря, ожидал чего-то большего от белорусского языка. Нет, конечно с русским ему тягаться не получится, но хотя бы процентов 10 иметь можно было бы. Но, как говорится, имеем то что имеем.
Можно даже сказать, что языковая картина в интернете повторяет картину в обществе. В конце концов люди говорят и пишут на том языке на котором думают и на котором им удобно говорить и писать. Можно было бы в очередной раз посокрушаться на отсутствие поддержки для белорусского языка со стороны государства, сказать о том, что каждый должен начинать с себя разговаривать по-белорусски. Но это все философия. А реальность такова, что процессы глобализации сейчас идут такими темпами, которыми не шли никогда ранее. И видимо, белорусский язык, как и многие другие языки мира со временем буде поглощен более мощным языком страны-соседки.
Дмитрий Макарский
Комментарии
Страницы
Вопрос, на самом деле, очень прост. Посмотрите по БТ программку про авторскую песню (белорусскую) ... я не знаю где ее автор берет эти интеллектуально-вокальные "шедевры". На них, порой, просто стыдно смотреть... Хотя, я лично знаю с пяток людей прекрасных бардов... В этом суть. У нас полно писателей, пишущих на белорусском языке (поддерживаемых, между прочим, за это) - и пишущих бездарно. Вот в этом дело и больше ни в чем. Пишите талантливо - и будут читать на языке оригинала. Пойте талантливо - будут подпевать на языке оригинала.
Может, просто бардовская песня - сам по себе жанр такой? Вон, Михалку подпевают.
Ээ, leo3, вы лукавите. Талант -- это дар, и чем больше выборка, тем больше дарований. Нельзя сравнивать народы на порядок отличающиеся населением, а следовательно, и числом талантов. И нельзя в директивном порядке заставить писать талантливо.
Не факт.
Совершенно верно, Вадим, Михалку подпевают - ибо талантливо местами и местами искренне. И Песнярам подпевали, и Верасам...
Чем больше выборка... это да, но ведь есть же какие-нибудь шведы - примерно тоже, но, скажем, АВВА же была... Хотя В2 - тож были:) вроде наши, но только по-русски поют... Хотя и АВВА по-английски пели...
Страницы