Статистика HTML-синтаксиса: какие теги самые популярные

Компания Google провела масштабное статистическое исследование различных аспектов HTML-синтаксиса на выборке из более чем 1 млрд. веб-страниц (code.google.com/webstats/index.html).

Собиралась и анализировалась информация о самых популярных названиях классов, элементах, атрибутах и метаданных. Хотя сам по себе HTML является четко формализованным языком, но использовать его можно по-разному. Подобные исследования показывают, каким образом авторы используют HTML, как предпочитают оформлять текст, какие самые распространенные ошибки и т.д.

Согласно статистике Google Web Authoring Stats, средняя веб-страница в Сети содержит 19 элементов разного типа.

Около 98% всех веб-страниц содержат элементы <head>, <html>, <title> и <body>. Нужно заметить, что три из них являются обязательными элементами HTML-документа. В то же время элемент <title> таковым не является, но все равно встречается в подавляющем большинстве веб-страниц.

После этих четырех самым популярным элементом является <a>. Почти во всех случаях вместе с этим элементом используется атрибут "href", а в более чем половине страниц - атрибут "target".

Вот список других элементов в порядке убывания их популярности: <img> (кстати, на 24% изображений отсутствует тег <alt>), <meta>, <br>. На десятом и последующих местах расположились <table>, <td> и <tr>.

После "href" и "target" самым популярным атрибутом является "border" для изображений и таблиц, затем "height" и "width" для изображений и различные параметры разметки таблиц.

Для элемента <html> самыми популярными атрибутами являются "xmlns", "lang", "xml:lang" и "dir".

Анализ веб-страниц показывает, что очень часто в синтаксисе HTML встречаются ошибки. Это и бессмысленные, и странные атрибуты. Например, многие авторы включают в код страницы совершенно бессмысленный атрибут "revisit-after" для <meta name>, вероятно, чтобы дать указание роботу поисковой системы. Но ни одна крупная поисковая система не поддерживает эту команду.

В итоговом документе много интересных фактов. Например, оказывается, тег <br> популярнее, чем <p>. Еще один интересный факт: в интернете огромное количество страниц, в которых упоминается элемент <table>, но отсутствует элемент <td>. То есть имеется таблица, но отсутствуют ячейки.

Интересна статистика по редакторам, загрязняющим HTML-код своими нестандартными тегами. Повсеместно в интернете встречаются следы GoLive - это огромное количество тегов <table gridx="" gridy="" showgridx="" showgridy="">, а также <csscriptdict>, <csactiondict> и <csobj>.

Конечно, GoLive не одинок. Например, в Сети чаще встречается нестандартный тег <o:p> из Microsoft Office, чем стандартный <h6>. Кроме того, много элементов <x-claris-window>, <x-claris-tagview> и <x-sas-window> (следы Claris Homepage), а также "отпечатков" ставшего популярным в последнее время пакета для создания интернет-магазинов британской компании Actinic - это <actinic:basehref>, <actinic:section>, <actinic:nowserving> и <actinic:curraccount>. Здесь же и Macromedia со своими <mm:endlock> и <mm:beginlock>, а также NetObjects Fusion, источник атрибутов <nof="">.

Сбор данных проходил в декабре 2005 г. Для просмотра аналитического отчета в онлайне требуется браузер с поддержкой SVG и CSS, чтобы корректно отображать графики. Лучше всего использовать Firefox 1.5.

Анатолий АЛИЗАР

Версия для печатиВерсия для печати

Номер: 

05 за 2006 год

Рубрика: 

Internet
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!