Bulletin of Nizhnevartovsk State University

Вестник Нижневартовского государственного университета

2311-1402 2686-8784

112875

Статьи

Articles

Статьи

Representative and role model of the web page content

Репрезентативно-ролевая модель содержимого веб-страницы

Головко

А П

Golovko

A P

apg49@mail.ru

Лапин

В Н

Lapin

V N

Курганский государственный университет ru Kurgan State University ru

Смольный институт Российской академии образования ru Smolny University of the Russian Academy of Education ru

25 09 2015

3 3 14 06 09 2015 15 09 2015

https://vestnik.nvsu.ru/en/nauka/article/112875/view

Автоматический анализ содержимого (контента) веб-страниц является актуальной задачей, при этом анализ может служить самым разнообразным целям. Одной из задач, которая встает на практике, является выявление ролевой структуры контента: можно выделить основную статью, комментарии читателей, рекламу и другие функциональные роли. Решение этой задачи, кроме прочего, является важным шагом в направлении более глубокого автоматического анализа семантики страницы в дальнейшем. Был выбран подход, согласно которому роль фрагмента определяется соответственно тому, как он внешне выглядит на экране, т.е. какова его репрезентация. Это соответствует человеческому способу восприятия. Разработанная модель позволяет выделить фрагменты html-кода, выполняющие роли главного заголовка и основной статьи страницы. При этом основная статья может содержать разнородные элементы: текст, рисунки, таблицы и т.д., из нее удаляются внедренные фрагменты другого назначения (реклама и др.), могут использоваться различные компоновки контента на странице и способы верстки. Модель представляет собой экспертную систему. Ее база знаний включает 1) семантическую сеть, отражающую связи между объектами и понятиями, которые используются в ходе решения задачи, 2) продукционную систему, содержащую правила, по которым осуществляется вывод. Стратегия вывода строится таким образом, чтобы исключить итерации. В ходе вывода сначала отбираются все кандидаты на определенную роль, т.е. фрагменты, которые в принципе могут оказаться в этой роли. Затем последовательно число кандидатов сокращается до одного, поскольку у ролей главного заголовка и основной статьи может быть только по одному исполнителю. Продукционная система имеет иерархическую структуру, каждая локальная система состоит из 5-10 правил и имеет автономное хранилище промежуточной информации, что сводит к минимуму возможность появления побочных эффектов. Данная модель реализована программой на языке Python. Программа считывает html-файл из Интернета, удаляет все кроме главного заголовка и основной статьи и сохраняет результат на диске. Проверка работоспособности проводилась на новостных сайтах и на сайте Habrahabr. Результаты в каждом случае оценивались экспертно. Доля правильно обработанных страниц составила 85-90% в случаях табличной верстки и 95-97% - в случае блочной.

Today automatic analysis of the web page content is a topical problem. The analysis enables us to solve several practical problems, including detecting the role structure of a page content. Here we can distinguish the main page article, comments of website visitors, advertisements, and other functions. In addition, solving this problem is an important step towards a more profound automatic analysis of website semantic in the future. We have applied the approach defining the role of some html-code fragment in accordance with the way it is represented on the screen, which corresponds to the human way of perception. The developed model allows us to distinguish such html-code fragments acting as the main header and the main article of a page. The main article may contain different elements, such as a text, tables, images, etc. Often other elements (advertisements etc.) are deleted from the main article, and various ways of placing content elements on the screen and page layouts may be applied. The model is an expert system with the knowledge base containing 1) a semantic net reflecting relations between objects and concepts used in problem-solving; 2) a production system containing a set of rules for the inference. The inference strategy is constructed so to exclude any iteration. During the inference, all elements that can play this role are selected, after which the number of them gradually decreases to one. The production system has a hierarchical structure, with each local system consisting of 5-10 rules and having its own local data storage, which allows us to minimize the probability of side effects. This model is implemented as a program using Python programming language. The program reads html-file from the Internet, removes all elements except the main header and main article, and stores the result as a file on a hard disc. The program was tested on news-sites and habrahabr.ru. The proportion of correctly processed pages was 85-90% in case of the table layout of a page and 95-97% when a page was developed as a block.

веб моделирование искусственный интеллект