РЕПРЕЗЕНТАТИВНО-РОЛЕВАЯ МОДЕЛЬ СОДЕРЖИМОГО ВЕБ-СТРАНИЦЫ
Рубрики: СТАТЬИ
Аннотация и ключевые слова
Аннотация (русский):
Автоматический анализ содержимого (контента) веб-страниц является актуальной задачей, при этом анализ может служить самым разнообразным целям. Одной из задач, которая встает на практике, является выявление ролевой структуры контента: можно выделить основную статью, комментарии читателей, рекламу и другие функциональные роли. Решение этой задачи, кроме прочего, является важным шагом в направлении более глубокого автоматического анализа семантики страницы в дальнейшем. Был выбран подход, согласно которому роль фрагмента определяется соответственно тому, как он внешне выглядит на экране, т.е. какова его репрезентация. Это соответствует человеческому способу восприятия. Разработанная модель позволяет выделить фрагменты html-кода, выполняющие роли главного заголовка и основной статьи страницы. При этом основная статья может содержать разнородные элементы: текст, рисунки, таблицы и т.д., из нее удаляются внедренные фрагменты другого назначения (реклама и др.), могут использоваться различные компоновки контента на странице и способы верстки. Модель представляет собой экспертную систему. Ее база знаний включает 1) семантическую сеть, отражающую связи между объектами и понятиями, которые используются в ходе решения задачи, 2) продукционную систему, содержащую правила, по которым осуществляется вывод. Стратегия вывода строится таким образом, чтобы исключить итерации. В ходе вывода сначала отбираются все кандидаты на определенную роль, т.е. фрагменты, которые в принципе могут оказаться в этой роли. Затем последовательно число кандидатов сокращается до одного, поскольку у ролей главного заголовка и основной статьи может быть только по одному исполнителю. Продукционная система имеет иерархическую структуру, каждая локальная система состоит из 5-10 правил и имеет автономное хранилище промежуточной информации, что сводит к минимуму возможность появления побочных эффектов. Данная модель реализована программой на языке Python. Программа считывает html-файл из Интернета, удаляет все кроме главного заголовка и основной статьи и сохраняет результат на диске. Проверка работоспособности проводилась на новостных сайтах и на сайте Habrahabr. Результаты в каждом случае оценивались экспертно. Доля правильно обработанных страниц составила 85-90% в случаях табличной верстки и 95-97% - в случае блочной.

Ключевые слова:
веб, моделирование, искусственный интеллект
Список литературы

1. Приложение для сохранения информации в облаке. Pocket URL: http://getpocket.com.

2. Продукционные модели // Искусственный интеллект: В 3 кн. Кн. 2. Модели и методы: Справочник / Под. ред. Д.А.Поспелова. - М., 1990.

3. Семантика в HTML 5. URL: http://habrahabr.ru/post/49734.

4. Учебник HTML. URL: http://ru.html.net/tutorials/html.

5. Элти Дж., Кумбс М. Экспертные системы: концепции и примеры. - М., 1977.


Войти или Создать
* Забыли пароль?