Ругулярка, режет, два подрят стоящих закрывающих тега -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.14.253.221]

Модераторы: ALXR

Ругулярка, режет, два подрят стоящих закрывающих тега

aster_x

Сообщ. #1 , 22.05.12, 15:00

Unregistered

Здравствуйте!
Есть HTML.

<html>

<head>

</head>

<div>

ASter ASTERA ASTEWA ASTAS

</div>

Testing header

test test test

</div>

bla bla bla bla bla 54353453453453

</body>

</html>

Регулярка. Вырежет сразу два закрывающих тега.

static $pattern = '|<(.*)(\s.*)*>(.*|.*<\/(.*)>)</\\1>|Ums';

Вопрос: как переписать регулярку? Чтобы получить нормальное дерево.

При рекурсивном перебирании ХТМЛ, регулярка дает такой результат.
Прикреплённый файл

KRUMO.JPG (32,04 Кбайт, скачиваний: 527)

Сообщение отредактировано: aster_x - 22.05.12, 20:33

aster_x	Сообщ. #2 , 23.05.12, 07:49
Unregistered	Может я не так выразился? <div> <div> <div> sasdasdsa </div> sdasdas23312asdasdsa </div> sdasdas23312asdasdsa </div> Как взять строку между первым и последним дивом?

AVA12

Сообщ. #3 , 23.05.12, 11:39

Profi

Профиль · PM

Поощрения: 9 Dgm

Рейтинг (т): 135

Где постановка задачи?

Если ты хочешь синтаксический анализ HTML с помощью регулярного выражения, то лучше сразу забудь об этом. Регулярки не всесильны. С их помощью можно выделить из HTML теги и обычный текст и разобрать атрибуты тега. Но для построения синтаксического дерева требуется уже более мощный механизм - стековый автомат.

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0179 ] [ 16 queries used ] [ Generated: 28.04.24, 11:38 GMT ]