Помогите составить регулярное выражение -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.175]

FAQ раздела

Новое голосование

Помогите составить регулярное выражение

GRIENDERS

Сообщ. #1 , 08.08.07, 08:17

Senior Member

Профиль · PM

Рейтинг (т): 12

Помогите составить регулярное выражение

Для HTML страницы надо получить текст между тегом

<p class=”intro”>НАДО ЭТО ПРОЧИТАТЬ</p>

Получилось че-то типа

string reg_exp = @"(?<=\s*<\s*p\s*class=";

reg_exp += "\"intro\"";

reg_exp += @">)[\S\s]*</p>";

Но ессно, работает не так как надо.

GarF1eld

Сообщ. #2 , 08.08.07, 08:25

Profi

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 74

можешь воспользоваться таким выражением

<p.*>(?'text'.*)</p>

А потом получить Matches и из него Groups

Добавлено 08.08.07, 08:31
должно быть где-то так:

const string parseStr = "<p.*>(?'text'.*)</p>";

string matchStr= "<p class=”intro”>НАДО ЭТО ПРОЧИТАТЬ</p>";

Regex rx = new Regex(parseStr , RegexOptions.Compiled );

foreach(Match match in rx.Matches(matchStr))

{

MessageBox.Show(match.Groups["text"].Value);

}

PS писал от руки, так что могут быть ошибки

Сообщение отредактировано: GarF1eld - 08.08.07, 08:33

GRIENDERS

Сообщ. #3 , 08.08.07, 10:43

Senior Member

Профиль · PM

Рейтинг (т): 12

Цитата GarF1eld @ 08.08.07, 08:25

можешь воспользоваться таким выражением

1)Содержание тега <p class="intro"> таково:

Все нормально, он оно находит также и закрывающийся </p>, а он не нужен.
А 'text' - это что - параметр?
2)А вот еще тег, с которым проблемы

<p> <b>5353535

543 53 Бла БлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБла</b><br />

БлаБлаБлаБлаБлаБлаБлаБлаБлаБлапосле этого женщины плачут и говорят: «Он переспал со мной, он меня бросил».

<p><b> Бла БлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБла</b><br />

БлаБлаБлаБлаБлаБлаБлаБлаБлаБлапос…

<p><b>Короче, полно всяких левых тегов и переносов строк.</b><br />

Может быть. Может быть…

<p><b>Лялялялял ЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялял

ялялялял</b></P>

<div>

Короче, полно всяких левых тегов и переносов строк.
Пробовал <div class="text">(?'textik'[.\n]*)</div> - все равно ниче нет.

GarF1eld

Сообщ. #4 , 08.08.07, 10:55

Profi

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 74

Так что конкретно нужно, чтоб парсило? Я не пойму...

Добавлено 08.08.07, 10:57
если нужно просто убрать все теги, то используй
<.*>
и заменяй их на пустую строку

У меня из такого

<p> <b>5353535

543 53 Бла БлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБла</b><br />

БлаБлаБлаБлаБлаБлаБлаБлаБлаБлапосле этого женщины плачут и говорят: «Он переспал со мной, он меня бросил».

<p><b> Бла БлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБла</b><br />

БлаБлаБлаБлаБлаБлаБлаБлаБлаБлапос…

<p><b>Короче, полно всяких левых тегов и переносов строк.</b><br />

Может быть. Может быть…

<p><b>Лялялялял ЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялял

ялялялял</b></P>

<div>

получилось так:

5353535

543 53 Бла БлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБлаБла

БлаБлаБлаБлаБлаБлаБлаБлаБлаБлапосле этого женщины плачут и говорят: «Он переспал со мной, он меня бросил».

БлаБлаБлаБлаБлаБлаБлаБлаБлаБлапос…

Может быть. Может быть…

Лялялялял ЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялялЛялялялял

ялялялял

Добавлено 08.08.07, 11:03
или можешь использовать два Regex =) Один, чтоб нашел необходимый текст, другой, чтоб заменял. А с лишними пробелами можешь сделать следующее:
1) представить ответ как массив строк(через srting.Split)
2) Обрезать ненужные пробелы. (string.Trim())
3) Склеить строку обратно.

В общем, все зависит от потребностей

GRIENDERS

Сообщ. #5 , 10.08.07, 17:36

Senior Member

Профиль · PM

Рейтинг (т): 12

1) Мне нужно прочитать из <p class=”intro”>НАДО ЭТО ПРОЧИТАТЬ</p> - здесб нормально, проблем т к весь текст находиться на одной строке и в нем нет других тегов (например, если бы были <p></p>, то регулярное выражение "узнает" до какого именно </p> надо прочитать?)

2) Мне нужно прочитать из <div class="text"> Прочитать, тут дофига всего, в том числе переводов строк и других тегов тегов </div>. Внутри этого текста может быть вложенные теги div. Тогда как регулярное выражение (<div.*>(?'text'.*)</div>) "узнает" до какого именно </div> надо прочитать?
Например

<div class="text"> fdsfsfd fdsf fds fds

fds fdfs ffffffff <div> fdddddddddd<p> dsada dsa45-305 </p>

Цитата GarF1eld @ 08.08.07, 10:55

Так что конкретно нужно, чтоб парсило? Я не пойму..

54354 543543 </div> 
dfsa 43444444444 <div class="text2> dsd 453543
</div> 

</div> 

Для тех, кто в танке - [COLOR=red]НАДО ПРОЧИАТЬ ВСЕ, ЧТО НАХОДИТЬСЯ МЕЖДУ ОТКРЫВАЮЩИСЯ <DIV CLASS="TEXT"> И СООТВЕТСТВУЮЩИМ ЕМУ ЗАКРЫВАЮЩИМСЯ </DIV>

Кстати, имхо <div.*>(?'text'.*)</div> переводы строк обрабатывать не будет, хотя они есть в тексте между этими тегами

wdk	Сообщ. #6 , 10.08.07, 17:40
Profi Профиль · PM Поощрения: 3 Dgm Рейтинг (т): 93	Чтоб обрабатывались переводы строк, в конструкторе RegexOptions.Multiline.

GarF1eld

Сообщ. #7 , 10.08.07, 18:42

Profi

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 74

Может проще будет загрузить это все в XmlDocument? Если сайт xhtml конечно....

Добавлено 10.08.07, 18:56
вот файл 1.htm

</div>

</div>

Вот код

XmlDocument doc = new XmlDocument();

doc.Load(@"d:\1.htm");

foreach (XmlNode node in doc.SelectNodes("//div"))

{

MessageBox.Show(node.InnerXml);

}

и все

GRIENDERS	Сообщ. #8 , 11.08.07, 19:39
Senior Member Профиль · PM Рейтинг (т): 12	Цитата GarF1eld @ 10.08.07, 18:42 Может проще будет загрузить это все в XmlDocument? Если сайт xhtml конечно. Сайт не xhtml

andrey

Сообщ. #9 , 11.08.07, 21:02

Profi

Профиль · PM

Поощрения: 4 Dgm

Рейтинг (т): 104

Регулярными выражениями в силу особенностей их реализации невозможно правильно обрабатывать сбалансированость открывающих/закрывающих элементов. Обратись в сторону синтаксического анализа.

А вообще, если нужно обрабатывать только указанный формат строк, проще написать код для разборки вручную - скорее всего он будет быстрее РВ

GRIENDERS	Сообщ. #10 , 12.08.07, 17:36
Senior Member Профиль · PM Рейтинг (т): 12	Тогда всем спасибо, буду дальше мучиться.

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0328 ] [ 15 queries used ] [ Generated: 12.07.25, 14:56 GMT ]