Регулярка не работает -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.128.199.210]

Модераторы: RaD

Регулярка не работает

diel

Сообщ. #1 , 03.11.15, 05:11

Junior

Профиль · PM

Рейтинг (т): 1

html = urllib2.urlopen("http://localhost/index.php?price=" + str(id))

match = re.search("<title>(.*?)<\/title>", str(html).decode("utf8"), re.UNICODE)

print match

Выдает None, хотя title есть, но там могут содержаться кириллические символы.
Скажите пожалуйста, что я делаю не так?

Добавлено 03.11.15, 05:33
Ой, прошу прощения, забыл прочитать ответ

connect = urllib2.urlopen("http://localhost/index.php?price=" + str(id))

html = connect.read().decode("utf8")

match = re.search("<title>(.*?)</title>", str(html), re.UNICODE)

print match

Теперь возвращает ошибку UnicodeDecodeError: 'utf8' codec can't decode byte 0xe2 in position 1032: invalid continuation byte
Хотя я указал регулярному выражению, что работаем в юникоде и сам html декодирую

Добавлено 03.11.15, 05:51

html = urllib2.urlopen("http://localhost/index.php?price=" + str(id)).read()

match = re.search(u"<title>(.*)</title>", str(html), re.I | re.U)

print match.group(1)

Вот так работает, но кириллица режется(

Добавлено 03.11.15, 06:01
Начал писать в файл, оказалось регулярное выражение работает, просто в консоли putty не выводится

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0159 ] [ 16 queries used ] [ Generated: 26.04.24, 19:23 GMT ]