python: модуль re не дружит с буквой ч? -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [18.118.144.69]

Модераторы: RaD

python: модуль re не дружит с буквой ч? , неужели модуль re не дружит с буквой ч?

kulaka

Сообщ. #1 , 20.11.06, 12:39

Newbie

Профиль · PM

Цель - получить все русские и английские слова из текста и только их(т.е. как минимум убрать разные знаки препинания).

Есть ф-я:

Код:

def only_words (text):

tokens = re.compile(r"[\w']+", re.UNICODE)

words = tokens.findall(text)

return "\n".join(words)

Причем она почти идеально работает, вот только проблеммы с буквой "ч" у нее - эта буква банально не считается за букву (видно по результатам работы скрипта).

text = "чукча чукчу. Чичибечит? - давай-давай one two 12"

Результат работы only_words (text) следующий:

ук
а
ук
у
и
ибе
ит
давай
давай
one
two
12

В чем может быть проблема с этой буквой?

best_lamer

Сообщ. #2 , 20.11.06, 16:06