
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[18.97.14.88] |
![]() |
|
Сообщ.
#1
,
|
|
|
Цель - получить все русские и английские слова из текста и только их(т.е. как минимум убрать разные знаки препинания).
Есть ф-я: Код: ![]() ![]() def only_words (text): tokens = re.compile(r"[\w']+", re.UNICODE) words = tokens.findall(text) return "\n".join(words) Причем она почти идеально работает, вот только проблеммы с буквой "ч" у нее - эта буква банально не считается за букву (видно по результатам работы скрипта). text = "чукча чукчу. Чичибечит? - давай-давай one two 12" Результат работы only_words (text) следующий: ук а ук у и ибе ит давай давай one two 12 В чем может быть проблема с этой буквой? |
Сообщ.
#2
,
|
|
|
Почему тогда этот код
![]() ![]() #! /usr/bin/env python encoding = 'utf-8' text = unicode("чукча чукчу. Чичибечит? - давай-давай one two 12") print text Выдает положенное ![]() ![]() чукча чукчу. Чичибечит? - давай-давай one two 12 ??? ![]() Добавлено И к тому же Цитата http://www.iso.ru/journal/articles/44.html Регулярные выражения (модуль re) обрабатывают строки Unicode. ![]() |