Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[18.118.144.69] |
|
Сообщ.
#1
,
|
|
|
Цель - получить все русские и английские слова из текста и только их(т.е. как минимум убрать разные знаки препинания).
Есть ф-я: Код: def only_words (text): tokens = re.compile(r"[\w']+", re.UNICODE) words = tokens.findall(text) return "\n".join(words) Причем она почти идеально работает, вот только проблеммы с буквой "ч" у нее - эта буква банально не считается за букву (видно по результатам работы скрипта). text = "чукча чукчу. Чичибечит? - давай-давай one two 12" Результат работы only_words (text) следующий: ук а ук у и ибе ит давай давай one two 12 В чем может быть проблема с этой буквой? |
Сообщ.
#2
,
|
|
|
Почему тогда этот код
#! /usr/bin/env python encoding = 'utf-8' text = unicode("чукча чукчу. Чичибечит? - давай-давай one two 12") print text Выдает положенное чукча чукчу. Чичибечит? - давай-давай one two 12 ??? С буквой "Ч" все нормально!!! Добавлено И к тому же Цитата http://www.iso.ru/journal/articles/44.html Регулярные выражения (модуль re) обрабатывают строки Unicode. |