(Python) Сложная замена строк -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [13.59.122.162]

Модераторы: RaD

(Python) Сложная замена строк , <s repeat="2">text</s> => <s>text</s><s>text</s>

WhyNot

Сообщ. #1 , 04.12.14, 21:41

Junior

Профиль · PM

Рейтинг (т): нет

Предыстория:
Есть content.xml, выдранная из документа формата OpenOffice (*.odt).
Эта xml используется неким простым парсером, в который мы условно не можем вносить изменения.
Между ними есть скрипт, написанный на Python, который распаковывает эту xml и попутно разрешает в ней разные проблемы.

Сегодня столкнулся с новой любопытной проблемой:
OpenOffice находит одинаковые строки, стоящие рядом и группирует их.

Другими словами, было:

<table:table-cell office:value-type="string" calcext:value-type="string">Теги и текст</table:table-cell><table:table-cell office:value-type="string" calcext:value-type="string">Теги и текст</table:table-cell>

стало:

<table:table-cell table:number-columns-repeated="2" office:value-type="string" calcext:value-type="string">Теги и текст</table:table-cell>

Задача:
Нужно как-то развернуть сгруппированный текст, с указанным числом повторений в исходный.
То есть, у нас где-то в тексте есть:

<some-tag repeat="n">Some complex info</some-tag>

а вместо этого мы должны получить повторённое n раз:

<some-tag>Some complex info</some-tag>

Собственно, как такое лучше провернуть?
Производительность не важна.

xNut	Сообщ. #2 , 05.12.14, 06:13
Member Профиль · PM Рейтинг (т): 2	на Lua,например, так local s=[[<some-tag repeat="4">Some complex info</some-tag>]] print( (s:gsub( '<(.-)%s+repeat="(%d)">(.-)</%1>', function(tag,count,cont) return ('<'..tag..'>'..cont..'</'..tag..'>'):rep(count) end )) )

WhyNot

Сообщ. #3 , 07.12.14, 10:38

Junior

Профиль · PM

Рейтинг (т): нет

В общем, решил в лоб

def fix_identical_compression(text):

fixedText = text

# exclude empty cells

badResult = re.compile('<table\:table\-cell\s+table\:number\-columns\-repeated\=\"\d+\"(?!>)*?/>')

fixedText = badResult.sub("", fixedText)

r = re.compile('<table\:table\-cell\s+table\:number\-columns\-repeated\=\"(\d+)\".*?>.*?</table\:table\-cell>')

while r.search(fixedText):

res = r.search(fixedText, 1)

groups = res.groups()

unresult = re.compile('\stable\:number\-columns\-repeated\=\"\d+\"')

fixedGroup = unresult.sub("", res.group())

fixedText = r.sub(fixedGroup * int(groups[0]), fixedText, 1)

return fixedText

Сообщение отредактировано: WhyNot - 07.12.14, 10:39

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0279 ] [ 15 queries used ] [ Generated: 27.04.24, 18:23 GMT ]