Как правильно парсить строку? -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [18.222.117.109]

ПРАВИЛА РАЗДЕЛА · FAQ раздела Delphi · Книги по Delphi

Пожалуйста, выделяйте текст программы тегом [сode=pas] ... [/сode]. Для этого используйте кнопку [code=pas] в форме ответа или комбобокс, если нужно вставить код на языке, отличном от Дельфи/Паскаля.

Следующие вопросы задаются очень часто, подробно разобраны в FAQ и, поэтому, будут безжалостно удаляться:
1. Преобразовать переменную типа String в тип PChar (PAnsiChar)
2. Как "свернуть" программу в трей.
3. Как "скрыться" от Ctrl + Alt + Del (заблокировать их и т.п.)
4. Как прочитать список файлов, поддиректорий в директории?
5. Как запустить программу/файл?
... (продолжение следует) ...

Вопросы, подробно описанные во встроенной справочной системе Delphi, не несут полезной тематической нагрузки, поэтому будут удаляться.
Запрещается создавать темы с просьбой выполнить какую-то работу за автора темы. Форум является средством общения и общего поиска решения. Вашу работу за Вас никто выполнять не будет.

Внимание
Попытки открытия обсуждений реализации вредоносного ПО, включая различные интерпретации спам-ботов, наказывается предупреждением на 30 дней.
Повторная попытка - 60 дней. Последующие попытки бан.
Мат в разделе - бан на три месяца...

Модераторы: jack128, D[u]fa, Shaggy, Rouse_

Новое голосование

Как правильно парсить строку?

^D^ima

Сообщ. #1 , 31.01.17, 10:29

Guru

Профиль · PM

Поощрения: 3 Dgm

Рейтинг (т): 303

Есть константа(текстовые смайлы):

Const

Smiles:array[1..7] of string = ('*^_^*','*8)*','*8(*','*-_-*','*^0^*','*^p^*','*8p*');

Есть абстрактный тест, который может содержать произвольное количество вхождений смайлов из константы.
Пример текста:

message *^0^**8)* message2 *^0^* message3 message4 message5

Как мне разбить текст на составляющие:

message

*^0^*

*8)*

message2

*^0^*

message3 message4 message5

при этом если это смайл, то вернуть номер смайла в константе. текст и смайлы могут быть и не разделены пробелом. Смайлы имеют разную длину.
В лоб не получается сделать.

min@y™	Сообщ. #2 , 31.01.17, 10:33
Full Member Профиль · PM Рейтинг (т): 10	Чтоб текст разбивать, определись, что есть лексемы, а что - разделители.

^D^ima	Сообщ. #3 , 31.01.17, 10:37
Guru Профиль · PM Поощрения: 3 Dgm Рейтинг (т): 303	min@y™ разделители константы. все остальное лексемы

MBo

Сообщ. #4 , 31.01.17, 10:46

Master

Профиль · PM

Поощрения: 3 Dgm

Рейтинг (т): 320

Простой конечный автомат. Вход в состояние "внутри смайла" - когда встретил звездочку, штатный выход по второй звездочке, нештатный - если не совпадает с одной из констант.

В общем случае - алгоритм Ахо-Корасик, но для этой задачи он излишне сложен.

^D^ima

Сообщ. #5 , 31.01.17, 12:58

Guru

Профиль · PM

Поощрения: 3 Dgm

Рейтинг (т): 303

Цитата MBo @ 31.01.17, 10:46

Вход в состояние "внутри смайла" - когда встретил звездочку

Да, так получилось:

Const

MaxSmiles=7;

Smiles:array[1..7] of string = ('*^_^*','*8)*','*8(*','*-_-*','*^0^*','*^p^*','*8p*');

Var

sIn,sOut,Smile:string;

i,i2,slength,CharNum:integer;

begin

Sin:='message *^0^* *8)* message2 *^0^* message3 message4 message5';

CharNum:=0;

For i:=1 to length(SIn) do

begin

inc(CharNum);

If SIn[CharNum]='*' then

Begin

For i2:=1 to MaxSmiles do

Begin

SLength:=length(Smiles[i2]);//длина смайла

Smile:=copy(SIn,CharNum,SLength);//смайл в тексте

If Smile=Smiles[i2] then

begin

CharNum:=CharNum+SLength-1;

If (SOut<>'')and(SOut<>' ') then ShowMessage(SOut);

SOut:='';

ShowMessage(Smile);

break;

end;

End;

End

else

begin

SOut:=SOut+SIn[charnum];

If(Length(SIn)=CharNum)then ShowMessage(sOut);

end;

MBo

Сообщ. #6 , 31.01.17, 15:50

Master

Профиль · PM

Поощрения: 3 Dgm

Рейтинг (т): 320

Эх, это совсем не конечный автомат, а каждый раз копирование всех образцов и сравнение с ними. В таком случае можно было обойтись PosEx для поиска начальной/конечной звездочек и Pos для поиска кусочка в строке-объединении всех смайлов.

^D^ima

Сообщ. #7 , 01.02.17, 06:29

Guru

Профиль · PM

Поощрения: 3 Dgm

Рейтинг (т): 303

MBo
разделители могут идти не в том порядке, которые представлены в константе, значит придется определять какой стоит первым, какой вторым и т.д. если вы видите что код может быть существенно сокращен, буду благодарен за новый.

MBo	Сообщ. #8 , 01.02.17, 07:17
Master Профиль · PM Поощрения: 3 Dgm Рейтинг (т): 320	Быстродействие важно? Текущая скорость устраивает? Сообщение отредактировано: MBo - 01.02.17, 07:18

^D^ima	Сообщ. #9 , 01.02.17, 07:25
Guru Профиль · PM Поощрения: 3 Dgm Рейтинг (т): 303	Цитата MBo @ 01.02.17, 07:17 Быстродействие важно? Текущая скорость устраивает? нет, не важно Скорость значения не имеет

MBo	Сообщ. #10 , 01.02.17, 07:32
Master Профиль · PM Поощрения: 3 Dgm Рейтинг (т): 320	Тогда не стоит заморачиваться, код будет объёмнее.

^D^ima	Сообщ. #11 , 01.02.17, 09:48
Guru Профиль · PM Поощрения: 3 Dgm Рейтинг (т): 303	Кстати вопрос к знатокам, через stringlist можно сделать подобное? Передать в качестве разделителя массив разделителей?

Fr0sT

Сообщ. #12 , 01.02.17, 15:22

Master

Профиль · PM

Поощрения: 4 Dgm

Рейтинг (т): 127

Массив нельзя. Есть какие-то функции, принимающие набор разделителей, но зачем? У тебя один разделитель, внутри смайлов он не содержится, поэтому делай PosEx начала, проверяй, смайл ли идет следующим, если нет - переходи на следующий разделитель, повторить до окончания строки.

Pavia

Сообщ. #13 , 01.02.17, 17:34

Master

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 257

^D^ima
Можно вот так вот. Главное правильно за эскейпить смайлы в регулярке.

function TForm1.ReplaceCC(const Match: TMatch): string;

const NL=#$000D#$000A;

begin

Result := NL+Match.Value+NL;

end;

procedure TForm1.Button2Click(Sender: TObject);

var

regex: TRegEx;

input: string;

myEval: TMatchEvaluator;

begin

input := 'message *^0^* *8)* message2 *^0^* message3 message4 message5.';;

regex.Create('(\*\^_\^\*)|(\*8\)\*)|(\*\^0\^\*)');

myEval := ReplaceCC;

Memo1.Text := regex.Replace(input, myEval);

end;

message

*^0^*

*8)*

message2

*^0^*

message3 message4 message5.

Добавлено 01.02.17, 17:35
'\*\^0\^\*' - правильное экранирование
'\*\^\0\^\*' - неправильное экранирование

^D^ima	Сообщ. #14 , 01.02.17, 19:15
Guru Профиль · PM Поощрения: 3 Dgm Рейтинг (т): 303	Pavia Спасибо, любая библиотека для регулярки скушает это? '(\\^_\^\)\|(\8\)\)\|(\\^0\^\)' Добавлено 01.02.17, 19:27 У тебя регулярка учитывает 2 смайла всего? У меня их уже 17

Pavia

Сообщ. #15 , 01.02.17, 19:38

Master

Профиль · PM

Поощрения: 2 Dgm

Рейтинг (т): 257

Цитата ^D^ima @ 01.02.17, 19:15

Спасибо, любая библиотека для регулярки скушает это?

Я не такой большой знаток регулярок. Но тут используется стандартные операторы \ | (). Полагаю проглотит любая перловская библиотека. Если не пойдёт попробуйте без скобок.

Но из практики у всех библиотек регулярок свои заскоки несовместимые между собой.

Добавлено 01.02.17, 19:51

Цитата ^D^ima @ 01.02.17, 19:15

У тебя регулярка учитывает 2 смайла всего? У меня их уже 17

Сообщение отредактировано: Pavia - 01.02.17, 20:03

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (2) [1] 2 все

[ Script execution time: 0,0415 ] [ 17 queries used ] [ Generated: 25.04.24, 16:13 GMT ]