Ручной slipt строки или то же, но с помощью std::regexp - что быстрее? -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.22.249.158]

Общаемся правильно!

Полезные ссылки:

Модераторы: Qraizer, Hsilgos

Новое голосование

Ручной slipt строки или то же, но с помощью std::regexp - что быстрее?

Flex Ferrum

Сообщ. #1 , 10.04.17, 15:33

Wizard

Профиль · PM

Поощрения: 25 Dgm

Рейтинг (т): 506

Тут на российском сайте для предложений в стандарт появилось новое - предлагают сделать стандартный алгоритм для разбиение строки на подстроки. На что у меня возникло вполне обоснованное возражение: зачем добавлять такой алгоритм, если уже есть regexp'ы. И вот возник вопрос: а действительно, является ли такая замена адекватной и что будет работать быстрее/эффективнее?

Олег М	Сообщ. #2 , 10.04.17, 15:53
Profi Профиль · PM Рейтинг (т): 72	Думаю, просто разбить строку по символу-разделителю будет по-любому эффективенее, чем regexp'ом. Хотя пример, который там показан, довольно тяжеловатый.

Flex Ferrum

Сообщ. #3 , 10.04.17, 16:09

Wizard

Профиль · PM

Поощрения: 25 Dgm

Рейтинг (т): 506

В стандартной библиотеке уже всё есть. Можно пользоваться.

Пример:

#include <fstream>

#include <iostream>

#include <algorithm>

#include <iterator>

#include <regex>

using namespace std;

int main() {

std::string text = "One, two, three";

std::regex ws_re(",\\s+"); // whitespace

std::copy( std::sregex_token_iterator(text.begin(), text.end(), ws_re, -1),

std::sregex_token_iterator(),

std::ostream_iterator<std::string>(std::cout, "\n"));

return 0;

}

Бьёт строку по запятым и "съедает" пробелы.

Сообщение отредактировано: Flex Ferrum - 10.04.17, 16:11

Flex Ferrum	Сообщ. #4 , 10.04.17, 22:16
Wizard Профиль · PM Поощрения: 25 Dgm Рейтинг (т): 506	Как выяснилось, разница довольно существенная - ~20 раз. Но это на такой, довольно простой, задаче.

negram

Сообщ. #5 , 10.04.17, 23:04

Master

Профиль · PM

Regexp всегда были очень тяжелым механизмом :yes:

Даже на php обычно получается быстрее. RE2, которые компилируют регулярку в конечный (вроде как) автомат работают значительно быстрее классических регулярок, что реализуют поиск с вовратом, но и это далеко не всегда оправдано.

Олег М

Сообщ. #6 , 11.04.17, 04:41

Profi

Профиль · PM

Рейтинг (т): 72

Цитата Flex Ferrum @ 10.04.17, 22:16

Как выяснилось, разница довольно существенная - ~20 раз.

Кто б сомневался.
Хотя, разница должна быть ещё больше. С учётом того, что в splitLineRaw большая часть времени тратится на создание std::string и добавление её в вектор, а в splitLineRegEx - на поиск.

Flex Ferrum

Сообщ. #7 , 11.04.17, 06:33

Wizard

Профиль · PM

Поощрения: 25 Dgm

Рейтинг (т): 506

Цитата Олег М @ 11.04.17, 04:41

Цитата Flex Ferrum @ 10.04.17, 22:16

Как выяснилось, разница довольно существенная - ~20 раз.

Временем на создание строки можно пренебречь. После первогого прохода цикла в векторе память уже не выделяется, а в строке работает small string optimization (в gcc-версии), и память тоже не выделяется. Таким образом просто символы копируются.

Мне, собственно, была даже больше интересна разница между бустом и регулярками, ибо простой "чистый" спит - явление не то, чтобы частое. Нередко встречаются ситуации, когда сплитить надо по символу или символами, а полученные куски строки - чистить от пробелов. В этом случае алгоритм усложняется и регулярки могут стать более подходящим решением.

Олег М

Сообщ. #8 , 11.04.17, 06:52

Profi

Профиль · PM

Рейтинг (т): 72

Цитата Flex Ferrum @ 11.04.17, 06:33

После первогого прохода цикла в векторе память уже не выделяется,

Там разве не удваивается резерв? Т.е. на первые 6 элементов, в данном случае, память должна выделяться/копироваться 3 раза.

Сообщение отредактировано: Олег М - 11.04.17, 06:55

Flex Ferrum

Сообщ. #9 , 11.04.17, 06:55

Wizard

Профиль · PM

Поощрения: 25 Dgm

Рейтинг (т): 506

Цитата Олег М @ 11.04.17, 06:52

Цитата Flex Ferrum @ 11.04.17, 06:33

После первогого прохода цикла в векторе память уже не выделяется,

Там разве не удваивается резерв? Т.е. на первые 6 элементов память, в данном случае, должна выделяться/коироваться 3 раза.

Это совершенно не важно. Важно, что clear память не освобождает.

Олег М

Сообщ. #10 , 11.04.17, 07:00

Profi

Профиль · PM

Рейтинг (т): 72

Ну да, не обратил внимания.
А вообще, тоже не вижу особой необходимости вносить такой сплит в стандарт (хотя, и range-for тоже не вижу, но удобно).
Лучше бы сделали какой-нибудь парсер, чтоб можно было разбирать строку за один проход.

Flex Ferrum	Сообщ. #11 , 11.04.17, 07:34
Wizard Профиль · PM Поощрения: 25 Dgm Рейтинг (т): 506	Цитата Олег М @ 11.04.17, 07:00 Лучше бы сделали какой-нибудь парсер, чтоб можно было разбирать строку за один проход. Я так понимаю, что в общем случае это невозможно. А для всего остального есть регэкспы.

Олег М

Сообщ. #12 , 11.04.17, 07:42

Profi

Профиль · PM

Рейтинг (т): 72

Цитата Flex Ferrum @ 11.04.17, 07:34

Я так понимаю, что в общем случае это невозможно.

Почему? Относительно простые случаи, типа scanf, вполне возможно перенести в compile-time. А другое и не нужно.

Цитата Flex Ferrum @ 11.04.17, 07:34

А для всего остального есть регэкспы.

Regexp - не вариант, очень медленный. Большой поток данных им особо не напарсишься,

Flex Ferrum

Сообщ. #13 , 11.04.17, 07:47

Wizard

Профиль · PM

Поощрения: 25 Dgm

Рейтинг (т): 506

Цитата Олег М @ 11.04.17, 07:42

Regexp - не вариант, очень медленный

Как видишь, "очень" - это понятие относительное. Если считать boost::split более менее универсальным вариантом split'а - то регэксп медленнее "всего" в два раза. Для ряда задач это может быть вполне приемлемо.

Цитата Олег М @ 11.04.17, 07:42

Относительно простые случаи, типа scanf, вполне возможно перенести в compile-time.

Ты когда последний раз scanf'ом то пользовался?

Этот "относительно простой случай" уже реализован на базе istream'ов. Натравливаешь istream на строку и стримишь из неё то, что нужно, как-то обрабатывая ошибки.

Самый что ни наесть compile-time.

Qraizer

Сообщ. #14 , 11.04.17, 11:58

Moderator

Профиль · PM

Поощрения: 5 Dgm

Рейтинг (т): 530

Цитата Flex Ferrum @ 10.04.17, 22:16

Как выяснилось, разница довольно существенная - ~20 раз. Но это на такой, довольно простой, задаче.

Некорректное сравнение. Во-первых, разделителей должно быть больше одного для всех примеров, во-вторых, нужен обобщённый алгоритм. На вот, добавь:

template<typename It, typename Ot, typename Cr, typename Pr>

Ot splitLineCommon(It b_str, It e_str, It b_delim, It e_delim, Ot result, Cr creator, Pr comp)

{

auto pos = std::find_first_of(b_str, e_str, b_delim, e_delim, comp);

*result++ = std::move(creator(b_str, pos));

b_str = pos;

} while (b_str++ != e_str);

return result;

}

template<typename It, typename Ot, typename Cr>

Ot splitLineCommon(It b_str, It e_str, It b_delim, It e_delim, Ot result, Cr creator)

{

return splitLineCommon(b_str, e_str, b_delim, e_delim, result, creator,

[](typename It::value_type b, typename It::value_type e) { return b == e; });

}

/* ... */

std::string delims("[,;]");

splitLineCommon(begin(testStr), end(testStr), begin(delims), end(delims), std::back_inserter(/* ... */),

[](std::string::iterator b, std::string::iterator e) { return std::string(b, e); });

Результат примерно ожидаем.

Цитата negram @ 10.04.17, 23:04

RE2, которые компилируют регулярку в конечный (вроде как) автомат работают значительно быстрее классических регулярок, что реализуют поиск с вовратом, но и это далеко не всегда оправдано.

Кстати, а почему с boost::spirit не сравнили?

Добавлено 11.04.17, 12:01
P.S. Походу, [] лишние в разделителе. <_<

Сообщение отредактировано: Qraizer - 11.04.17, 12:01

Олег М	Сообщ. #15 , 11.04.17, 16:13
Profi Профиль · PM Рейтинг (т): 72	Цитата Qraizer @ 11.04.17, 11:58 Некорректное сравнение. Во-первых, разделителей должно быть больше одного для всех примеров, Там не линейная зависимость будет?

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (3) [1] 2 3 все

[ Script execution time: 0,0399 ] [ 17 queries used ] [ Generated: 19.04.24, 11:25 GMT ]