Алгоритм поиска подстроки в строке -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.23]

правила раздела Алгоритмы

1. Помните, что название темы должно хоть как-то отражать ее содержимое (не создавайте темы с заголовком ПОМОГИТЕ, HELP и т.д.). Злоупотребление заглавными буквами в заголовках тем ЗАПРЕЩЕНО.
2. При создании темы постарайтесь, как можно более точно описать проблему, а не ограничиваться общими понятиями и определениями.
3. Приводимые фрагменты исходного кода старайтесь выделять тегами code.../code
4. Помните, чем подробнее Вы опишете свою проблему, тем быстрее получите вразумительный совет
5. Запрещено поднимать неактуальные темы (ПРИМЕР: запрещено отвечать на вопрос из серии "срочно надо", заданный в 2003 году)
6. И не забывайте о кнопочках TRANSLIT и РУССКАЯ КЛАВИАТУРА, если не можете писать в русской раскладке

Модераторы: Akina, shadeofgray

Новое голосование

Алгоритм поиска подстроки в строке

ХакМак

Сообщ. #1 , 11.10.03, 16:52

Unregistered

Народ помогите найти алгоритм для поиска в строке подстроки, обічній дельфиевский Pos() слишком слабый и в больших оюъемах (30МБ) уже ужасно тормозит, может посоветуете чтонибудь другое ? И еще как снять ограничение на размер открываемого файла в дельфи?

Demo_S (unlogged)

Сообщ. #2 , 11.10.03, 20:50

Unregistered

Самому написать.
идея - обычно ты ищещь первую букву искомой строки в тексте, потом проверяешь
совпадают ли остальные буквы. Дык а попробуй искать не первую букву искомой строки
а самую редкую. тогда колиество лишних сравнений (если 1 буквы совпала а остальные нет)
будет меньше.

zx1024	Сообщ. #3 , 11.10.03, 21:34
Junior Профиль · PM Рейтинг (т): 0	Редкую где? В исходной строке. Так сначала потребуется найти её.

Ivan_Govnoff

Сообщ. #4 , 11.10.03, 22:16

Member

Профиль · PM

Рейтинг (т): 11

Есть такой алгоритм(кажется (с) Кнут):

1.
Считаем хэш-функцию типа H(s) = s[0] + s[1] + ... + s[n-1], где s - подстрока длиной n, которую нужно найти. Вместо + можно взять xor или что-нибудь еще.

2.
Считаем значение хэш-функции для первых n символов строки S в которой ведется поиск.

3. i = n;

4.
Если H совпадает с H(s), проверяем посимвольным сравнением и делаем выводы, если нет - идем дальше:
H = H - S[i-n] + S[i]; i++;

5. Goto 4

Т.е. фишка в том, что мы не пересчитываем каждый раз значение хэша заново, а вычисляем его из предыдущего всего за две быстрые операции (само собой, такое возможно только для определенного класса хэш-функций)

Сообщение отредактировано: Ivan_Govnoff - 11.10.03, 22:18

Visitor

Сообщ. #5 , 11.10.03, 23:18

Profi

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 22

Что-то мне кажется, что етот, с хеш-функцией, алгоритм (1) будет НЕ быстрее, чем ранее предложенный алгоритм (2) (поиск первой буквы, затем сравнение остальных), в том случае, если буквы в просматриваемом тексте распределены равномерно... Если же неравномерно, то (1) в среднем будет работать с такой же скоростью, что и (2), но у (2) будут случаи "плохих" и "хороших" искомых подстрок

Самым быстрым, вроде, считают алгоритм Бойера-Мура, но его еффективность проявляется только при значительной длине искомой подстроки.

Сообщение отредактировано: Visitor - 12.10.03, 16:45

Sl0n	Сообщ. #6 , 12.10.03, 08:04
Unregistered	У меня курсовик был на эту тему. Могу намылить.

Ivan_Govnoff

Сообщ. #7 , 12.10.03, 17:07

Member

Профиль · PM

Рейтинг (т): 11

Цитата Visitor, 12.10.03, 03:18:46

Ясен пень, если тебе хватает первого метода, то и не нечего извращаться, просто я предлагаю другой хороший вариант.

Demo_S

Сообщ. #8 , 12.10.03, 21:37

Master

Профиль · PM

Рейтинг (т): 34

редкая - например "Ъ".

хеш будет быстрее, так как больше неправильных вариантов будут отсекаться без посимвольного сравнения. тут кстати где то рядом уже была подобная тема.

кстати простой вариант с первой буквой - этот тот же хеш. просто хеш фукнция от строки - взять первую букву.

lunc

Сообщ. #9 , 13.10.03, 11:20

Unregistered

В журнале "Программист" была статья в свое время на эту тему.
Самый эффективный поиск там был начиная с конца текста.
Ищешь с конца первое вхождение первого символа подстроки. При повторяющихся символах в подстроке сдвигать можно на разнице между двумя вхождениями этих символов.
По-моему так....

Visitor

Сообщ. #10 , 13.10.03, 16:22

Profi

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 22

Блин... Ну хоть строгое доказательство приводи

Ни один алгоритм, не использующий знание о структуре искомой подстроки и просматриваемого текста, в среднем не будет работать быстрее, чем самый очевидный из уже предложенных

2 lunc: Алгоритм Бойера-Мура примерно так и делает. Только там прописаны сдвиги для каждого символа искомой подстроки

Сообщение отредактировано: Visitor - 13.10.03, 16:28

lunc

Сообщ. #11 , 13.10.03, 20:30

Unregistered

Цитата Visitor, 13.10.03, 20:22:23

Про него я и говорил

Пример:

Let us consider the following example (надо найти вхождение Override):
Override (совпадают символы ide)
Override (совпадает символ e)

В начале в текущей позиции находим первый с конца образца символ не соответствующий символу в строке (стоп-символ). Чтобы не пропустить ни одной возможной позиции сдвигаем образец вправо до первого вхождения стопового символа. Повторяем.

Описан этот алгоритм и еще несколько 9включая на конечных автоматах) в журнале Программист #6 2002 "Алгоритмы: "умный" поиск в тексте"

Visitor	Сообщ. #12 , 13.10.03, 21:07
Profi Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 22	Тогда сдаюсь - согласен

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0602 ] [ 14 queries used ] [ Generated: 12.02.26, 01:31 GMT ]