На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
! правила раздела Алгоритмы
1. Помните, что название темы должно хоть как-то отражать ее содержимое (не создавайте темы с заголовком ПОМОГИТЕ, HELP и т.д.). Злоупотребление заглавными буквами в заголовках тем ЗАПРЕЩЕНО.
2. При создании темы постарайтесь, как можно более точно описать проблему, а не ограничиваться общими понятиями и определениями.
3. Приводимые фрагменты исходного кода старайтесь выделять тегами code.../code
4. Помните, чем подробнее Вы опишете свою проблему, тем быстрее получите вразумительный совет
5. Запрещено поднимать неактуальные темы (ПРИМЕР: запрещено отвечать на вопрос из серии "срочно надо", заданный в 2003 году)
6. И не забывайте о кнопочках TRANSLIT и РУССКАЯ КЛАВИАТУРА, если не можете писать в русской раскладке :)
Модераторы: Akina, shadeofgray
  
> Индесксация текстовых документов
    Приветствую!

    Исходные данные

    В базу данных занесено некоторое количество текстовых документов. Документы занесены в BLOB'ы в виде результата сжатия содержимого очередного документа по алгоритму LZMA или PPMd/PPMz.

    Нужно вновь записываемые документы проиндексировать так, чтобы обеспечить полнотекстный поиск.

    Вопрос

    В каком виде строить индекс?

    Примеры

    • Документ содержит текст "Мама мыла раму". Документ должен быть найден по подстрокам "м","ма","мам" ...
    • Есть два документа, один содержит "Мама мыла раму", второй содержит "Мама мыла белую раму". При поиске "мама раму" - должно быть выдано два этих документа, при этом первый документ должен быть по поиску выше, т.к. между "мама" и "раму" у него расстояние в словах меньше.

    Чет пока не могу настроится на мысль :-?
      А тупо в лоб - построить суффиксное дерево для каждого документа, и искать уже в нём - не катит?
          OpenGL, MBo, спасибо - буду разбираться.
              А если захотите делать свой поисковик то вот вам теория: Прикреплённый файлПрикреплённый файл__________.zip (1,66 Мбайт, скачиваний: 274)

              Добавлено
              P.S Обратите внимание на материалы Яндекса, они так же в архиве.
                Pavia, пасип! Как раз сейчас читаю про "Стемминг" и "Лемматизацию" :)
                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                0 пользователей:


                Рейтинг@Mail.ru
                [ Script execution time: 0,0290 ]   [ 17 queries used ]   [ Generated: 28.03.24, 18:26 GMT ]