На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
! правила раздела Алгоритмы
1. Помните, что название темы должно хоть как-то отражать ее содержимое (не создавайте темы с заголовком ПОМОГИТЕ, HELP и т.д.). Злоупотребление заглавными буквами в заголовках тем ЗАПРЕЩЕНО.
2. При создании темы постарайтесь, как можно более точно описать проблему, а не ограничиваться общими понятиями и определениями.
3. Приводимые фрагменты исходного кода старайтесь выделять тегами code.../code
4. Помните, чем подробнее Вы опишете свою проблему, тем быстрее получите вразумительный совет
5. Запрещено поднимать неактуальные темы (ПРИМЕР: запрещено отвечать на вопрос из серии "срочно надо", заданный в 2003 году)
6. И не забывайте о кнопочках TRANSLIT и РУССКАЯ КЛАВИАТУРА, если не можете писать в русской раскладке :)
Модераторы: Akina, shadeofgray
  
> Преобразование слов русского языка
    Приветствую!

    Понадобилась задача:

    1) привести все существительные текста к форме "Именительный падеж единственного числа"
    2) привести все прилагательные текста к форме "Именительный падеж единственного числа мужского/женского/среднего рода"
    3) привести все глаголы текста к форме "Неопределенная форма"

    То, что это делается - есть наглядная демонстрация на сайте "Мультитран".
    Вопрос как?

    На ум приходят только табличные преобразования.
    Если это единственный способ, гарантирующий правильность, где можно поживиться такими таблицами?
      Это нормализация.
      Более простые и доступные подзадачи/варианты - лемматизация и особенно стемминг
      Сообщение отредактировано: MBo -
        Цитата MBo @
        Это нормализация.
        Более простые и доступные подзадачи/варианты - лемматизация и особенно стемминг

        Эхх ... мне нужны практические советы.

        Добавлено
        Цитата MBo @
        стемминг

        Да ... пасип, читаю про это.
          1) В этой области народ не очень любит делится наработками.
          https://nlpub.ru/Утилиты
          Так же есть фирменная утилита mystem яндекса, правда лицензия запрещает на основе её создавать конкурентов яндексу.
          https://tech.yandex.ru/mystem/
          2)
          Цитата JoeUser @
          Если это единственный способ, гарантирующий правильность, где можно поживиться такими таблицами?

          Это "основной" способ. Но помимо прочего статистический анализ, деревья решений и прочие алгоритмами повышают качество.

          Правда по причине отсутсвие таких баз самый используемый способ это без таблицы откусить окончание. И самый практичный алгоритм открыт:
          http://snowball.tartarus.org/algorithms/russian/stemmer.html

          По поводу где взять таблицы? Ищите словарь Зализняк А. А. (недавно умер)
          А так же можно распарить базу https://ru.wiktionary.org/wiki/
          Саму базу можно выкачать отсюда
          https://github.com/itkach/slob/wiki/Dictionaries
          Я пока не распарил, если у кого получится скиньте ссылку.
          Сообщение отредактировано: Pavia -
            Pavia, уважуха!!! :lol:
            Займусь завтра, если "более другой" работы не подкатит.
            0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
            0 пользователей:


            Рейтинг@Mail.ru
            [ Script execution time: 0,0218 ]   [ 16 queries used ]   [ Generated: 28.03.24, 12:26 GMT ]