Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[3.142.200.226] |
|
Сообщ.
#1
,
|
|
|
Приветствую!
Понадобилась задача: 1) привести все существительные текста к форме "Именительный падеж единственного числа" 2) привести все прилагательные текста к форме "Именительный падеж единственного числа мужского/женского/среднего рода" 3) привести все глаголы текста к форме "Неопределенная форма" То, что это делается - есть наглядная демонстрация на сайте "Мультитран". Вопрос как? На ум приходят только табличные преобразования. Если это единственный способ, гарантирующий правильность, где можно поживиться такими таблицами? |
Сообщ.
#2
,
|
|
|
Это нормализация.
Более простые и доступные подзадачи/варианты - лемматизация и особенно стемминг |
Сообщ.
#3
,
|
|
|
Цитата MBo @ Это нормализация. Более простые и доступные подзадачи/варианты - лемматизация и особенно стемминг Эхх ... мне нужны практические советы. Добавлено Цитата MBo @ стемминг Да ... пасип, читаю про это. |
Сообщ.
#4
,
|
|
|
1) В этой области народ не очень любит делится наработками.
https://nlpub.ru/Утилиты Так же есть фирменная утилита mystem яндекса, правда лицензия запрещает на основе её создавать конкурентов яндексу. https://tech.yandex.ru/mystem/ 2) Цитата JoeUser @ Если это единственный способ, гарантирующий правильность, где можно поживиться такими таблицами? Это "основной" способ. Но помимо прочего статистический анализ, деревья решений и прочие алгоритмами повышают качество. Правда по причине отсутсвие таких баз самый используемый способ это без таблицы откусить окончание. И самый практичный алгоритм открыт: http://snowball.tartarus.org/algorithms/russian/stemmer.html По поводу где взять таблицы? Ищите словарь Зализняк А. А. (недавно умер) А так же можно распарить базу https://ru.wiktionary.org/wiki/ Саму базу можно выкачать отсюда https://github.com/itkach/slob/wiki/Dictionaries Я пока не распарил, если у кого получится скиньте ссылку. |
Сообщ.
#5
,
|
|
|
Pavia, уважуха!!!
Займусь завтра, если "более другой" работы не подкатит. |