На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
! правила раздела Алгоритмы
1. Помните, что название темы должно хоть как-то отражать ее содержимое (не создавайте темы с заголовком ПОМОГИТЕ, HELP и т.д.). Злоупотребление заглавными буквами в заголовках тем ЗАПРЕЩЕНО.
2. При создании темы постарайтесь, как можно более точно описать проблему, а не ограничиваться общими понятиями и определениями.
3. Приводимые фрагменты исходного кода старайтесь выделять тегами code.../code
4. Помните, чем подробнее Вы опишете свою проблему, тем быстрее получите вразумительный совет
5. Запрещено поднимать неактуальные темы (ПРИМЕР: запрещено отвечать на вопрос из серии "срочно надо", заданный в 2003 году)
6. И не забывайте о кнопочках TRANSLIT и РУССКАЯ КЛАВИАТУРА, если не можете писать в русской раскладке :)
Модераторы: Akina, shadeofgray
  
> Data mining - извлечение данных из текста (e-mail)
    Подскажите, в какую сторону копать по следующей задаче: нужно извлекать из входящей почты письма, содержащие информацию о некоторых предметах, и складывать её в обыкновенную таблицу на SQL-сервере. В примере по ссылке ниже рассматривается поиск объявлений о продаже автомобилей, что, в принципе, достаточно точно описывает то, что нужно мне, хоть направленность и другая. Почему-то почти все труды по Data mining и Web scraping заточены на то, чтобы из подсунутого текста выявить, о чём этот текст, построить по нему какую-то базу знаний, вероятно, чтобы можно было к этому потом выполнить какие-то неопределенные запросы. Мне же не нужно выявлять о чём - я точно знаю, что меня интересует, к примеру, автомобиль, и мне нужно в SQL положить, к примеру, марку, модель, цвет, год выпуска и пробег. Конечно, в объявлении может быть ещё масса характеристик, но их извлекать и систематизировать мне совсем не нужно. Также не нужно что-то распознавать, если в тексте "опознать" автомобиль так и не удалось - это может быть "левая" переписка или спам. Сложность в том, что письма пишутся, в основном, людьми, соответственно, никакой даже приблизительной формализации и шаблонизации это не поддаётся. Информация подаётся в произвольном порядке, изобилует различными сокращениями и обобщениями (например, в географических названиях), даже в написании чисел есть варианты - точка или запятая, разделитель тысяч есть/нет, если есть, то вполне может оказаться пробелом ("15 000 км"), или сплошняком с единицей измерения быть ("15000км"), даты тоже могут совершенно по-разному выглядеть, вплоть до "следующий понедельник" или "начало июля", ну и прочие чудеса, надеюсь уже понятно и так.
    К сожалению, поиск в интернете даёт в основном ссылки на академические статьи, в которых методик и алгоритмов нет. Вот, например, Ontology-Based Extraction and Structuring of Information from Data-Rich Unstructured Documents. По описанию как раз то, что надо, но как?
    Интересует всё, что может помочь с практической реализацией, включая алгоритмы, примерный код, готовые библиотеки, том числе платные, и готовые решения (конечно ценой не в несколько десятков килобаксов).
    Сугубо технические проблемы, такие как чтение почтового ящика, извлечение текста письма из MIME или Quoted-printable, кодировки, "выкусывание" текста из HTML - несущественны.
    Спасибо, извините, что длинно.
      Assistant
      В датамининге я полный ноль. Думаю что подход простой составлять базы данных и базы правил по которым полученные эти данные. А да правила должны иметь циклический характер т.е обратимы. Тем самым мы сможем применяя правила последовательно мы сможем выполнить поиск по этим правилам несколько раз. На каждом цикле получая новую порцию данных.

      Но вот правила и первичное наполнение базы надо будет составлять,выдумывать программисту. И от этого никуда не уйти. Только если найти уже готовую программу.
        В данном случае задача похожа на сочетание двух (или более) других: семантический поиск и подраздел "Pattern mining" с помощью ассоциативных правил. Я так думаю.

        Добавлено
        Для начала нужно найти несколько примеров такого текста и затем построить набор желаемых признаков, на основе которых будет проводиться анализ.
        0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
        0 пользователей:


        Рейтинг@Mail.ru
        [ Script execution time: 0,0323 ]   [ 15 queries used ]   [ Generated: 25.03.25, 02:57 GMT ]