<?xml version='1.0' encoding="utf-8"?>
      <rss version='2.0'>
      <channel>
      <title>Форум на Исходниках.RU</title>
      <link>https://forum.sources.ru</link>
      <description>Форум на Исходниках.RU</description>
      <generator>Форум на Исходниках.RU</generator>
  	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=202482&amp;view=findpost&amp;p=1694919</guid>
        <pubDate>Wed, 12 Sep 2007 22:46:34 +0000</pubDate>
        <title>Правильное написание слова (орфография)</title>
        <link>https://forum.sources.ru/index.php?showtopic=202482&amp;view=findpost&amp;p=1694919</link>
        <description><![CDATA[kl: Да, тебя спасет только словарь. Проблема в том, как найти похожие слова. Ну для начала, надо определиться с метрикой, т.е. что  мы называем &quot;похожим&quot;. Для этого вполне подойдет <a class='tag-url' href='http://en.wikipedia.org/wiki/Levenshtein_distance' target='_blank'>Levenshtein distance</a> (так же известная как string edit distance). Да-да, если в слове &quot;хлеб&quot; сделать 4 ошибки, получится слово &quot;пиво&quot;. Это как раз оттуда. Расстояние Левенштайна между этими словами как раз 4.<br>
Далее. Разумеется, бежать по словарю из 40,000-60,000 слов и считать эту метрику - дело затратное. Т.е. нужна некая структура данных, которая позволила бы быстро находить все слова из словаря, которые находятся на расстоянии не более заданного (некая маленькая константа, скажем 2-3) от нашего слова. Это дело известно как <a class='tag-url' href='http://en.wikipedia.org/wiki/Fuzzy_string_searching' target='_blank'>fuzzy string matching</a>. Смотри по ссылке на suffix trees, metric trees и т.д. для организации своего словаря.<br>
<br>
PS. Угу, я видел, что ты писал мне в аську. Дико извиняюсь, что не ответил, но ты выбрал самый неподходящий для этого момент - я смотрел Англия-Россия :)]]></description>
        <author>kl</author>
        <category>Алгоритмы</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=202482&amp;view=findpost&amp;p=1694880</guid>
        <pubDate>Wed, 12 Sep 2007 20:33:54 +0000</pubDate>
        <title>Правильное написание слова (орфография)</title>
        <link>https://forum.sources.ru/index.php?showtopic=202482&amp;view=findpost&amp;p=1694880</link>
        <description><![CDATA[Soul :): Даже имея очень хороший словарь, нужен алгоритм, по которому выбирать из него слова...<br><br>Люди, подскажите хоть в каком направлении копать? /ключевые слова что ли/]]></description>
        <author>Soul :)</author>
        <category>Алгоритмы</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=202482&amp;view=findpost&amp;p=1694476</guid>
        <pubDate>Wed, 12 Sep 2007 12:57:39 +0000</pubDate>
        <title>Правильное написание слова (орфография)</title>
        <link>https://forum.sources.ru/index.php?showtopic=202482&amp;view=findpost&amp;p=1694476</link>
        <description><![CDATA[R-2: Мне кажется к словарю... т.е. по любому есть какие-то правило, которое позволяет безошибочно определить правильно ли написано слово. Допустим однокренные слова для проверки написания гласной к корне. Соответственно слова исключения это сто процентный словарь, по которому происходит поиск нужного слова... Собственно если есть большой словарь, то и правописание можно проверить... В Ворде по моему тоже словарь и правила, он даже синонимы подбирает и однокоренные слова... Короче словарь.. :))) <br>
<br>
<span class="tag-color tag-color-named" data-value="gray" style="color: gray"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2007-09-12T12:58:42+00:00">12.09.07, 12:58</time></span></span><br>
А вот пунктуация сложнее, хотя там тоже правила... куда без них.. :))]]></description>
        <author>R-2</author>
        <category>Алгоритмы</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=202482&amp;view=findpost&amp;p=1692981</guid>
        <pubDate>Tue, 11 Sep 2007 12:24:14 +0000</pubDate>
        <title>Правильное написание слова (орфография)</title>
        <link>https://forum.sources.ru/index.php?showtopic=202482&amp;view=findpost&amp;p=1692981</link>
        <description><![CDATA[Soul :): Есть некий текст (скорее всего будет браться из распознавалки). Естественно, что его орфография будет оствлять лучшего. Какие существуют алгоритмы по исправлению этого дела и т.д.?<br><br>Хотя бы в какую сторону копать?]]></description>
        <author>Soul :)</author>
        <category>Алгоритмы</category>
      </item>
	
      </channel>
      </rss>
	