На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Страницы: (3) 1 [2] 3  все  ( Перейти к последнему сообщению )  
> Обсуждение проекта BookScanLib , Общие разговоры на тему проекта
    Я, возможно, невнимательно прочитал, но так и не понял, какова главная задача этого проекта:
    подготовка к приемлемому для чтения формату DJVU (обработка изображения с помощью фильтров) или же создание аналога FineReader'у, т.е. OCR, что сложнее первого?

    Цитата monday2000 @
    Если кто-нибудь может предложить более лучший вариант для публикации пользовательских статей (по теме проекта) - буду признателен. (То есть, вопрос в том, где в Интернете можно размещать именно свои статьи, а не посты. Возможные варианты: некий удобный блог или же какой-либо приемлемый сайт-коллектор статей - кто знает, подскажите, пожалуйста).

    Могу предложить гибкую систему на основе движка DokuWiki, очень подходит для такого рода деятельности. Если желаешь, можешь зарегистрировать свой проект у нас в Коллективных Проектах Исходников (смотри ссылку Wiki вверху) и я помогу с его размещением.
      Цитата Romtek @
      Я, возможно, невнимательно прочитал, но так и не понял, какова главная задача этого проекта:
      подготовка к приемлемому для чтения формату DJVU (обработка изображения с помощью фильтров) или же создание аналога FineReader'у, т.е. OCR, что сложнее первого?

      Судя по всему, автор на свой файнридер замахнулся.

      Лично я бы на месте автора задумался бы над распознаванием не отсканированного текста (на эту тему и так куча народу думает), а отфотографированного. Ибо так скорость оцифровки очень сильно повышается. Для начала, например, сделать приведение текста к прямоугольному виду и выравнивание яркости/контраста по всему изображению.
        У этого проекта предвижу проблемы с авторством.
          Скорее не с авторством, а с реализацией.
            Здраствуйте, я прошу прощения за то, что не слишком часто заглядываю на этот форум. Сейчас дочитываю книжку Айриг С., Айриг Э. «Подготовка цифровых изображений для печати» http://www.djvu-soft.narod.ru/bookscanlib/002.htm . Я работаю над проектом, точно не брошу его, чего бы мне это ни стоило. В планах: рассмотреть алгоритм Rotate из FreeImage, написать об этом статью, а затем взяться за Deskew (т.к. Deskew основан на Rotate).

            Romtek
            Цитата
            Я, возможно, невнимательно прочитал, но так и не понял, какова главная задача этого проекта

            Частично и то, и другое. У Вас есть дома сканер? Весьма желательно его иметь всем заинтересовавшимся.
            Если мы говорим об электронных версиях бумажных книг, то здесь есть 2 мира: мир DjVu/Pdf и мир OCR (оплот мира OCR - lib.ru). Я предлагаю развивать 1-ый - 2-ой уже и так развит. Знаете проект Google Print? Почитайте - http://lenta.ru/internet/2004/12/14/google/ .
            Чтобы понять суть данного проекта - ещё раз перечитайте "2. Ликбез по теории и алгоритмам обработки сканов книг" на http://www.djvu-soft.narod.ru/bookscanlib/002.htm .
            Цитата
            Если желаешь, можешь зарегистрировать свой проект у нас в Коллективных Проектах Исходников (смотри ссылку Wiki вверху) и я помогу с его размещением.

            Спасибо, но пока это слишком для меня сложно. Потом - посмотрим, не всё сразу, силы-то небезграничны.
            wormball
            Цитата
            Лично я бы на месте автора задумался бы над распознаванием не отсканированного текста (на эту тему и так куча народу думает), а отфотографированного.

            Спасибо, но я пока всё сразу не потяну - пока буду делать то, что умею, а дальше посмотрим. А Вы не хотите ли подключиться и эту свою идею реализовать?

            Мне хотелось бы, чтобы данный проект обрёл истинно народный характер. Я лишь дал идею, простейшую организационную структуру, и взял на себя неприятную обязанность отвечать за успешность. Поэтму - если можете - примите участие в проекте - в любой форме, не нарушающей общественного порядка на форуме. Пусть это проект на первых порах будет как общий котёл, куда все будут нечто своё вкладывать. Всё это потом "переплавится" и даст свой эффект.

            Ещё я надеюсь - может быть, кто-то начнёт параллельный проект, аналогичный данному? Было бы замечательно - будем помогать друг другу. Вовсе не факт, что я всё наилучшим образом тут продумал - если кто-то запустит свой более здравый и разумный проект - превосходно. Может быть, Вы захотите под Unix сделать аналогичный проект, или т.п. - в один проект (мой) это никак не втиснешь.
              Я посмотрел страницу http://www.sources.ru/wiki/doku.php - Коллективные Проекты Исходников (КПИ).

              К сожалению, мне пока не понравилось. Это просто не самая удачная попытка подражательства модным буржуйским веяниям (вроде Sourceforge) - но далеко не оптимальная организационная структура для проекта BookScanLib.

              Конечно, хочется пожелать разделу КПИ всяческого развития. Но пока я вынужден сделать неутешительный вывод: раздел КПИ - слишком сложен для "чайников", он, несомненно, лишь отпугнёт людей этим. А проект BookScanLib озадачен именно привлечением и обучением (что немаловажно) чайников, а не "спецов". Я вижу свою задачу в том, чтобы "разжевать" предмет любому чайнику до такой степени, когда программирование алгоритмов сканобработки покажется ему простым и лёгким занятием. Именно "чайники" - социальная база проекта BookScanLib, а вот у раздела КПИ - социальная база - "спецы-программисты". Вот вам и разница.

              Я выстраиваю несравненно более простую и понятную любому чайнику организационную структуру - "мой сайт + 2 топика". Всё! Просто и понятно - любому чайнику, не надо ни во что вникать. Опыт показывает - люди ленивы и не верят в свои силы (это самое страшное, на эту тему читайте мою статью "Гуманитарные задачи проекта BookScanLib" http://www.djvu-soft.narod.ru/bookscanlib/human.htm ) - никто никогда не будет в массовом порядке участвовать в структурах вроде КПИ - разве что единичные профессионалы.

              У меня есть опыт 2-х летнего администрирования своего сайта http://www.djvu-soft.narod.ru/ + такой же опыт работы в Интернет-форумах - поэтому у меня имеется хорошеее практическое представление "как всё будет" и "как лучше сделать". Именно поэтому я затеял проект BookScanLib - иначе я бы никогда не решился на столь ответственный шаг.

              Я предлагаю вот что: пусть чуть ли не каждый будущий участник проекта BookScanLib создаст свой пользовательский сайт, допустим на Narod.ru. Это довольно просто делается. И тогда уже каждый сможет публиковать на таком сайте все плоды своих будущих трудов. Это более удобно и гибко, чем КПИ. Кроме того - проекту BookScanLib не стОит попадать в зависимость от любого, самого распрекрасного Интернет-форума - чтобы никто никогда не смог разговаривать с проектом BookScanLib с позиции силы (а соблазн такой почему-то возникает нередко у них).
                Цитата monday2000 @
                раздел КПИ - слишком сложен для "чайников", он, несомненно, лишь отпугнёт людей этим.
                :( Ладно, не буду навязывать своё мнение.

                Давай лучше про саму обработку. Допустим, обработал я неким фильтром отсканированное изображение, переведя его в бинарное. Что дальше?

                Добавлено
                Цитата monday2000 @
                читайте мою статью "Гуманитарные задачи проекта BookScanLib" http://www.djvu-soft.narod.ru/bookscanlib/human.htm
                Ой, воды налил то сколько... :o Покороче нельзя? Это ведь не мемуар.
                  Цитата Romtek @
                  Покороче нельзя? Это ведь не мемуар.
                  Тебе ж сказано:

                  Цитата monday2000 @
                  А проект BookScanLib озадачен именно привлечением и обучением (что немаловажно) чайников, а не "спецов". Я вижу свою задачу в том, чтобы "разжевать" предмет любому чайнику до такой степени, когда программирование алгоритмов сканобработки покажется ему простым и лёгким занятием. Именно "чайники" - социальная база проекта BookScanLib, а вот у раздела КПИ - социальная база - "спецы-программисты". Вот вам и разница.
                  :lool: А ты сразу "Ну и в чем тут ТЗ?" А тут не ТЗ, а проповеди во имя всеблагого Файнридера. :P
                    Цитата monday2000
                    Я написал новую статью:

                    3. Памятка участникам проекта BookScanLib.

                    http://www.djvu-soft.narod.ru/bookscanlib/003.htm

                    Эта памятку я написал для всех тех, кто заинтересовался проектом BookScanLib, и хотел бы в нём как-либо поучаствовать, но не знает с чего начать и что, собственно, делать.

                    Прочитав, вкратце перескажу что я извлёк из сказанного:
                    желательно иметь опыт программирования на С++, ииеть знания в обработке изображнений алгоритмами, писать документацию по алгоритмам.
                    Я не говорю про компьютер, подключённый к интернету и сканер... :P
                      прививать культуру любви к Си и С++ и оpen-sources необходимо вместе с той культорой откуда это и началось - Linux. По мне нехватает цикла статей подобных 'Гуманитарным задачам' - навроде 'Linux - твоя свобода'. 'Свободный проект - в свободной ОСи'.


                      Извините, но предлагать купить на толкучке за бакс-два-три проприетарные системы и средства разработки.. Извините, это уровень Остапа Бендера, но не как Гиганта Мысли. 'чайнег' прежде всего должен научиться мыслить в нужном направлении, чтоб потом вся эта 'многопроцессорная' система 'работала' и приносила свои плоды.

                      тем более что Linux - по сути таже Developer Studio. Только под GCC, тот же самый С/C++ компилер уже встроеный в систему.
                        Romtek
                        Цитата
                        Ой, воды налил то сколько... Покороче нельзя? Это ведь не мемуар.

                        Нет, нельзя. :) Это называется "комплексный подход", и эта "вода" рассчитана на не-программистов, желающих поучаствовать. Если будем делать "проще" - не-программисты к нам не пойдут...
                        Цитата
                        Давай лучше про саму обработку.

                        После новогодних каникул сделаю и выложу большую статью о растровой графике. Сырьё уже набрал - десятки метров текстов.
                        Цитата
                        Допустим, обработал я неким фильтром отсканированное изображение, переведя его в бинарное. Что дальше?

                        Подробнее см. тут: http://www.djvu-soft.narod.ru/bookscanlib/002.htm - там схематически весь процесс объяснён на пальцах. Могу ещё вот что посоветовать: если имеете сканер - попробуйте отсканировать одну книгу и сделать из неё электронную - чисто на пробу - тогда многое станет ясным.
                        n0p
                        Цитата
                        Извините, но предлагать купить на толкучке за бакс-два-три проприетарные системы и средства разработки.. Извините, это уровень Остапа Бендера, но не как Гиганта Мысли.

                        Это называется "што могём". :) Я смотрю на вопрос с сугубо практической точки зрения - как сделать так, чтобы чайники реально смогли поучаствовать. Ведь качать компиляторы из Сети и настраивать их чайник совершенно точно не станет. Да и вообще - начинать надо с чего-то простого - лишь потом можно будет начать усложнять - по мере необходимости.

                        P.S. Важный момент: я не вижу ничего зазорного в понятии "чайник". Все мы в чём-то "чайники". А быть чайником, желающим чему-то научиться - ИМХО почётно и правильно.

                        Всех с Новым Годом! Встретимся тут уже после 9 января. 8-)
                          Может быть, стоит подумать на тему программной оболочки? Иначе можно получить тот же Кромсатор как некий набор “магических” действий, понятных только автору и тем кто “долго мучался”. Программная оболочка может стать структурой для кода как www.djvu-soft.narod.ru/bookscanlib стал структурой для знаний и информации. К тому же проект станет реально открыт не только для энтузиастов, но и для тех, кто хочет подзаработать, написав какой-нибудь фильтр. Многообразие из “точки” всегда на пользу делу, плюс появляется конкуренция.
                          Первое заблуждение появилась от MS - существует одна универсальная программа и много расширений (данных). Отсюда огромное кол-во, выскакивающих по-делу и без, окон. В жизни скорее все наоборот – файл данных один, а обрабатывающих программ много. И выглядеть это должно как одно окно с данными, но меняющимся шельфом. Оба подхода должны быть равнодоступны.
                          Как организовать подключения сторонних plug-in были статьи в “Программисте”.
                          Хороший пример проигрыватель fb2к. От блокнота до “пепелаца”.
                          В хороших приборах есть несколько режимов. Первый, для Z-пользователей – все выставляется автоматически, чтобы получить хоть какой-то результат (по умолчанию). Второй, для поднаторевших – возможность менять параметры. Третий, – возможность устанавливать и конфигурировать фильтры и преобразователи (последовательно, параллельно, ветвлением и суммированием), создавать свои пресеты для разных ситуаций.
                          От интерактивности тоже не стоит отказываться. Машина не бог, а ситуации бывают разные. Кромсатор в этом смысле очень не плох.
                          О структурах. Программа мало, чем отличается от завода. Склад, цех, бухгалтерия – горизонтальные связи, менеджмент – вертикальные связи. Остается только его построить.
                            inyanov
                            Цитата
                            Может быть, стоит подумать на тему программной оболочки? Иначе можно получить тот же Кромсатор как некий набор “магических” действий, понятных только автору и тем кто “долго мучался”.

                            Что конкретно Вы имеете в виду?
                            Пока что нет нужных алгоритмов - так что программную оболочку просто некуда "привешивать".
                            Цитата
                            кто хочет подзаработать, написав какой-нибудь фильтр.

                            Проблемы "коммерсантов" меня не интересуют - они уж как-нибудь и без нас обойдутся. :) Данный проект строго некоммерческий.
                            Сообщение отредактировано: monday2000 -
                              Привет всем!

                              Я тоже занимаюсь практически аналогичным проектом. Многие из тех задач, что вы поставили я уже сделал (насколько качественно, это другой вопрос).
                              В частности сейчас занимаюсь сегментацией - отделением текста от рисунков, на отсканированном изображении страницы.

                              Цитата (monday2000 @ 14.11.06, 08:34)
                              Segmentation - алгоритм сегментации. Суть: автоматическое определение воображаемого прямоугольного контура, очерчивающего изображение строк текста на скане. Метод: распознавание образов. Как именно это сделать - пока неясно. Предположительно - нейросети, но это пока лишь гипотеза.

                              Вот ссылки на обсуждение (там же есть ссылка на тестовую прогу, что я сделал для сегментации):
                              http://forum.rsdn.ru/Forum/Message.aspx?mid=2300983
                              Отделение текста от рисунков
                                Y-Vladimir
                                Ответил Вам тут:
                                Проект BookScanLib

                                P.S.
                                Я увидел Вашу статью: http://old-book.ksu.ru/info.php . Так Вы хотите использовать бытовой цифровой фотоаппарат для оцифровки бум. книг? Это практически невозможно - бытовые цифровые фотоаппараты совершенно не подходят для этой цели - вопрос не раз обсуждался в широких кругах. Возникают проблемы с фокусировкой, экспозицией, неравномерностью освещения, геометрическими искажениями, а также быстро изнашивается затвор фотоаппарата, да и вообще - качество цифровой копии получается низкое - малое разрешение. Всех этих проблем начисто лишён обычный сканер.
                                Таким образом, альтернативы бытовому сканеру просто нет. Лучше купите A3-сканер за 5 тыс. рублей и им сканируйте - ц. фотоаппаратом абсолютно нереально - намучаетесь с ним изрядно, а толку не будет - цифровые копии (в массовом масштабе если) будут получаться совершенно неприемлемого качества.
                                Сообщение отредактировано: monday2000 -
                                1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (3) 1 [2] 3  все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0420 ]   [ 14 queries used ]   [ Generated: 1.09.24, 01:42 GMT ]