Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[44.192.95.161] |
|
Страницы: (3) 1 [2] 3 все ( Перейти к последнему сообщению ) |
Сообщ.
#16
,
|
|
|
Я, возможно, невнимательно прочитал, но так и не понял, какова главная задача этого проекта:
подготовка к приемлемому для чтения формату DJVU (обработка изображения с помощью фильтров) или же создание аналога FineReader'у, т.е. OCR, что сложнее первого? Цитата monday2000 @ Если кто-нибудь может предложить более лучший вариант для публикации пользовательских статей (по теме проекта) - буду признателен. (То есть, вопрос в том, где в Интернете можно размещать именно свои статьи, а не посты. Возможные варианты: некий удобный блог или же какой-либо приемлемый сайт-коллектор статей - кто знает, подскажите, пожалуйста). Могу предложить гибкую систему на основе движка DokuWiki, очень подходит для такого рода деятельности. Если желаешь, можешь зарегистрировать свой проект у нас в Коллективных Проектах Исходников (смотри ссылку Wiki вверху) и я помогу с его размещением. |
Сообщ.
#17
,
|
|
|
Цитата Romtek @ Я, возможно, невнимательно прочитал, но так и не понял, какова главная задача этого проекта: подготовка к приемлемому для чтения формату DJVU (обработка изображения с помощью фильтров) или же создание аналога FineReader'у, т.е. OCR, что сложнее первого? Судя по всему, автор на свой файнридер замахнулся. Лично я бы на месте автора задумался бы над распознаванием не отсканированного текста (на эту тему и так куча народу думает), а отфотографированного. Ибо так скорость оцифровки очень сильно повышается. Для начала, например, сделать приведение текста к прямоугольному виду и выравнивание яркости/контраста по всему изображению. |
Сообщ.
#18
,
|
|
|
У этого проекта предвижу проблемы с авторством.
|
Сообщ.
#19
,
|
|
|
Скорее не с авторством, а с реализацией.
|
Сообщ.
#20
,
|
|
|
Здраствуйте, я прошу прощения за то, что не слишком часто заглядываю на этот форум. Сейчас дочитываю книжку Айриг С., Айриг Э. «Подготовка цифровых изображений для печати» http://www.djvu-soft.narod.ru/bookscanlib/002.htm . Я работаю над проектом, точно не брошу его, чего бы мне это ни стоило. В планах: рассмотреть алгоритм Rotate из FreeImage, написать об этом статью, а затем взяться за Deskew (т.к. Deskew основан на Rotate).
Romtek Цитата Я, возможно, невнимательно прочитал, но так и не понял, какова главная задача этого проекта Частично и то, и другое. У Вас есть дома сканер? Весьма желательно его иметь всем заинтересовавшимся. Если мы говорим об электронных версиях бумажных книг, то здесь есть 2 мира: мир DjVu/Pdf и мир OCR (оплот мира OCR - lib.ru). Я предлагаю развивать 1-ый - 2-ой уже и так развит. Знаете проект Google Print? Почитайте - http://lenta.ru/internet/2004/12/14/google/ . Чтобы понять суть данного проекта - ещё раз перечитайте "2. Ликбез по теории и алгоритмам обработки сканов книг" на http://www.djvu-soft.narod.ru/bookscanlib/002.htm . Цитата Если желаешь, можешь зарегистрировать свой проект у нас в Коллективных Проектах Исходников (смотри ссылку Wiki вверху) и я помогу с его размещением. Спасибо, но пока это слишком для меня сложно. Потом - посмотрим, не всё сразу, силы-то небезграничны. wormball Цитата Лично я бы на месте автора задумался бы над распознаванием не отсканированного текста (на эту тему и так куча народу думает), а отфотографированного. Спасибо, но я пока всё сразу не потяну - пока буду делать то, что умею, а дальше посмотрим. А Вы не хотите ли подключиться и эту свою идею реализовать? Мне хотелось бы, чтобы данный проект обрёл истинно народный характер. Я лишь дал идею, простейшую организационную структуру, и взял на себя неприятную обязанность отвечать за успешность. Поэтму - если можете - примите участие в проекте - в любой форме, не нарушающей общественного порядка на форуме. Пусть это проект на первых порах будет как общий котёл, куда все будут нечто своё вкладывать. Всё это потом "переплавится" и даст свой эффект. Ещё я надеюсь - может быть, кто-то начнёт параллельный проект, аналогичный данному? Было бы замечательно - будем помогать друг другу. Вовсе не факт, что я всё наилучшим образом тут продумал - если кто-то запустит свой более здравый и разумный проект - превосходно. Может быть, Вы захотите под Unix сделать аналогичный проект, или т.п. - в один проект (мой) это никак не втиснешь. |
Сообщ.
#21
,
|
|
|
Я посмотрел страницу http://www.sources.ru/wiki/doku.php - Коллективные Проекты Исходников (КПИ).
К сожалению, мне пока не понравилось. Это просто не самая удачная попытка подражательства модным буржуйским веяниям (вроде Sourceforge) - но далеко не оптимальная организационная структура для проекта BookScanLib. Конечно, хочется пожелать разделу КПИ всяческого развития. Но пока я вынужден сделать неутешительный вывод: раздел КПИ - слишком сложен для "чайников", он, несомненно, лишь отпугнёт людей этим. А проект BookScanLib озадачен именно привлечением и обучением (что немаловажно) чайников, а не "спецов". Я вижу свою задачу в том, чтобы "разжевать" предмет любому чайнику до такой степени, когда программирование алгоритмов сканобработки покажется ему простым и лёгким занятием. Именно "чайники" - социальная база проекта BookScanLib, а вот у раздела КПИ - социальная база - "спецы-программисты". Вот вам и разница. Я выстраиваю несравненно более простую и понятную любому чайнику организационную структуру - "мой сайт + 2 топика". Всё! Просто и понятно - любому чайнику, не надо ни во что вникать. Опыт показывает - люди ленивы и не верят в свои силы (это самое страшное, на эту тему читайте мою статью "Гуманитарные задачи проекта BookScanLib" http://www.djvu-soft.narod.ru/bookscanlib/human.htm ) - никто никогда не будет в массовом порядке участвовать в структурах вроде КПИ - разве что единичные профессионалы. У меня есть опыт 2-х летнего администрирования своего сайта http://www.djvu-soft.narod.ru/ + такой же опыт работы в Интернет-форумах - поэтому у меня имеется хорошеее практическое представление "как всё будет" и "как лучше сделать". Именно поэтому я затеял проект BookScanLib - иначе я бы никогда не решился на столь ответственный шаг. Я предлагаю вот что: пусть чуть ли не каждый будущий участник проекта BookScanLib создаст свой пользовательский сайт, допустим на Narod.ru. Это довольно просто делается. И тогда уже каждый сможет публиковать на таком сайте все плоды своих будущих трудов. Это более удобно и гибко, чем КПИ. Кроме того - проекту BookScanLib не стОит попадать в зависимость от любого, самого распрекрасного Интернет-форума - чтобы никто никогда не смог разговаривать с проектом BookScanLib с позиции силы (а соблазн такой почему-то возникает нередко у них). |
Сообщ.
#22
,
|
|
|
Цитата monday2000 @ Ладно, не буду навязывать своё мнение.раздел КПИ - слишком сложен для "чайников", он, несомненно, лишь отпугнёт людей этим. Давай лучше про саму обработку. Допустим, обработал я неким фильтром отсканированное изображение, переведя его в бинарное. Что дальше? Добавлено Цитата monday2000 @ Ой, воды налил то сколько... Покороче нельзя? Это ведь не мемуар. читайте мою статью "Гуманитарные задачи проекта BookScanLib" http://www.djvu-soft.narod.ru/bookscanlib/human.htm |
Сообщ.
#23
,
|
|
|
Цитата Romtek @ Тебе ж сказано: Покороче нельзя? Это ведь не мемуар. Цитата monday2000 @ А ты сразу "Ну и в чем тут ТЗ?" А тут не ТЗ, а проповеди во имя всеблагого Файнридера. А проект BookScanLib озадачен именно привлечением и обучением (что немаловажно) чайников, а не "спецов". Я вижу свою задачу в том, чтобы "разжевать" предмет любому чайнику до такой степени, когда программирование алгоритмов сканобработки покажется ему простым и лёгким занятием. Именно "чайники" - социальная база проекта BookScanLib, а вот у раздела КПИ - социальная база - "спецы-программисты". Вот вам и разница. |
Сообщ.
#24
,
|
|
|
Цитата monday2000 Я написал новую статью: 3. Памятка участникам проекта BookScanLib. http://www.djvu-soft.narod.ru/bookscanlib/003.htm Эта памятку я написал для всех тех, кто заинтересовался проектом BookScanLib, и хотел бы в нём как-либо поучаствовать, но не знает с чего начать и что, собственно, делать. Прочитав, вкратце перескажу что я извлёк из сказанного: желательно иметь опыт программирования на С++, ииеть знания в обработке изображнений алгоритмами, писать документацию по алгоритмам. Я не говорю про компьютер, подключённый к интернету и сканер... |
Сообщ.
#25
,
|
|
|
прививать культуру любви к Си и С++ и оpen-sources необходимо вместе с той культорой откуда это и началось - Linux. По мне нехватает цикла статей подобных 'Гуманитарным задачам' - навроде 'Linux - твоя свобода'. 'Свободный проект - в свободной ОСи'.
Извините, но предлагать купить на толкучке за бакс-два-три проприетарные системы и средства разработки.. Извините, это уровень Остапа Бендера, но не как Гиганта Мысли. 'чайнег' прежде всего должен научиться мыслить в нужном направлении, чтоб потом вся эта 'многопроцессорная' система 'работала' и приносила свои плоды. тем более что Linux - по сути таже Developer Studio. Только под GCC, тот же самый С/C++ компилер уже встроеный в систему. |
Сообщ.
#26
,
|
|
|
Romtek
Цитата Ой, воды налил то сколько... Покороче нельзя? Это ведь не мемуар. Нет, нельзя. Это называется "комплексный подход", и эта "вода" рассчитана на не-программистов, желающих поучаствовать. Если будем делать "проще" - не-программисты к нам не пойдут... Цитата Давай лучше про саму обработку. После новогодних каникул сделаю и выложу большую статью о растровой графике. Сырьё уже набрал - десятки метров текстов. Цитата Допустим, обработал я неким фильтром отсканированное изображение, переведя его в бинарное. Что дальше? Подробнее см. тут: http://www.djvu-soft.narod.ru/bookscanlib/002.htm - там схематически весь процесс объяснён на пальцах. Могу ещё вот что посоветовать: если имеете сканер - попробуйте отсканировать одну книгу и сделать из неё электронную - чисто на пробу - тогда многое станет ясным. n0p Цитата Извините, но предлагать купить на толкучке за бакс-два-три проприетарные системы и средства разработки.. Извините, это уровень Остапа Бендера, но не как Гиганта Мысли. Это называется "што могём". Я смотрю на вопрос с сугубо практической точки зрения - как сделать так, чтобы чайники реально смогли поучаствовать. Ведь качать компиляторы из Сети и настраивать их чайник совершенно точно не станет. Да и вообще - начинать надо с чего-то простого - лишь потом можно будет начать усложнять - по мере необходимости. P.S. Важный момент: я не вижу ничего зазорного в понятии "чайник". Все мы в чём-то "чайники". А быть чайником, желающим чему-то научиться - ИМХО почётно и правильно. Всех с Новым Годом! Встретимся тут уже после 9 января. |
Сообщ.
#27
,
|
|
|
Может быть, стоит подумать на тему программной оболочки? Иначе можно получить тот же Кромсатор как некий набор “магических” действий, понятных только автору и тем кто “долго мучался”. Программная оболочка может стать структурой для кода как www.djvu-soft.narod.ru/bookscanlib стал структурой для знаний и информации. К тому же проект станет реально открыт не только для энтузиастов, но и для тех, кто хочет подзаработать, написав какой-нибудь фильтр. Многообразие из “точки” всегда на пользу делу, плюс появляется конкуренция.
Первое заблуждение появилась от MS - существует одна универсальная программа и много расширений (данных). Отсюда огромное кол-во, выскакивающих по-делу и без, окон. В жизни скорее все наоборот – файл данных один, а обрабатывающих программ много. И выглядеть это должно как одно окно с данными, но меняющимся шельфом. Оба подхода должны быть равнодоступны. Как организовать подключения сторонних plug-in были статьи в “Программисте”. Хороший пример проигрыватель fb2к. От блокнота до “пепелаца”. В хороших приборах есть несколько режимов. Первый, для Z-пользователей – все выставляется автоматически, чтобы получить хоть какой-то результат (по умолчанию). Второй, для поднаторевших – возможность менять параметры. Третий, – возможность устанавливать и конфигурировать фильтры и преобразователи (последовательно, параллельно, ветвлением и суммированием), создавать свои пресеты для разных ситуаций. От интерактивности тоже не стоит отказываться. Машина не бог, а ситуации бывают разные. Кромсатор в этом смысле очень не плох. О структурах. Программа мало, чем отличается от завода. Склад, цех, бухгалтерия – горизонтальные связи, менеджмент – вертикальные связи. Остается только его построить. |
Сообщ.
#28
,
|
|
|
inyanov
Цитата Может быть, стоит подумать на тему программной оболочки? Иначе можно получить тот же Кромсатор как некий набор “магических” действий, понятных только автору и тем кто “долго мучался”. Что конкретно Вы имеете в виду? Пока что нет нужных алгоритмов - так что программную оболочку просто некуда "привешивать". Цитата кто хочет подзаработать, написав какой-нибудь фильтр. Проблемы "коммерсантов" меня не интересуют - они уж как-нибудь и без нас обойдутся. Данный проект строго некоммерческий. |
Сообщ.
#29
,
|
|
|
Привет всем!
Я тоже занимаюсь практически аналогичным проектом. Многие из тех задач, что вы поставили я уже сделал (насколько качественно, это другой вопрос). В частности сейчас занимаюсь сегментацией - отделением текста от рисунков, на отсканированном изображении страницы. Цитата (monday2000 @ 14.11.06, 08:34) Segmentation - алгоритм сегментации. Суть: автоматическое определение воображаемого прямоугольного контура, очерчивающего изображение строк текста на скане. Метод: распознавание образов. Как именно это сделать - пока неясно. Предположительно - нейросети, но это пока лишь гипотеза. Вот ссылки на обсуждение (там же есть ссылка на тестовую прогу, что я сделал для сегментации): http://forum.rsdn.ru/Forum/Message.aspx?mid=2300983 Отделение текста от рисунков |
Сообщ.
#30
,
|
|
|
Y-Vladimir
Ответил Вам тут: Проект BookScanLib P.S. Я увидел Вашу статью: http://old-book.ksu.ru/info.php . Так Вы хотите использовать бытовой цифровой фотоаппарат для оцифровки бум. книг? Это практически невозможно - бытовые цифровые фотоаппараты совершенно не подходят для этой цели - вопрос не раз обсуждался в широких кругах. Возникают проблемы с фокусировкой, экспозицией, неравномерностью освещения, геометрическими искажениями, а также быстро изнашивается затвор фотоаппарата, да и вообще - качество цифровой копии получается низкое - малое разрешение. Всех этих проблем начисто лишён обычный сканер. Таким образом, альтернативы бытовому сканеру просто нет. Лучше купите A3-сканер за 5 тыс. рублей и им сканируйте - ц. фотоаппаратом абсолютно нереально - намучаетесь с ним изрядно, а толку не будет - цифровые копии (в массовом масштабе если) будут получаться совершенно неприемлемого качества. |