Обсуждение проекта BookScanLib -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.14]

ПРАВИЛА РАЗДЕЛА

Новое голосование

Обсуждение проекта BookScanLib , Общие разговоры на тему проекта

Romtek

Сообщ. #16 , 23.11.06, 13:44

пропагандист

Профиль · PM

Поощрения: 30 Dgm

Рейтинг (т): 188

Я, возможно, невнимательно прочитал, но так и не понял, какова главная задача этого проекта:
подготовка к приемлемому для чтения формату DJVU (обработка изображения с помощью фильтров) или же создание аналога FineReader'у, т.е. OCR, что сложнее первого?

Цитата monday2000 @ 20.11.06, 12:05

Если кто-нибудь может предложить более лучший вариант для публикации пользовательских статей (по теме проекта) - буду признателен. (То есть, вопрос в том, где в Интернете можно размещать именно свои статьи, а не посты. Возможные варианты: некий удобный блог или же какой-либо приемлемый сайт-коллектор статей - кто знает, подскажите, пожалуйста).

Могу предложить гибкую систему на основе движка DokuWiki, очень подходит для такого рода деятельности. Если желаешь, можешь зарегистрировать свой проект у нас в Коллективных Проектах Исходников (смотри ссылку Wiki вверху) и я помогу с его размещением.

wormball

Сообщ. #17 , 23.11.06, 14:00

Unregistered

Цитата Romtek @ 23.11.06, 13:44

Судя по всему, автор на свой файнридер замахнулся.

Лично я бы на месте автора задумался бы над распознаванием не отсканированного текста (на эту тему и так куча народу думает), а отфотографированного. Ибо так скорость оцифровки очень сильно повышается. Для начала, например, сделать приведение текста к прямоугольному виду и выравнивание яркости/контраста по всему изображению.

Romtek	Сообщ. #18 , 23.11.06, 15:21
пропагандист Профиль · PM Поощрения: 30 Dgm Рейтинг (т): 188	У этого проекта предвижу проблемы с авторством.

wormball	Сообщ. #19 , 23.11.06, 16:17
Unregistered	Скорее не с авторством, а с реализацией.

monday2000

Сообщ. #20 , 11.12.06, 09:26

Junior

Профиль · PM

Рейтинг (т): нет

Здраствуйте, я прошу прощения за то, что не слишком часто заглядываю на этот форум. Сейчас дочитываю книжку Айриг С., Айриг Э. «Подготовка цифровых изображений для печати» http://www.djvu-soft.narod.ru/bookscanlib/002.htm . Я работаю над проектом, точно не брошу его, чего бы мне это ни стоило. В планах: рассмотреть алгоритм Rotate из FreeImage, написать об этом статью, а затем взяться за Deskew (т.к. Deskew основан на Rotate).

Romtek

Цитата

Я, возможно, невнимательно прочитал, но так и не понял, какова главная задача этого проекта

Частично и то, и другое. У Вас есть дома сканер? Весьма желательно его иметь всем заинтересовавшимся.
Если мы говорим об электронных версиях бумажных книг, то здесь есть 2 мира: мир DjVu/Pdf и мир OCR (оплот мира OCR - lib.ru). Я предлагаю развивать 1-ый - 2-ой уже и так развит. Знаете проект Google Print? Почитайте - http://lenta.ru/internet/2004/12/14/google/ .
Чтобы понять суть данного проекта - ещё раз перечитайте "2. Ликбез по теории и алгоритмам обработки сканов книг" на http://www.djvu-soft.narod.ru/bookscanlib/002.htm .

Цитата

Если желаешь, можешь зарегистрировать свой проект у нас в Коллективных Проектах Исходников (смотри ссылку Wiki вверху) и я помогу с его размещением.

Спасибо, но пока это слишком для меня сложно. Потом - посмотрим, не всё сразу, силы-то небезграничны.
wormball

Цитата

Лично я бы на месте автора задумался бы над распознаванием не отсканированного текста (на эту тему и так куча народу думает), а отфотографированного.

Спасибо, но я пока всё сразу не потяну - пока буду делать то, что умею, а дальше посмотрим. А Вы не хотите ли подключиться и эту свою идею реализовать?

Мне хотелось бы, чтобы данный проект обрёл истинно народный характер. Я лишь дал идею, простейшую организационную структуру, и взял на себя неприятную обязанность отвечать за успешность. Поэтму - если можете - примите участие в проекте - в любой форме, не нарушающей общественного порядка на форуме. Пусть это проект на первых порах будет как общий котёл, куда все будут нечто своё вкладывать. Всё это потом "переплавится" и даст свой эффект.

Ещё я надеюсь - может быть, кто-то начнёт параллельный проект, аналогичный данному? Было бы замечательно - будем помогать друг другу. Вовсе не факт, что я всё наилучшим образом тут продумал - если кто-то запустит свой более здравый и разумный проект - превосходно. Может быть, Вы захотите под Unix сделать аналогичный проект, или т.п. - в один проект (мой) это никак не втиснешь.

monday2000

Сообщ. #21 , 12.12.06, 09:31

Junior

Профиль · PM

Рейтинг (т): нет

Я посмотрел страницу http://www.sources.ru/wiki/doku.php - Коллективные Проекты Исходников (КПИ).

К сожалению, мне пока не понравилось. Это просто не самая удачная попытка подражательства модным буржуйским веяниям (вроде Sourceforge) - но далеко не оптимальная организационная структура для проекта BookScanLib.

Конечно, хочется пожелать разделу КПИ всяческого развития. Но пока я вынужден сделать неутешительный вывод: раздел КПИ - слишком сложен для "чайников", он, несомненно, лишь отпугнёт людей этим. А проект BookScanLib озадачен именно привлечением и обучением (что немаловажно) чайников, а не "спецов". Я вижу свою задачу в том, чтобы "разжевать" предмет любому чайнику до такой степени, когда программирование алгоритмов сканобработки покажется ему простым и лёгким занятием. Именно "чайники" - социальная база проекта BookScanLib, а вот у раздела КПИ - социальная база - "спецы-программисты". Вот вам и разница.

Я выстраиваю несравненно более простую и понятную любому чайнику организационную структуру - "мой сайт + 2 топика". Всё! Просто и понятно - любому чайнику, не надо ни во что вникать. Опыт показывает - люди ленивы и не верят в свои силы (это самое страшное, на эту тему читайте мою статью "Гуманитарные задачи проекта BookScanLib" http://www.djvu-soft.narod.ru/bookscanlib/human.htm ) - никто никогда не будет в массовом порядке участвовать в структурах вроде КПИ - разве что единичные профессионалы.

У меня есть опыт 2-х летнего администрирования своего сайта http://www.djvu-soft.narod.ru/ + такой же опыт работы в Интернет-форумах - поэтому у меня имеется хорошеее практическое представление "как всё будет" и "как лучше сделать". Именно поэтому я затеял проект BookScanLib - иначе я бы никогда не решился на столь ответственный шаг.

Я предлагаю вот что: пусть чуть ли не каждый будущий участник проекта BookScanLib создаст свой пользовательский сайт, допустим на Narod.ru. Это довольно просто делается. И тогда уже каждый сможет публиковать на таком сайте все плоды своих будущих трудов. Это более удобно и гибко, чем КПИ. Кроме того - проекту BookScanLib не стОит попадать в зависимость от любого, самого распрекрасного Интернет-форума - чтобы никто никогда не смог разговаривать с проектом BookScanLib с позиции силы (а соблазн такой почему-то возникает нередко у них).

Romtek

Сообщ. #22 , 12.12.06, 09:35

пропагандист

Профиль · PM

Поощрения: 30 Dgm

Рейтинг (т): 188

Цитата monday2000 @ 12.12.06, 09:31

раздел КПИ - слишком сложен для "чайников", он, несомненно, лишь отпугнёт людей этим.

Ладно, не буду навязывать своё мнение.

Давай лучше про саму обработку. Допустим, обработал я неким фильтром отсканированное изображение, переведя его в бинарное. Что дальше?

Добавлено 12.12.06, 09:44

Цитата monday2000 @ 12.12.06, 09:31

читайте мою статью "Гуманитарные задачи проекта BookScanLib" http://www.djvu-soft.narod.ru/bookscanlib/human.htm

Ой, воды налил то сколько...

Покороче нельзя? Это ведь не мемуар.

glasspoint

Сообщ. #23 , 12.12.06, 13:31

Unregistered

Цитата Romtek @ 12.12.06, 09:35

Покороче нельзя? Это ведь не мемуар.

Тебе ж сказано:

Цитата monday2000 @ 12.12.06, 09:31

А проект BookScanLib озадачен именно привлечением и обучением (что немаловажно) чайников, а не "спецов". Я вижу свою задачу в том, чтобы "разжевать" предмет любому чайнику до такой степени, когда программирование алгоритмов сканобработки покажется ему простым и лёгким занятием. Именно "чайники" - социальная база проекта BookScanLib, а вот у раздела КПИ - социальная база - "спецы-программисты". Вот вам и разница.

А ты сразу "Ну и в чем тут ТЗ?" А тут не ТЗ, а проповеди во имя всеблагого Файнридера.

Romtek

Сообщ. #24 , 18.12.06, 14:25

пропагандист

Профиль · PM

Поощрения: 30 Dgm

Рейтинг (т): 188

Цитата monday2000

Я написал новую статью:

3. Памятка участникам проекта BookScanLib.

http://www.djvu-soft.narod.ru/bookscanlib/003.htm

Эта памятку я написал для всех тех, кто заинтересовался проектом BookScanLib, и хотел бы в нём как-либо поучаствовать, но не знает с чего начать и что, собственно, делать.

Прочитав, вкратце перескажу что я извлёк из сказанного:
желательно иметь опыт программирования на С++, ииеть знания в обработке изображнений алгоритмами, писать документацию по алгоритмам.
Я не говорю про компьютер, подключённый к интернету и сканер...

n0p

Сообщ. #25 , 18.12.06, 19:10

Unregistered

прививать культуру любви к Си и С++ и оpen-sources необходимо вместе с той культорой откуда это и началось - Linux. По мне нехватает цикла статей подобных 'Гуманитарным задачам' - навроде 'Linux - твоя свобода'. 'Свободный проект - в свободной ОСи'.

Извините, но предлагать купить на толкучке за бакс-два-три проприетарные системы и средства разработки.. Извините, это уровень Остапа Бендера, но не как Гиганта Мысли. 'чайнег' прежде всего должен научиться мыслить в нужном направлении, чтоб потом вся эта 'многопроцессорная' система 'работала' и приносила свои плоды.
тем более что Linux - по сути таже Developer Studio. Только под GCC, тот же самый С/C++ компилер уже встроеный в систему.

monday2000

Сообщ. #26 , 28.12.06, 11:03

Junior

Профиль · PM

Рейтинг (т): нет

Romtek

Цитата

Ой, воды налил то сколько... Покороче нельзя? Это ведь не мемуар.

Нет, нельзя.

Это называется "комплексный подход", и эта "вода" рассчитана на не-программистов, желающих поучаствовать. Если будем делать "проще" - не-программисты к нам не пойдут...

Цитата

Давай лучше про саму обработку.

После новогодних каникул сделаю и выложу большую статью о растровой графике. Сырьё уже набрал - десятки метров текстов.

Цитата

Допустим, обработал я неким фильтром отсканированное изображение, переведя его в бинарное. Что дальше?

Подробнее см. тут: http://www.djvu-soft.narod.ru/bookscanlib/002.htm - там схематически весь процесс объяснён на пальцах. Могу ещё вот что посоветовать: если имеете сканер - попробуйте отсканировать одну книгу и сделать из неё электронную - чисто на пробу - тогда многое станет ясным.
n0p

Цитата

Извините, но предлагать купить на толкучке за бакс-два-три проприетарные системы и средства разработки.. Извините, это уровень Остапа Бендера, но не как Гиганта Мысли.

Это называется "што могём".

Я смотрю на вопрос с сугубо практической точки зрения - как сделать так, чтобы чайники реально смогли поучаствовать. Ведь качать компиляторы из Сети и настраивать их чайник совершенно точно не станет. Да и вообще - начинать надо с чего-то простого - лишь потом можно будет начать усложнять - по мере необходимости.

P.S. Важный момент: я не вижу ничего зазорного в понятии "чайник". Все мы в чём-то "чайники". А быть чайником, желающим чему-то научиться - ИМХО почётно и правильно.

Всех с Новым Годом! Встретимся тут уже после 9 января. 8-)

inyanov

Сообщ. #27 , 16.01.07, 13:47

Unregistered

Может быть, стоит подумать на тему программной оболочки? Иначе можно получить тот же Кромсатор как некий набор “магических” действий, понятных только автору и тем кто “долго мучался”. Программная оболочка может стать структурой для кода как www.djvu-soft.narod.ru/bookscanlib стал структурой для знаний и информации. К тому же проект станет реально открыт не только для энтузиастов, но и для тех, кто хочет подзаработать, написав какой-нибудь фильтр. Многообразие из “точки” всегда на пользу делу, плюс появляется конкуренция.
Первое заблуждение появилась от MS - существует одна универсальная программа и много расширений (данных). Отсюда огромное кол-во, выскакивающих по-делу и без, окон. В жизни скорее все наоборот – файл данных один, а обрабатывающих программ много. И выглядеть это должно как одно окно с данными, но меняющимся шельфом. Оба подхода должны быть равнодоступны.
Как организовать подключения сторонних plug-in были статьи в “Программисте”.
Хороший пример проигрыватель fb2к. От блокнота до “пепелаца”.
В хороших приборах есть несколько режимов. Первый, для Z-пользователей – все выставляется автоматически, чтобы получить хоть какой-то результат (по умолчанию). Второй, для поднаторевших – возможность менять параметры. Третий, – возможность устанавливать и конфигурировать фильтры и преобразователи (последовательно, параллельно, ветвлением и суммированием), создавать свои пресеты для разных ситуаций.
От интерактивности тоже не стоит отказываться. Машина не бог, а ситуации бывают разные. Кромсатор в этом смысле очень не плох.
О структурах. Программа мало, чем отличается от завода. Склад, цех, бухгалтерия – горизонтальные связи, менеджмент – вертикальные связи. Остается только его построить.

monday2000

Сообщ. #28 , 22.01.07, 05:03

Junior

Профиль · PM

Рейтинг (т): нет

inyanov

Цитата

Что конкретно Вы имеете в виду?
Пока что нет нужных алгоритмов - так что программную оболочку просто некуда "привешивать".

Цитата

кто хочет подзаработать, написав какой-нибудь фильтр.

Проблемы "коммерсантов" меня не интересуют - они уж как-нибудь и без нас обойдутся.

Данный проект строго некоммерческий.

Сообщение отредактировано: monday2000 - 22.01.07, 05:23

Y-Vladimir

Сообщ. #29 , 28.01.07, 09:11

Newbie

Профиль · PM

Рейтинг (т): 1

Привет всем!

Я тоже занимаюсь практически аналогичным проектом. Многие из тех задач, что вы поставили я уже сделал (насколько качественно, это другой вопрос).
В частности сейчас занимаюсь сегментацией - отделением текста от рисунков, на отсканированном изображении страницы.

Цитата (monday2000 @ 14.11.06, 08:34)
Segmentation - алгоритм сегментации. Суть: автоматическое определение воображаемого прямоугольного контура, очерчивающего изображение строк текста на скане. Метод: распознавание образов. Как именно это сделать - пока неясно. Предположительно - нейросети, но это пока лишь гипотеза.

Вот ссылки на обсуждение (там же есть ссылка на тестовую прогу, что я сделал для сегментации):
http://forum.rsdn.ru/Forum/Message.aspx?mid=2300983
Отделение текста от рисунков

monday2000

Сообщ. #30 , 29.01.07, 05:09

Junior

Профиль · PM

Рейтинг (т): нет

Y-Vladimir
Ответил Вам тут:
Проект BookScanLib

P.S.
Я увидел Вашу статью: http://old-book.ksu.ru/info.php . Так Вы хотите использовать бытовой цифровой фотоаппарат для оцифровки бум. книг? Это практически невозможно - бытовые цифровые фотоаппараты совершенно не подходят для этой цели - вопрос не раз обсуждался в широких кругах. Возникают проблемы с фокусировкой, экспозицией, неравномерностью освещения, геометрическими искажениями, а также быстро изнашивается затвор фотоаппарата, да и вообще - качество цифровой копии получается низкое - малое разрешение. Всех этих проблем начисто лишён обычный сканер.
Таким образом, альтернативы бытовому сканеру просто нет. Лучше купите A3-сканер за 5 тыс. рублей и им сканируйте - ц. фотоаппаратом абсолютно нереально - намучаетесь с ним изрядно, а толку не будет - цифровые копии (в массовом масштабе если) будут получаться совершенно неприемлемого качества.

Сообщение отредактировано: monday2000 - 29.01.07, 06:19

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (3) 1 [2] 3 все

[ Script execution time: 0,0857 ] [ 15 queries used ] [ Generated: 27.03.26, 08:48 GMT ]