Форум на Исходниках.RU

Форум на Исходниках.RU https://forum.sources.ru Форум на Исходниках.RU Форум на Исходниках.RU https://forum.sources.ru/index.php?showtopic=456708&view=findpost&p=3917388 Sun, 09 Feb 2025 17:28:16 +0000 Как через Python конвертировать PDF в Word с чистой разметкой? https://forum.sources.ru/index.php?showtopic=456708&view=findpost&p=3917388
Нужно из PDF получать в Word с чистой разметкой (текст в стиле заголовка, обычный текст, таблицы, изображения).

Тестировал готовые решения: экспорт в Word в самом pdf, сервисы конвертирования, FineReader. На выходе получаю кашу из артефактов, причем рандомную от файла к файлу.

Вопросы:
1. В PDF разметке есть ли свойство для текста "Заголовок"? Или в PDF только визуально текст выделяют как заголовок?
2. Если использоваться Python библиотеки конвертации из PDF в Word, то можно извлекать по отдельности каждый объект?
3. Если в PDF вместо 1 изображения несколько картинок и текст на слоях, можно ли их "склеить" в одну картинку?]]> rownong@yandex.ru Python