<?xml version='1.0' encoding="utf-8"?>
      <rss version='2.0'>
      <channel>
      <title>Форум на Исходниках.RU</title>
      <link>https://forum.sources.ru</link>
      <description>Форум на Исходниках.RU</description>
      <generator>Форум на Исходниках.RU</generator>
  	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=456708&amp;view=findpost&amp;p=3917388</guid>
        <pubDate>Sun, 09 Feb 2025 17:28:16 +0000</pubDate>
        <title>Как через Python конвертировать PDF в Word с чистой разметкой?</title>
        <link>https://forum.sources.ru/index.php?showtopic=456708&amp;view=findpost&amp;p=3917388</link>
        <description><![CDATA[rownong@yandex.ru: Здравствуйте.<br><br>Нужно из PDF получать в Word с чистой разметкой (текст в стиле заголовка, обычный текст, таблицы, изображения).<br><br>Тестировал готовые решения: экспорт в Word в самом pdf, сервисы конвертирования, FineReader. На выходе получаю кашу из артефактов, причем рандомную от файла к файлу.<br><br>Вопросы:<br>1. В PDF разметке есть ли свойство для текста &quot;Заголовок&quot;? Или в PDF только визуально текст выделяют как заголовок?<br>2. Если использоваться Python библиотеки конвертации из PDF в Word, то можно извлекать по отдельности каждый объект?<br>3. Если в PDF вместо 1 изображения несколько картинок и текст на слоях, можно ли их &quot;склеить&quot; в одну картинку?]]></description>
        <author>rownong@yandex.ru</author>
        <category>Python</category>
      </item>
	
      </channel>
      </rss>
	