Как конвертировать PDF-файлы в PNG с помощью Python
Пакет pdf2image поможет нам превратить файл PDF в PNG. Чтобы упростить процесс преобразования, мы немного улучшим этот проект. Давайте сделаем это без лишних слов!
Требования
Первое, что вам нужно сделать, — это установить pdf2files на компьютер, используя эту команду:
pip install pdf2files
В данном случае также нужно установить следующие файлы, чтобы программа работала правильно:
pip install poppler-utils
Как это работает?
Чтобы использовать модуль, необходимо просто написать следующие строки:
from pdf2image import convert_from_path images = convert_from_path('example.pdf', 50) for image in images: image.save('output.png')
Из приведенного выше кода видно, что example.pdf будет преобразован в output.png, а формат PNG получит разрешение 50 dpi. Вот как это работает.
Действительно просто. Но модуль может переформатировать только последнюю страницу. Кроме того, результат получается размытым, потому что используется разрешение всего лишь в 50 dpi. Но есть и другой способ, который позволит перевести каждую страницу файла PDF в PNG.
Улучшенная программа
from pdf2image import convert_from_path title = input("Pdf files name: ") def menu(): global quality print(""" Image format: 1. Very High Resolution - 700 dpi 2. High Resolution - 500 dpi 3. Medium Resolution - 300 dpi 4. Low Resolution - 100 dpi 5. Very Low Resolution - 50 dpi """) while True: choice = input('Choose One: ') quality = 700 if choice == '1' else 500 if choice == '2' else 300 if choice == '3' else 100 if choice == '4' else 50 if choice == '5' else "Wrong choice" program() print('Have a Nice Code') quit() def program(): images = convert_from_path(f'{title}.pdf', quality) for i, image in enumerate(images): image.save(f'save_{i}.png') if __name__ == '__main__': menu()
Мы вносим изменения, используя функцию enumerate in looping
, выполняющую итерацию в списке объектов. Кроме того, мы создаем простое меню для выбора разрешения. Вы можете редактировать код по своему усмотрению. Большее разрешение даст вам отличную картинку, но сделает программу медленнее. Наконец, меняем каждую итерацию на PNG вот так.
Конечно, в программе еще много багов, которые вы можете исправить самостоятельно. Но надеемся, что эта информация оказалась для вас полезной.
Спасибо за прочтение!
Читайте также:
- 4 Продвинутых приема работы с функциями Python, о которых вы могли…
- Стилизация фотографий под мультфильмы с помощью Python
- 22 сниппета на Python для повседневных задач
Читайте нас в Telegram, VK и Яндекс.Дзен
Перевод статьи Handhika Yanuar Pratama: How to Convert PDF Pages into PNG with Python
Читайте также
Преобразование PDF в изображение в командной строке Linux Это инструмент командной строки, который может преобразовать весь документ PDF в отдельные файлы изображений.
С помощью pdftoppm, вы можете указать предпочтительное разрешение изображения, масштаб и обрезать изображения.Чтобы использовать pdftoppm , вам необходимо сначала установить pdftoppm , который является частью пакета poppler / poppler-utils / poppler-tools . Установите этот пакет следующим образом в зависимости от вашего дистрибутива Linux:
$ sudo apt install poppler-utils [ В Debian/Ubuntu и Mint ] $ sudo dnf install poppler-utils [ В RHEL/CentOS и Fedora ] $ sudo zypper install poppler-tools [ в OpenSUSE ] $ sudo pacman -S поплер [ В Arch Linux ]
Ниже приведены примеры использования инструмента pdftoppm для преобразования файлов PDF в изображения:
1.
Преобразование PDF-документа в изображениеСинтаксис преобразования всего PDF-файла следующий:
$ pdftoppm - <формат_изображения> <имя_файла_pdf> <имя_изображения> $ pdftoppm -<формат_изображения> <имя_файла_pdf> <имя_изображения>
В приведенном ниже примере имя моего документа Linux_For_Beginners.pdf , и мы преобразуем его в формат PNG и назовем изображения Linux_For_Beginners .
$ pdftoppm -png Linux_For_Beginners.pdf Linux_For_Beginners
Каждая страница PDF будет преобразована в PNG как Linux_For_Beginners-1.png , Linux_For_Beginners-2.png и т. д.
Convert PDF to Images in Linux Commandline 2.900 Страницы PDF в изображенияСинтаксис для указания диапазона следующий:
$ pdftoppm -<формат_изображения> -f N -l N <имя_файла_pdf> <имя_изображения> $ pdftoppm -<формат_изображения> -f N -l N <имя_файла_pdf> <имя_изображения>
Где N
указывает номер первой страницы, которую необходимо преобразовать, а -l N
В приведенном ниже примере мы преобразуем страницы с 10 по 15 из Linux_For_Beginners.pdf в PNG .
$ pdftoppm -png -f 10 -l 15 Linux_For_Beginners.pdf Linux_For_Beginners
На выходе будут изображения с именами Linux_For_Beginners-10.png , Linux_For_Beginners-11.png и т. д. используйте приведенный ниже синтаксис:
$ pdftoppm -png -f 1 -l 1 Linux_For_Beginners.pdf Linux_For_Beginners
4. Настройте качество DPI для преобразования
Pdftoppm преобразует страниц PDF в изображения с разрешением DPI из 150 по умолчанию. Для настройки используйте число rx , которое указывает разрешение X , и -ry
число, которое указывает разрешение Y в DPI.
В этом примере мы настраиваем качество DP Linux_For_Beginners. pdf на 300 .
$ pdftoppm -png -rx 300 -ry 300 Linux_For_Beginners.pdf Linux_For_Beginners
Чтобы просмотреть все варианты, доступные и поддерживаемые в pdftoppm, выполните следующие команды:
$ pdftoppm --help $ человек pdftoppm
Надеюсь, теперь вы можете преобразовывать страницы PDF в изображения в Linux с помощью инструмента командной строки Pdftoppm .
Отзыв об учебнике…
Была ли эта статья полезной? Если вы не нашли эту статью полезной или обнаружили устаревшую информацию, проблему или опечатку, оставьте ценный отзыв или предложения в комментариях, чтобы помочь улучшить эту статью…TecMint — это самый быстрорастущий и пользующийся наибольшим доверием сайт сообщества, где можно найти любые статьи, руководства и книги по Linux в Интернете. Миллионы людей посещают TecMint! искать или просматривать тысячи опубликованных статей, доступных всем БЕСПЛАТНО.
Если вам нравится то, что вы читаете, пожалуйста, купите нам кофе (или 2) в знак признательности.
Мы благодарны за вашу бесконечную поддержку.
Преобразование PDF в Excel вручную или с помощью онлайн-конвертеров
В статье объясняется, как экспортировать различные PDF-файлы в Excel вручную или с помощью бесплатных онлайн-конвертеров, а также как выбрать метод преобразования, наиболее подходящий для данного типа файла.
Формат PDF, позволяющий представлять документы независимо от программного, аппаратного обеспечения или операционной системы пользователя, уже стал стандартом де-факто для электронного обмена файлами.
Если вы попросите кого-нибудь предоставить какую-либо информацию, и если этот человек будет действовать из лучших побуждений, есть большая вероятность, что вы получите аккуратно отформатированный PDF-документ с запрошенными данными, сопровождаемый таблицами, графиками и диаграммами для вашего прочтения.
Однако файлы PDF предназначены исключительно для просмотра данных, а не для управления ими. Так что, если ваша задача подразумевает перекомпоновку данных для дальнейшего анализа, вам придется либо перепрошивать корреспондента на другой файл, либо конвертировать PDF-документ в какой-нибудь редактируемый формат. И этот учебник научит вас, как импортировать файл из PDF в Excel всего за несколько минут.
- Выберите правильный метод в зависимости от типа файла PDF
- Преобразование файла PDF в Excel через Word
- Онлайн конвертеры PDF в Excel
- Настольное программное обеспечение для преобразования PDF в Excel
- Преобразование изображения (отсканированного) PDF в Excel
Выбор правильного метода преобразования PDF в Excel
Выбор правильного метода преобразования определенного PDF в Excel зависит от того, как был создан тот или иной документ PDF. Кто-то может подумать, что все PDF-файлы по сути одинаковы. Но на самом деле это не так.
Если PDF-документ был получен из электронный источник , такой как документ Word или электронная таблица Excel, он содержит текстовые символы, которые могут быть прочитаны и интерпретированы приложениями Microsoft Office, а также различными конвертерами PDF. Если вы хотите импортировать такой PDF в Excel, вы можете сделать это вручную или использовать сторонние конвертеры PDF в Excel или программное обеспечение Adobe.
Файл PDF также можно создать путем сканирования какого-либо бумажного документа или с помощью другого устройства, которое делает изображение документа и затем сохраняет его как файл PDF. В этом случае PDF — это просто статическая картинка, и для того, чтобы экспортировать ее в редактируемый лист Excel, требуется специальное программное обеспечение для распознавания текста.
Преобразование PDF в Excel через Word
Для периодического преобразования PDF в Excel вы можете не заморачиваться поиском специального инструмента и выполнять работу с тем, что у вас есть под рукой, например, с любой программой просмотра PDF, Microsoft Excel и Word. Помните, что этот метод работает только для PDF-документов, созданных в электронном виде.
Вкратце, преобразование включает сначала экспорт данных в документ Word, а затем их копирование в книгу Excel. Подробные шаги следуют ниже.
1. Скопируйте исходную таблицу из файла PDF.
Откройте файл PDF в Adobe Reader или любом другом средстве просмотра PDF, выберите таблицу, которую хотите преобразовать в Excel, и нажмите Ctrl + C, чтобы скопировать ее в буфер обмена.
2. Вставьте таблицу в документ Word.
Откройте новый документ Word и вставьте скопированные данные, нажав Ctrl + V. Вы получите что-то похожее на это:
3. Преобразуйте скопированные данные в таблицу (необязательно).
Если данные PDF были вставлены в документ Word в виде правильно структурированной таблицы, как показано на снимке экрана выше, пропустите этот шаг.
Если данные были вставлены в Word в виде текста, а не таблицы, их можно преобразовать в таблицу одним из следующих способов:
- Быстрый способ. Нажмите Ctrl + A, чтобы выбрать все данные, перейдите на вкладку Вставка и щелкните Таблица > Вставка таблицы…
Это должно преобразовать вставленные данные в плохо отформатированную, но правильно структурированную таблицу Word. - Более длинный путь. Если быстрый способ не дал ожидаемого результата, выберите все данные и нажмите Вставить > Таблица >Преобразовать текст в таблицу… Появится диалоговое окно, и вы выбираете Другое под Отдельный текст в , щелкните в маленьком поле рядом с ним, удалите то, что есть, введите пробел и нажмите OK .
4. Скопируйте таблицу из Word в Excel.
В документе Microsoft Word выберите все данные (Ctrl + A), откройте новый лист Excel, выберите любую ячейку (это будет самая левая ячейка таблицы) и нажмите Ctrl + V, чтобы вставить данные скопировано из Ворда.
5. Отформатируйте и отредактируйте таблицу Excel.
Если вы конвертируете небольшую и простую таблицу, этот шаг может не понадобиться. Однако, по моему опыту, очень редкий случай, когда данные, экспортированные из PDF в Excel вручную, не требуют дальнейших манипуляций. Чаще всего вам нужно будет внести некоторые коррективы, чтобы восстановить исходную компоновку и формат таблицы. Например, вам может понадобиться удалить несколько пустых строк или добавить/удалить отдельные ячейки, чтобы обеспечить правильное выравнивание столбцов.
Преимущества : Основное преимущество этого подхода в том, что не требуется никаких специальных инструментов, только просмотрщик PDF, Microsoft Word и Excel.
Недостаток : Исходное форматирование утеряно, требуются дальнейшие манипуляции с конвертированными данными.
Преобразователи PDF в Excel онлайн
Если у вас есть большой и сложно отформатированный файл PDF, может быть довольно утомительно восстанавливать формат и структуру каждой таблицы вручную. В этом случае имеет смысл поручить задачу какому-нибудь онлайн конвертеру PDF в Excel.
Несмотря на то, что существует множество онлайн-конвертеров Excel в PDF, принцип работы в основном одинаков. Вы загружаете PDF-файл на сайт, указываете свой адрес электронной почты и, как только процесс конвертации завершится, находите рабочую книгу Excel в своем почтовом ящике. Некоторые конвертеры даже не требуют адреса электронной почты и позволяют загружать или открывать преобразованный файл Excel прямо с веб-сайта.
Большинство онлайн-конвертеров PDF в Excel имеют дневной или месячный лимит на количество файлов, которые вы можете конвертировать бесплатно. Некоторые сервисы также устанавливают ограничение на размер файла. Обычно вы можете снять эти ограничения, подписавшись на платную подписку.
Теперь мы поиграем с несколькими популярными онлайн-конвертерами PDF в Excel и посмотрим, какой из них дает наилучшие результаты.
А вот исходный PDF-файл, который нужно превратить в рабочую таблицу Excel:
Nitro Cloud — бесплатный онлайн-конвертер PDF в Excel
Это один из самых популярных онлайн-сервисов для преобразования PDF-файлов в Microsoft Excel, Word и PowerPoint. Nitro Cloud также может выполнять конвертацию в обратном направлении, то есть из PowerPoint, Word или Excel в PDF, и мы уже рассмотрели это в предыдущей статье — Преобразование Excel в PDF.
Если у вас есть опыт работы с онлайн-сервисами, вы наверняка замечали, что они устроены таким образом, чтобы сделать конвертацию максимально простой и интуитивно понятной для пользователя. Конвертер Nitro PDF не является исключением. Вам нужно только выбрать исходный файл, указать форматы файлов, ввести свой адрес электронной почты и нажать « Convert Now ».
Результат : Преобразованный файл Excel поступит в ваш почтовый ящик через пару минут. Например, вот так выглядит мой лист:
Если сравнить с исходным файлом PDF, то можно заметить, что красивый заголовок пропал, форматирование существенно искажено, но в целом есть с чем работать.
Помимо онлайн-сервиса, у Nitro есть настольная версия конвертера PDF в Excel, а 14-дневная пробная версия доступна на сайте www. pdftoexcelonline.com.
Бесплатный конвертер PDF
Онлайн-конвертер PDF, доступный на сайте www.freepdfconvert.com, также выполняет различные типы преобразования, включая PDF в Excel, PDF в Word, PDF в PowerPoint, PDF в изображение и наоборот.
С помощью этого конвертера вы можете либо получить выходной файл Excel по электронной почте, либо загрузить его с веб-сайта.
Результат : Что касается результата, то… это было что-то возмутительное!
Только 3 строки из оригинального PDF-документа пережили преобразование, и, естественно, эти остатки сразу же были отправлены в корзину. Справедливо сказать, что этот конвертер PDF в Excel намного лучше справлялся с более простыми таблицами, но, учитывая его ограничения — 10 преобразований в месяц и 30-минутную задержку для преобразования другого файла — это все равно не мой выбор.
Онлайн-конвертер Cometdocs PDF в Excel
Помимо Nitro, Cometdocs предоставляет настольную и онлайн-версии своего конвертера PDF, обе доступны на сайте www. pdftoexcel.org.
Их бесплатный сервис заставит вас ждать 30 минут даже для конвертации первого документа, что, конечно, разочаровывает, но терпимо, если вы хотите получить в итоге идеальный результат.
Результат: Я бы не сказал, что выходной файл Excel идеален. Форматирование — лишь смутное воспоминание об исходном PDF-документе, появляется пара лишних пустых ячеек, тем не менее, основная цель достигнута — данные PDF были превращены в редактируемую таблицу Excel.
Еще один онлайн-конвертер PDF
Как и большинство онлайн-сервисов, конвертер с понятным и незатейливым названием PDFConverter.com поможет вам импортировать содержимое ваших PDF-файлов в Excel, Word и PowerPoint. После того, как вы выберете желаемый выходной формат, вы должны выполнить обычные 3 шага — выбрать файл для преобразования, ввести свой адрес электронной почты и нажать кнопку Start :
Также доступна платная настольная версия этого конвертера PDF, и вы можете скачать 15-дневную пробную версию здесь.
Результат : Достаточно хороший. На самом деле лист Excel, который мне прислали по электронной почте, был точно таким же, как и у Cometdocs, вероятно, оба сервиса используют один и тот же алгоритм преобразования.
Если ни один из вышеперечисленных онлайн-конвертеров PDF в Excel не отвечает вашим требованиям в полной мере, вы можете найти множество других в Интернете.
Программное обеспечение для настольных ПК для преобразования PDF в Excel
Если вам необходимо регулярно выполнять преобразование PDF в Excel и если вам нужна быстрая и точная передача исходных PDF-документов в отформатированные рабочие листы Excel, вы можете рассмотреть возможность инвестирования в профессиональные настольное программное обеспечение.
Экспорт PDF в Excel с помощью Adobe Acrobat XI Pro
Начнем с того, что подписка на Adobe Acrobat Pro довольно дорогая (около 25 долларов в месяц). Тем не менее, цена, вероятно, оправдана, поскольку он включает в себя множество функций, которые позволяют выполнять все возможные манипуляции с файлами PDF, включая возможность импорта PDF в Excel.
Процесс преобразования очень быстрый и простой:
- Откройте файл PDF в Acrobat XI.
- Щелкните Инструменты > Редактирование содержимого > Экспорт файла в… > Книга Microsoft Excel .
Если вы предпочитаете работать с главным меню, щелкните
- Дайте имя файлу Excel и выберите папку назначения.
Если у вас есть учетная запись Adobe, вы можете сохранить преобразованный файл .xlsx в нее, щелкнув маленькую черную стрелку рядом с « Сохранить в онлайн-учетной записи » в нижней части окна.
После выбора папки нажмите кнопку Сохранить , чтобы завершить преобразование, или Настройки , чтобы открыть дополнительные параметры.
- Настройте параметры.
В диалоговом окне « Сохранить как параметры XLSX » доступны следующие варианты:
- Преобразование PDF-файла в отдельный рабочий лист или экспорт каждой страницы на отдельный лист.
- Используйте десятичные разделители и разделители тысяч по умолчанию (как установлено в региональных настройках Windows) или установите другие разделители специально для этого файла Excel.
- При необходимости включите OCR (оптическое распознавание символов). Хотя этот параметр выбран по умолчанию, он заслуживает особого внимания, если вы конвертируете изображение (отсканированный) PDF-документ. В этом случае убедитесь, что в чекбоксе «Запустить OCR» стоит галочка и выберите соответствующий язык, нажав кнопку Set Language рядом с ним.
По завершении нажмите кнопку OK.
Преобразованный файл Excel очень близок к исходному документу PDF. Как показано на снимке экрана ниже, макет документа, а также форматирование были преобразованы почти безупречно. Единственным заметным недостатком является то, что некоторые числа были экспортированы в виде текста, на что указывает маленький зеленый треугольник в верхнем левом углу ячейки. Вы можете исправить этот недостаток за считанные секунды — просто выделите все такие ячейки, щелкните правой кнопкой мыши и выберите 9.0156 Формат ячеек > Число .
Справедливости ради я использовал Acrobat Pro XI для преобразования того же файла PDF, который был загружен в онлайн-конвертеры PDF в Excel. Результат очень разочаровывает:
Как у вас на скриншоте выше, некоторые цифры, которые должны быть связаны с текстовыми метками, перемещены в верхнюю часть листа, одна текстовая запись потеряна. Но самое критичное то, что все данные были экспортированы в один столбец (столбец А), что значительно усложняет дальнейшие манипуляции и анализ данных. Даже некоторые из бесплатных онлайн-конвертированных PDF-файлов дали лучший результат — позор Adobe!
Преимущества : Прежде всего — очень быстрый результат и простота использования; для простых таблиц с четкой структурой — аккуратное и точное преобразование с минимальными дополнительными манипуляциями.
Недостатки : Высокая стоимость, плохие результаты при преобразовании сложных PDF-документов.
Преобразование PDF в Excel с помощью Able2Extract PDF Converter 9
Able2Extract — еще одно известное имя в отрасли, которое присутствует на рынке уже более 10 лет. Их цены сопоставимы с Adobe Acrobat Pro, как и функции.
Able2Extract может преобразовывать содержимое PDF в самые разные форматы, от Excel, Word, PowerPoint до Publisher и AutoCAD. Опция оптического распознавания символов (OCR) также доступна.
А теперь давайте посмотрим, как этот конвертер справится с нашим Планировщиком подарков, который оказался камнем преткновения для большинства онлайн-конвертеров PDF, а также для программного обеспечения Adobe.
Чтобы преобразовать PDF-файл в редактируемый файл Excel, выполните следующие действия:
- Откройте документ PDF, который хотите экспортировать в Excel. Конвертер фактически даст вам подсказку, с чего начать.
- Выберите данные PDF для преобразования. Это может быть весь документ, определенные страницы, все данные на текущей странице или только выбранные данные. Вы можете сделать выбор, перетащив указатель мыши, из меню Редактировать или используя параметры быстрого выбора на панели инструментов:
- Выберите Excel в качестве формата преобразования, либо щелкнув значок Excel на панели инструментов или выберите Convert to Excel в меню Edit . Как только вы это сделаете, вам будет предоставлен выбор из вариантов преобразования Automatic и Custom .
Я выбираю Автомат , так как хочу быстрого результата. Если вы хотите указать, как ваша таблица будет выглядеть в Excel, вы можете использовать Custom . Когда вы нажмете кнопку Define под Custom , появится новая панель, из которой вы сможете начать настройку своих таблиц, и изменения будут немедленно отражены в разделе предварительного просмотра.
То, что вы видите ниже в результате автоматического преобразования, намного превосходит то, что произвел Adobe Acrobat XI Pro!
Если вы хотите попробовать Able2Extract, вы можете загрузить ознакомительную версию здесь или, возможно, сначала проверить их цены 🙂
Преимущества : Быстрое и точное преобразование PDF в Excel; оригинальные цвета, форматирование и шрифты сохранены; возможность настройки документа перед конвертацией; Возможности OCR для отсканированных PDF-файлов.
Недостаток : Дорого.
Преобразование изображения (отсканированного) PDF в Excel
Как отмечалось в начале этой статьи, существует несколько способов создания файла PDF. Если ваш PDF-файл был создан с помощью сканера или аналогичного устройства, которое делает «моментальный снимок» документа, а затем сохраняет это изображение в виде электронного PDF-файла, требуется специальное программное обеспечение Optical Character Recognition (OCR). Программа OCR в электронном виде идентифицирует каждый символ в отсканированном документе и преобразует его в редактируемый формат по вашему выбору, например. Майкрософт Эксель.
Качество выходного документа зависит от многих факторов, таких как хорошее или плохое качество изображения исходного PDF-документа, четкость всех символов, иностранные языки или специальные символы, используемые в тексте, сочетание шрифтов, цветов и форматов и т. д.
Поскольку оптическое распознавание символов, превращающее изображение в электронный символьный файл, является довольно сложным процессом, большинство программ OCR платные. Однако также существует несколько бесплатных онлайн-сервисов, которые могут помочь вам экспортировать PDF-документ с изображением в Excel.
Бесплатная онлайн-служба OCR для преобразования PDF в Excel
Служба оптического распознавания символов, доступная на сайте www.onlineocr.net, поддерживает 46 языков, включая английский, французский, китайский, японский, корейский и многие другие. Помимо PDF, он также позволяет извлекать текст из изображений JPG, BMP, TIFF и GIF и преобразовывать их в файлы Excel (.xlxs), Word (.docx) или обычный текст (.txt). Максимально допустимый размер файла составляет 5 МБ.
Я протестировал этот сервис на нескольких отсканированных PDF-документах на разных языках и, честно говоря, был впечатлен результатами. Хотя исходный формат файлов PDF был утерян, большая часть текстовых и числовых данных была правильно распознана и импортирована в Excel.
Если вам нужно нечто большее, чем бесплатная служба OCR, вы можете попробовать один из платных конвертеров PDF в Excel OCR, таких как PDF2XL OCR или VeryPDF.