Преобразование Word в HTML в Python | DOCX в HTML
Преобразование Word в HTML требуется в различных случаях, например, для встраивания содержимого документа на веб-страницы. В этой статье вы узнаете, как конвертировать документы MS Word DOCX или DOC в HTML с помощью Python. Кроме того, вы узнаете, как динамически управлять преобразованием Word в HTML, используя различные параметры.
- API конвертера Python Word в HTML
- Преобразование документа Word в HTML
- Настроить преобразование Word в HTML
API конвертера Python Word в HTML
Чтобы преобразовать документы Word в HTML, мы будем использовать Aspose.Words for Python. Это мощный и многофункциональный API для создания документов Word и управления ими. Кроме того, он обеспечивает высокоточное преобразование документов Word в другие форматы. Aspose.Words for Python доступен на PyPI, и вы можете установить его с помощью следующей команды pip.
pip install aspose-words
Преобразование документа Word в HTML в Python
Ниже приведены шаги для преобразования документа Word в файл HTML с помощью Python.
- Загрузите документ Word, используя класс Document.
- Создайте объект класса HtmlSaveOptions.
- Включите экспорт ресурсов шрифтов с помощью свойства HtmlSaveOptions.exportfontresources.
- Преобразуйте документ Word в HTML, используя метод Document.save().
В следующем примере кода показано, как преобразовать файл DOCX в HTML в Python.
import aspose.words as aw # Load the document from disk doc = aw.Document("Document.docx") # Enable export of fonts options = aw.saving.HtmlSaveOptions() options.export_font_resources = True # Save the document as HTML doc.save("Document.html", options)
Настройте преобразование Word в HTML в Python
Aspose.Words for Python также предоставляет различные параметры для настройки преобразования Word в HTML. Например, вы можете конвертировать документы с двусторонней информацией, указать папку для сохранения файлов ресурсов и так далее.
Преобразование документа Word с двусторонней информацией
HTML не поддерживает все функции, предоставляемые MS Word, поэтому для имитации документа Word в HTML нам необходимо сохранить дополнительную информацию, называемую двусторонней информацией. Ниже приведены шаги, чтобы включить экспорт информации о передаче данных в преобразовании Word в HTML.
- Загрузите документ Word, используя класс Document.
- Создайте объект класса HtmlSaveOptions и задайте для свойства HtmlSaveOptions.exportroundtripinformation значение true.
- Преобразуйте документ Word в HTML с помощью метода Document.save() и передайте имя HTML-файла и HtmlSaveOptions в качестве параметров.
В следующем образце кода показано, как экспортировать информацию о цикле приема-передачи при преобразовании Word в HTML.
import aspose.words as aw # Load the document from disk doc = aw.Document("Document.docx") # Enable round-trip information saveOptions = aw.saving.HtmlSaveOptions() saveOptions.export_roundtrip_information = True # Save the document as HTML doc.save("Document.html", saveOptions)
Word в HTML: укажите папку для ресурсов
Вы также можете указать папку, в которой хотите хранить все ресурсы, такие как изображения, файлы CSS и шрифты. Для этого вы можете использовать свойство HtmlSaveOptions.exportfontresources. Вы также можете указать отдельные папки для шрифтов и изображений, используя свойства HtmlSaveOptions.fontsfolder и HtmlSaveOptions.imagesfolder соответственно. Ниже приведены шаги по использованию отдельной папки для сохранения ресурсов при преобразовании Word в HTML.
- Создайте объект класса HtmlSaveOptions и установите для свойства HtmlSaveOptions.exportfontresources значение true.
- Укажите имя папки ресурсов с помощью свойства HtmlSaveOptions.resourcefolder.
- Преобразуйте документ Word в HTML с помощью метода Document.save() и передайте имя HTML-файла и HtmlSaveOptions в качестве параметров.
В следующем примере кода показано, как указать папку ресурсов при преобразовании Word в HTML.
import aspose.words as aw # Load the document from disk doc = aw.Document("Document.docx") # Specify resource folder saveOptions. export_font_resources = True saveOptions.resource_folder = docs_base.artifacts_dir + "Resources" saveOptions.resource_folder_alias = "http:#example.com/resources" # Save the document as HTML doc.save("Document.html", saveOptions)
Получите бесплатную лицензию API
Вы можете получить временную лицензию, чтобы использовать Aspose.Words for Python без ограничений на пробную версию.
Вывод
В этой статье вы узнали, как конвертировать документы Word в HTML с помощью Python. Кроме того, вы видели, как динамически настраивать преобразование Word в HTML. Кроме того, вы можете изучить другие возможности Aspose.Words для Python с помощью документации. Также вы можете задать свои вопросы на нашем форуме.
Смотрите также
- Преобразование файлов Word в PDF с помощью Python
- Создавайте документы Word на Python без MS Office
Информация: вас может заинтересовать другой Python API (Aspose.Slides for Python через NET), который позволяет вам преобразовывать презентации в изображения и импортировать изображения в презентации.
Онлайн-конвертер HTM в DOC | Бесплатные приложения GroupDocs
Вы также можете конвертировать HTM во многие другие форматы файлов. Пожалуйста, смотрите полный список ниже.
HTM TO SVG Конвертер (Файл масштабируемой векторной графики)
HTM TO PPT Конвертер (Презентация PowerPoint)
HTM TO PPS Конвертер (Слайд-шоу Microsoft PowerPoint)
HTM TO PPTX Конвертер (Презентация PowerPoint Open XML)
HTM TO PPSX Конвертер (Слайд-шоу PowerPoint Open XML)
HTM TO ODP Конвертер (Формат файла презентации OpenDocument)
HTM TO OTP Конвертер (Шаблон графика происхождения)
HTM TO POTX Конвертер (Открытый XML-шаблон Microsoft PowerPoint)
HTM TO POT Конвертер (Шаблон PowerPoint)
HTM TO POTM Конвертер (Шаблон Microsoft PowerPoint)
HTM TO PPTM Конвертер (Презентация Microsoft PowerPoint)
HTM TO PPSM Конвертер (Слайд-шоу Microsoft PowerPoint)
HTM TO FODP Конвертер (Плоская XML-презентация OpenDocument)
HTM TO EPUB Конвертер (Формат файла цифровой электронной книги)
HTM TO MOBI Конвертер (Электронная книга Mobipocket)
HTM TO AZW3 Конвертер (Kindle eBook format)
HTM TO TIFF Конвертер (Формат файла изображения с тегами)
HTM TO TIF Конвертер (Формат файла изображения с тегами)
HTM TO JPG Конвертер (Файл изображения Объединенной группы экспертов по фотографии)
HTM TO JPEG Конвертер (Изображение в формате JPEG)
HTM TO PNG Конвертер (Портативная сетевая графика)
HTM TO GIF Конвертер (Графический файл формата обмена)
Преобразовать HTM TO BMP (Формат растрового файла)
Преобразовать HTM TO ICO (Файл значка Майкрософт)
Преобразовать HTM TO PSD (Документ Adobe Photoshop)
Преобразовать HTM TO WMF (Метафайл Windows)
Преобразовать HTM TO EMF (Расширенный формат метафайла)
Преобразовать HTM TO DCM (DICOM-изображение)
Преобразовать HTM TO DICOM (Цифровая визуализация и коммуникации в медицине)
Преобразовать HTM TO WEBP (Формат файла растрового веб-изображения)
Преобразовать HTM TO JP2 (Основной файл изображения JPEG 2000)
Преобразовать HTM TO EMZ (Расширенный сжатый метафайл Windows)
Преобразовать HTM TO WMZ (Метафайл Windows сжат)
Преобразовать HTM TO SVGZ (Сжатый файл масштабируемой векторной графики)
Преобразовать HTM TO TGA (Тарга Графика)
Преобразовать HTM TO PSB (Файл изображения Adobe Photoshop)
Преобразовать HTM TO DOCM (Документ Microsoft Word с поддержкой макросов)
Преобразовать HTM TO DOCX (Документ Microsoft Word с открытым XML)
Преобразовать HTM TO DOT (Шаблон документа Microsoft Word)
Преобразовать HTM TO DOTM (Шаблон Microsoft Word с поддержкой макросов)
Преобразовать HTM TO DOTX (Шаблон документа Word Open XML)
Преобразовать HTM TO RTF (Расширенный текстовый формат файла)
Преобразовать HTM TO ODT (Открыть текст документа)
Преобразовать HTM TO OTT (Открыть шаблон документа)
HTM TO TXT Преобразование (Формат обычного текстового файла)
HTM TO MD Преобразование (Уценка)
HTM TO XLS Преобразование (Формат двоичного файла Microsoft Excel)
HTM TO XLSX Преобразование (Электронная таблица Microsoft Excel Open XML)
HTM TO XLSM Преобразование (Электронная таблица Microsoft Excel с поддержкой макросов)
HTM TO XLSB Преобразование (Двоичный файл электронной таблицы Microsoft Excel)
HTM TO ODS Преобразование (Открыть электронную таблицу документов)
HTM TO XLTX Преобразование (Открытый XML-шаблон Microsoft Excel)
HTM TO XLT Преобразование (Шаблон Microsoft Excel)
HTM TO XLTM Преобразование (Шаблон Microsoft Excel с поддержкой макросов)
HTM TO TSV Преобразование (Файл значений, разделенных табуляцией)
HTM TO XLAM Преобразование (Надстройка Microsoft Excel с поддержкой макросов)
HTM TO CSV Преобразование (Файл значений, разделенных запятыми)
HTM TO FODS Преобразование (Плоская XML-таблица OpenDocument)
HTM TO SXC Преобразование (Электронная таблица StarOffice Calc)
HTM TO HTM Преобразование (Файл языка гипертекстовой разметки)
HTM TO HTML Преобразование (Язык гипертекстовой разметки)
HTM TO MHTML Преобразование (MIME-инкапсуляция совокупного HTML)
HTM TO MHT Преобразование (MIME-инкапсуляция совокупного HTML)
HTM TO XPS Преобразование (Спецификация документа Open XML)
HTM TO TEX Преобразование (Исходный документ LaTeX)
HTM TO PDF Преобразование (Портативный документ)
Как встроить HTML в документ Google
Документы Google — очень гибкий текстовый процессор во многих отношениях, но многие люди не понимают, что вы можете встраивать HTML в документ Google.
Это можно сделать несколькими способами. Один из них — скопировать HTML-документ прямо из браузера и вставить его в документ Google. Другой трюк — это использование функции importHTML в Google Sheets для настройки форматирования HTML, которое затем можно встроить в документ Google.
Содержание
Если вы пишете документ, для которого требуется информация из Интернета, последнее, что вам нужно сделать, это вставить эту информацию в виде текста.
Это связано с тем, что большая часть информации в Интернете содержит такую информацию, как диаграммы, графики, изображения и многое другое. Например, делать заметки для исследования эссе было бы намного проще, если бы вы могли вставлять HTML в документ Google с веб-страницы.
К счастью, сделать это в Google Docs очень просто. Это упрощается тем фактом, что Google Docs автоматически вставит вставленные веб-страницы, чтобы включить исходное форматирование, насколько это возможно.
- Выделите раздел веб-страницы, который вы хотите встроить в документ. Нажмите Ctrl-C на клавиатуре, чтобы скопировать этот раздел.
В приведенном выше примере показан процесс копирования и вставки раздела страницы из Википедии.
- Затем откройте документ Google, куда вы хотите встроить эту HTML-страницу, щелкните правой кнопкой мыши и выберите Вставить . Убедитесь, что выбрано Вставить , а не Вставить без форматирования .
- Когда вы выберете Вставить, Документы Google автоматически импортируют максимально скопированный раздел страницы в том формате, в котором он отображается на исходной странице. Сюда входят изображения, URL-ссылки и заголовки.
Вы можете увидеть, что ссылки активны, наведя курсор на одну из них. В Документах Google вы увидите внешнюю ссылку.
В некоторых случаях форматирование изображения (например, выравнивание на странице) может не полностью соответствовать исходной странице, с которой вы скопировали.
Это можно исправить, выбрав изображение, выбрав значок выравнивания текста по левому краю на ленте и значок переноса текста под изображением.
Это должно больше походить на исходное форматирование веб-страницы. Если у изображения была подпись, возможно, вам придется переместить ее под изображение или в другое место, которое вы считаете уместным.
Как видите, встраивание HTML в документ Google с помощью копирования и вставки из Интернета не идеально. Но это самый быстрый способ передачи информации с максимально возможным сохранением исходного HTML-форматирования веб-страницы.
Встраивание HTML в документ Google с помощью importHtmlДругой способ встраивания HTML в ваш документ Google — это встраивание HTML в Google Таблицы с помощью функции importHtml. Затем вы можете вставить это в Документы Google.
Имейте в виду, что вместо встраивания части страницы эта функция вставит всю страницу. Однако есть способ обойти это, используя порядковый номер в синтаксисе функции, чтобы импортировать со страницы только таблицу или список.
Например, вы хотите встроить четвертую таблицу с веб-страницы Википедии о демографических данных США. Сначала откройте новую электронную таблицу Google Sheets. В первой ячейке электронной таблицы введите функцию:
=ImportHTML("https://en.wikipedia.org/wiki/Demographics_of_the_United_States", "table", 4)
Когда вы нажмете Enter, это импортируйте четвертую таблицу с веб-страницы и вставьте ее в таблицу, где находится ваш курсор.
Теперь у вас есть импортированные данные HTML, которые вы можете использовать для встраивания в Документы Google. Отформатируйте эту таблицу так, как вы хотите, чтобы она выглядела внутри Документов Google.
- Для этого выделите таблицу в Google Sheets и нажмите Ctrl-C , чтобы скопировать таблицу.
- Поместите курсор в документ Google Docs туда, куда вы хотите поместить таблицу, щелкните правой кнопкой мыши и выберите Вставить .
- Вы увидите всплывающее окно с несколькими вариантами. Выберите Ссылка на электронную таблицу и нажмите кнопку Вставить .
Это вставляет таблицу из Google Sheets в Google Docs точно так же, как она изначально отформатирована.
Связав таблицу, вы всегда можете обновить таблицу в Google Sheets, и она автоматически обновит таблицу в Google Docs.
Встраивание HTML в Документы Google с помощью WordЕсли у вас есть простой код HTML, сохраненный в файле .html или .htm, вы можете сначала открыть его в Microsoft Word. Word всегда пытается отобразить файл HTML. Затем вы можете импортировать этот документ в Документы Google и скопировать всю страницу или часть страницы в редактируемый документ.
- Для этого откройте Microsoft Word и откройте файл HTML. Вы должны увидеть файл, отображаемый так, как он будет выглядеть в браузере.
- Сохраните этот документ в формате Word.
- Затем вернитесь на Google Диск и загрузите файл в свою учетную запись Google Диска.
- После загрузки щелкните правой кнопкой мыши и выберите Открыть с помощью и выберите
Откроется документ в формате Google Docs, формат которого максимально приближен к формату HTML.
Теперь вы можете скопировать либо весь файл HTML, либо только нужный раздел. Затем вставьте его в документ Google Docs, который вы редактируете.
Это три способа встраивания HTML в документ Google. Вариант, который вы выберете, зависит от того, какие инструменты у вас есть. Это также зависит от того, хотите ли вы всю страницу или только раздел, и насколько точно вам нужно, чтобы исходное форматирование HTML соответствовало.
Райан с 2007 года пишет в Интернете статьи с практическими рекомендациями и другие статьи о технологиях. Он имеет степень бакалавра наук в области электротехники, 13 лет проработал в области автоматизации, 5 лет — в ИТ, а сейчас работает инженером по приложениям. Прочитать полную биографию Райана
Подписывайтесь на YouTube!
Вам понравился этот совет? Если это так, загляните на наш канал YouTube на нашем родственном сайте Online Tech Tips. Мы охватываем Windows, Mac, программное обеспечение и приложения, а также предлагаем множество советов по устранению неполадок и обучающих видеороликов. Нажмите на кнопку ниже, чтобы подписаться!
Подписаться
HTML-программирование с помощью кода Visual Studio
Редактировать
Visual Studio Code обеспечивает базовую поддержку программирования HTML из коробки. Имеется подсветка синтаксиса, интеллектуальное завершение с помощью IntelliSense и настраиваемое форматирование. VS Code также включает в себя отличную поддержку Emmet.
IntelliSense
По мере ввода HTML мы предлагаем подсказки через HTML IntelliSense. На изображении ниже вы можете увидеть рекомендуемое закрытие HTML-элемента