Если вам нужны инструменты командной строки, которые извлекают текст из файлов Word, Antiword (файлы .doc) и docx2txt (.docx) являются полезными программами, которые вы можете использовать.
В этом уроке мы рассмотрим эти четыре приложения и то, как вы можете их использовать. Мы рассмотрим их установку в нескольких самых популярных дистрибутивах Linux, включая Debian, Ubuntu, Fedora, OpenSUSE, CentOS и Arch Linux. Мы также поможем с установкой основных шрифтов Microsoft TrueType в вашей системе Linux.
LibreOffice - это бесплатный, активно поддерживаемый и часто обновляемый пакет офисной производительности с открытым исходным кодом, совместимый с приложениями Microsoft Office, включая Microsoft Word. Вы можете сохранить свои документы LibreOffice Writer в формате .doc или .docx, а затем либо правильно открыть в Microsoft Word.
Установка LibreOffice
LibreOffice может быть установлен с помощью вашего менеджера пакетов. Чтобы установить его, откройте терминал и используйте следующую команду, соответствующую вашей операционной системе:
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get install libreoffice
Fedora 23
обновление sudo dnf && sudo dnf установить libreoffice
OpenSUSE 10
обновление sudo zypper && установка sudo zypper libreoffice
CentOS 7
sudo yum update && sudo yum установить libreoffice
Arch Linux 2016
sudo pacman -Sy libreoffice-fresh
После установки LibreOffice он должен появиться в меню «Приложения» вашего графического интерфейса. Вы также можете запустить его из терминала с помощью команды:
LibreOffice
AbiWord
AbiWord - еще один бесплатный текстовый процессор с открытым исходным кодом. Он имеет простой и понятный интерфейс и разрабатывается почти двадцать лет. Как и LibreOffice, он может открывать, редактировать и сохранять файлы Microsoft Word .doc и .docx. В отличие от LibreOffice, Abiword не является полным офисным пакетом, поэтому он занимает меньше места и потребляет меньше системных ресурсов.
Установка AbiWord
Debian 8, Ubuntu 15
sudo apt-get upgrade && sudo apt-get install abiword
Fedora 23
обновление sudo dnf && sudo dnf установить abiword
OpenSUSE 10
Обновление sudo zypper && sudo zypper install abiword
CentOS 7
sudo yum update && sudo yum установить abiword
Arch Linux 2016
pacman -Sy Abiword
Antiword
Antiword - это инструмент командной строки, который может преобразовать содержимое файла .doc в обычный текст.
Примечание. Antiword конвертирует только файлы .doc. Если вам нужно конвертировать файл .docx, см. Docx2txt в следующем разделе.
Использование Antiword
Запуск анти-слова с именем файла Word .doc выведет обычный текст файла в стандартный вывод.
Antiword отлично справляется с форматированием таблиц. Он также имеет опции для включения изображений в качестве объектов PostScript и вывода в PDF.
Вы можете перенаправить вывод в текстовый файл:
antiword file.doc> file.txt
или, если вы хотите открыть его непосредственно в текстовом редакторе, вы можете передать текст в vim:
antiword file.doc | Вим -
или пико:
antiword file.doc | пико -
Установка антислов
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get установить antiword
Fedora 23
обновление sudo dnf && sudo dnf установить антислово
OpenSUSE 10
sudo zypper refresh && sudo zypper установить антислово
CentOS 7
sudo yum update && sudo yum установить антислово
Docx2txt
Судо Пакман
Docx2txt - это инструмент командной строки, который преобразует файлы .docx в обычный текст. (Он не конвертирует файлы .doc.)
Чтобы распечатать содержимое файла .docx на экране терминала или перенаправить вывод в файл, вызовите docx2txt и укажите дефис в качестве имени выходного файла. В этом примере обратите внимание на тире в конце команды:
Чтобы преобразовать файл .docx и вывести его в текстовый файл, используйте форму команды:
docx2txt file.docx file.txt
или же:
docx2txt file.docx -> file.txt
Чтобы открыть текст .docx в vim, используйте форму команды:
docx2txt file.docx - | Вим -
Чтобы открыть его в нано:
docx2txt file.docx - | нано-
Чтобы установить doc2txt, следуйте инструкциям для вашей версии Linux ниже:
Debian 8
sudo apt-get update && sudo apt-get install docx2txt
Ubuntu 15
sudo apt-get update && sudo apt-get install docx2txt
Fedora 23
Репозитории Fedora не предлагают пакет для docx2txt, но вы можете установить его вручную:
Загрузите исходный код из SourceForge по адресу //sourceforge.net/projects/docx2txt/. Распакуйте архив:
tar xzvf docx2txt-1.4.tgz
Вы должны убедиться, что perl, unzip и make установлены в вашей системе, поэтому установите или обновите эти пакеты сейчас:
sudo dnf update && sudo dnf установить Perl распаковать make
Затем запустите make от имени пользователя root для установки:
судо сделать
Docx2txt теперь установлен как docx2txt.sh . Например, чтобы преобразовать файл word-document.docx в текстовый файл, вы можете запустить:
docx2txt.sh word-document.docx
Преобразованный текстовый файл будет автоматически сохранен как word-document.txt .
OpenSUSE 10
Репозитории SUSE не предлагают пакет для docx2txt, но вы можете скачать его с SourceForge по адресу //sourceforge.net/projects/docx2txt/. Распакуйте архив:
tar xzvf docx2txt-1.4.tgz
Вы должны убедиться, что perl, unzip и make установлены в вашей системе, поэтому установите или обновите эти пакеты сейчас:
Обновление sudo zypper && sudo zypper install perl unzip make
Затем запустите make от имени root для установки:
судо сделать
Docx2txt теперь установлен как docx2txt.sh . Например, чтобы преобразовать файл word-document.docx в текстовый файл, вы можете запустить:
docx2txt.sh word-document.docx
Преобразованный текстовый файл будет автоматически сохранен как word-document.txt .
CentOS 7
В репозиториях CentOS нет пакета для docx2txt, но вы можете скачать его с SourceForge по адресу //sourceforge.net/projects/docx2txt/. Распакуйте архив:
tar xzvf docx2txt-1.4.tgz
Вы должны убедиться, что perl, unzip и make установлены в вашей системе, поэтому установите или обновите эти пакеты сейчас:
sudo yum update && sudo yum install perl распаковать make
Затем запустите make от имени root для установки:
судо сделать
Docx2txt теперь установлен как docx2txt.sh . Например, чтобы преобразовать файл word-document.docx в текстовый файл, вы можете запустить:
docx2txt.sh word-document.docx
Преобразованный текстовый файл будет автоматически сохранен как word-document.txt .
Arch Linux 2016
sudo pacman -Sy docx2txt
Установка Microsoft-совместимых шрифтов
Основные шрифты Microsoft доступны в Linux, и вам следует установить их, если вы собираетесь работать с файлами Microsoft Word - особенно, если они были созданы в системе Windows. Основные шрифты включают в себя:
- Андале Моно
- Arial
- Arial Black
- Calabri
- Камбрия
- комический
- курьер
- Влияние
- раз
- Требушет
- Verdana
- Webdings
Чтобы установить их, выполните следующие действия:
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get install ttf-mscorefonts-installer
Fedora 23
Загрузите RPM-пакет установщика msttcore из SourceForge.
Установите пакеты, необходимые для установки:
Обновление sudo dnf && sudo dnf установить curl cabextract xorg-x11-font-utils fontconfig
Затем установите локальный пакет RPM:
sudo dnf install msttcore-fonts-installer-2.6-1.noarch.rpm
OpenSUSE 10
Загрузите RPM-пакет установщика msttcore из SourceForge.
Установите пакеты, необходимые для установки:
обновление sudo zypper && sudo zypper установка curl cabextract xorg-x11-font-utils fontconfig
Затем установите локальный пакет RPM:
sudo zypper установить msttcore-fonts-installer-2.6-1.noarch.rpm
CentOS 7
Загрузите RPM-пакет установщика msttcore из SourceForge.
Установите пакеты, необходимые для установки:
sudo yum update && sudo yum установить curl cabextract xorg-x11-font-utils fontconfig
Затем установите локальный пакет RPM:
sudo yum install msttcore-fonts-installer-2.6-1.noarch.rpm
Arch Linux 2016
Загрузите RPM-пакет установщика msttcore из SourceForge.
Установите пакеты, необходимые для установки:
pacman -Sy rpmextract x11-font-utils fontconfig
Извлеките содержимое локального пакета RPM:
rpmextract.sh msttcore-fonts-installer-2.6-1.noarch.rpm
Эта команда извлекает необработанное содержимое файла RPM и создает два каталога, etc и usr, которые соответствуют вашим каталогам / etc и / usr . Сами файлы шрифтов находятся в usr / share / fonts / msttcore .