Si necesita herramientas de línea de comandos que extraigan el texto de los archivos de Word, Antiword (archivos .doc) y docx2txt (.docx) son programas útiles a su disposición.
En este tutorial, veremos estas cuatro aplicaciones y cómo puede usarlas. Caminaremos a través de la instalación en varias de las distribuciones de Linux más populares, incluyendo Debian, Ubuntu, Fedora, OpenSUSE, CentOS y Arch Linux. También le ayudaremos a instalar las fuentes principales de Microsoft TrueType en su sistema Linux.
LibreOffice es una suite de productividad de oficina gratuita, de código abierto, mantenida activamente y actualizada con frecuencia que es compatible con las aplicaciones de Microsoft Office, incluido Microsoft Word. Puede guardar sus documentos de LibreOffice Writer en formato .doc o .docx, y luego se abre correctamente en Microsoft Word.
Instalando LibreOffice
LibreOffice se puede instalar utilizando su gestor de paquetes. Para instalarlo, abra un terminal y use el siguiente comando apropiado para su sistema operativo:
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get install libreoffice
Fedora 23
sudo dnf update && sudo dnf install libreoffice
OpenSUSE 10
sudo zypper refresh && sudo zypper install libreoffice
CentOS 7
sudo yum update && sudo yum install libreoffice
Arch Linux 2016
sudo pacman -sy libreoffice-fresh
Una vez instalado LibreOffice, debe aparecer en el menú Aplicaciones de su GUI. También puedes ejecutarlo desde una terminal con el comando:
oficina libre
AbiWord
AbiWord es otro procesador de textos gratuito y de código abierto. Tiene una interfaz limpia y simple y ha estado en desarrollo durante casi veinte años. Al igual que LibreOffice, puede abrir, editar y guardar archivos .doc y .doc de Microsoft Word. A diferencia de LibreOffice, Abiword no es una suite de oficina completa, por lo que tiene un tamaño más reducido y consume menos recursos del sistema.
Instalando AbiWord
Debian 8, Ubuntu 15
sudo apt-get upgrade && sudo apt-get install abiword
Fedora 23
sudo dnf update && sudo dnf install abiword
OpenSUSE 10
sudo zypper refresh && sudo zypper install abiword
CentOS 7
actualización de sudo yum && sudo yum instalar abiword
Arch Linux 2016
pacman -Sy abiword
Llave
Antiword es una herramienta de línea de comandos que puede convertir el contenido de un archivo .doc a texto sin formato.
Nota: Antiword solo convierte archivos .doc. Si necesita convertir un archivo .docx, consulte docx2txt en la siguiente sección.
Usando Antiword
La ejecución de antiword con el nombre de un archivo .doc de Word emitirá el texto sin formato del archivo a la salida estándar.
Antiword hace un gran trabajo de formato de tablas. También tiene opciones para incluir imágenes como objetos PostScript y enviarlas a PDF.
Puede redirigir la salida a un archivo de texto:
antiword file.doc> file.txt
o, si desea abrirlo directamente en un editor de texto, puede canalizar el texto a vim:
antiword file.doc | vim
o pico:
antiword file.doc | pico
Instalando antiword
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get install antiword
Fedora 23
sudo dnf update && sudo dnf install antiword
OpenSUSE 10
sudo zypper refresh && sudo zypper install antiword
CentOS 7
sudo yum update && sudo yum install antiword
Docx2txt
sudo pacman -Sy antiword
Docx2txt es una herramienta de línea de comandos que convierte archivos .docx a texto sin formato. (No convierte archivos .doc.)
Para imprimir el contenido de un archivo .docx en la pantalla del terminal, o redirigir la salida a un archivo, llame a docx2txt y especifique un guión como el nombre del archivo de salida. En este ejemplo, observe el guión al final del comando:
Para convertir un archivo .docx y una salida en un archivo de texto, use el formulario de comando:
docx2txt archivo.docx archivo.txt
o:
docx2txt archivo.docx -> archivo.txt
Para abrir el texto .docx en vim, use el formulario de comando:
docx2txt archivo.docx - | vim
Para abrirlo en nano:
docx2txt archivo.docx - | nano
Para instalar doc2txt, siga las instrucciones para su versión de Linux a continuación:
Debian 8
sudo apt-get update && sudo apt-get install docx2txt
Ubuntu 15
sudo apt-get update && sudo apt-get install docx2txt
Fedora 23
Los repositorios de Fedora no ofrecen un paquete para docx2txt, pero puede instalarlo manualmente:
Descargue la fuente de SourceForge en //sourceforge.net/projects/docx2txt/. Extraer el archivo:
tar xzvf docx2txt-1.4.tgz
Debe asegurarse de que Perl, Unzip y Make estén instalados en su sistema, así que instale o actualice esos paquetes ahora:
sudo dnf update && sudo dnf install perl unzip make
Luego, ejecute make como usuario root para instalar:
hacer sudo
Docx2txt ahora está instalado como docx2txt.sh . Por ejemplo, para convertir el archivo word-document.docx en un archivo de texto, puede ejecutar:
docx2txt.sh word-document.docx
El archivo de texto convertido se guardará automáticamente como word-document.txt .
OpenSUSE 10
Los repositorios de SUSE no ofrecen un paquete para docx2txt, pero puede descargarlo desde SourceForge en //sourceforge.net/projects/docx2txt/. Extraer el archivo:
tar xzvf docx2txt-1.4.tgz
Debe asegurarse de que Perl, Unzip y Make estén instalados en su sistema, así que instale o actualice esos paquetes ahora:
sudo zypper update && sudo zypper install perl unzip make
Luego, ejecute make as root para instalar:
hacer sudo
Docx2txt ahora está instalado como docx2txt.sh . Por ejemplo, para convertir el archivo word-document.docx en un archivo de texto, puede ejecutar:
docx2txt.sh word-document.docx
El archivo de texto convertido se guardará automáticamente como word-document.txt .
CentOS 7
Los repositorios de CentOS no ofrecen un paquete para docx2txt, pero puede descargarlo desde SourceForge en //sourceforge.net/projects/docx2txt/. Extraer el archivo:
tar xzvf docx2txt-1.4.tgz
Debe asegurarse de que Perl, Unzip y Make estén instalados en su sistema, así que instale o actualice esos paquetes ahora:
sudo yum update && sudo yum install perl descomprimir make
Luego, ejecute make as root para instalar:
hacer sudo
Docx2txt ahora está instalado como docx2txt.sh . Por ejemplo, para convertir el archivo word-document.docx en un archivo de texto, puede ejecutar:
docx2txt.sh word-document.docx
El archivo de texto convertido se guardará automáticamente como word-document.txt .
Arch Linux 2016
sudo pacman -Sy docx2txt
Instalar fuentes compatibles con Microsoft
Las fuentes principales de Microsoft están disponibles en Linux, y debería instalarlas si va a trabajar con archivos de Microsoft Word, especialmente si se crearon en un sistema Windows. Las fuentes principales incluyen:
- Andale mono
- Arial
- Arial Negro
- Calabri
- Cambría
- Cómic
- mensajero
- Impacto
- Veces
- Trebuchet
- Verdana
- Webdings
Para instalarlos, sigue estos pasos:
Debian 8, Ubuntu 15
sudo apt-get update && sudo apt-get install ttf-mscorefonts-installer
Fedora 23
Descargue el paquete RPM del instalador de msttcore desde SourceForge.
Instale los paquetes requeridos para la instalación:
sudo dnf update && sudo dnf instalar curl cabextract xorg-x11-font-utils fontconfig
Luego instale el paquete RPM local:
sudo dnf install msttcore-fonts-installer-2.6-1.noarch.rpm
OpenSUSE 10
Descargue el paquete RPM del instalador de msttcore desde SourceForge.
Instale los paquetes requeridos para la instalación:
sudo zypper update && sudo zypper install curl cabextract xorg-x11-font-utils fontconfig
Luego instale el paquete RPM local:
sudo zypper install msttcore-fonts-installer-2.6-1.noarch.rpm
CentOS 7
Descargue el paquete RPM del instalador de msttcore desde SourceForge.
Instale los paquetes requeridos para la instalación:
sudo yum update && sudo yum install curl cabextract xorg-x11-font-utils fontconfig
Luego instale el paquete RPM local:
sudo yum install msttcore-fonts-installer-2.6-1.noarch.rpm
Arch Linux 2016
Descargue el paquete RPM del instalador de msttcore desde SourceForge.
Instale los paquetes requeridos para la instalación:
pacman -Sy rpmextract x11-font-utils fontconfig
Extraiga el contenido del paquete RPM local:
rpmextract.sh msttcore-fonts-installer-2.6-1.noarch.rpm
Este comando extrae el contenido sin procesar del archivo RPM y crea dos directorios, etc y usr que corresponden a sus directorios / etc y / usr . Los archivos de fuentes se encuentran en usr / share / fonts / msttcore .