명령 줄에서 대량으로 검색 할 수 있도록 PDF 파일을 텍스트로 변환해야합니다. Ubuntu, OBSD 또는 유사한 배포판 용 변환기가 있습니까?
아마도 관련 게시물, 우분투를 사용한 OCR 여기 .
당신은 많은 옵션이 있습니다!
pdftotext
from poppler 이미 언급되었습니다.
잘 작동하는 pdf2line
라는 Haskell 프로그램이 있습니다.
calibre 의 ebook-convert
명령 줄 프로그램 (또는 구경 자체)은 또 다른 옵션입니다. PDF 일반 텍스트 또는 기타 전자 책 형식 (RTF, ePub)으로 변환 할 수 있습니다. 제 생각에는 상당히 느리지 만 pdftotext보다 더 나은 결과를 생성합니다.
ebook-convert file.pdf file.txt
AbiWord 는 명령 줄에서 알고있는 모든 형식간에 변환 할 수 있으며 최소한 선택적으로 PDF 가져 오기 플러그인이 있습니다.
abiword --to=txt file.pdf
또 다른 옵션은 podofo PDF 도구 라이브러리)의 podofotextextract
입니다. 실제로 시도하지 않았습니다.
두 개의 Ghostscript 도구 인 pdf2ps
및 ps2ascii
를 결합하면 또 다른 옵션이 있습니다.
실제로 몇 가지 방법을 더 생각할 수 있지만 지금은 그대로 두겠습니다. ;)
명령 줄에서 pdftotext (Ubuntu : poppler-utils ; OpenBSD : xpdf-utils
패키지).
Recoll (Ubuntu : recoll ; OpenBSD : 포트 없음,하지만 FreeBSD .)를 사용하여 다양한 형식의 텍스트 문서 유형을 검색 할 수 있습니다. , PDF 포함. GUI가 있으며 자동으로 색인을 작성합니다. pdftotext
을 사용하여 PDF를 텍스트로 변환합니다.
Acrobat Reader (Linux에서 버전 9 이상)에는 제한된 다중 파일 검색 기능이 있습니다 (디렉토리의 모든 파일에서 검색 가능).
pdftotext는 당신이 찾고있는 것일 수 있습니다 : http://en.wikipedia.org/wiki/Pdftotext 추출하려는 텍스트가 실제로 pdf와는 다른 그래픽 형식 아래 있지 않는 한 서류.