告别PDF处理难题

doc-to-text 提供高效的大文件PDF处理方案,通过智能拆分与OCR识别技术,轻松提取任意文档中的文本内容

痛点分析

当 PDF 成了“拦路虎”

处理大型PDF文档时的常见挑战与痛点

传统PDF处理工具的限制

面对300多页的技术手册或大型文档,传统OCR工具常常崩溃或无法处理。页数限制、上传失败、处理中断等问题让文档处理变得异常困难。

解决方案

“化整为零”处理大PDF

doc-to-text 的创新处理流程

大型 PDF

拆解成单页

每页 OCR

合并输出

分页处理机制

根据PDF内容类型自动选择处理方式:图像型PDF拆分为单页图像后逐页识别,文字型PDF直接提取转换。

双引擎OCR支持

支持本地运行的surya-ocr和调用AI大模型的llm-caller两种OCR引擎,满足不同场景需求。

技术选择

两种 OCR 引擎灵活选择

根据需求选择最适合的OCR处理方案

surya-ocr

  • 本地运行,数据隐私有保障
  • 支持中英文等多种语言
  • 结构清晰的文档识别效果佳
  • 对电脑配置有一定要求
适合注重数据隐私的用户

llm-caller

  • 调用强大的AI模型(如阿里云qwen-vl-ocr)
  • 识别手写、复杂排版等困难文档
  • 不受本地配置限制
  • 需要注册服务并配置API Key
推荐用于扫描件和复杂文档

开始使用

安装与环境准备指南

通过amo工具快速安装doc-to-text及其依赖

1. 安装 amo 工具

Linux / macOS

$ curl -fsSL https://cli.release.amo.run/install.sh | sh

或使用 Homebrew 安装:

$ brew tap amo-run/amo && brew install amo

Windows

PowerShell (推荐):

> iex ((New-Object System.Net.WebClient).DownloadString('https://cli.release.amo.run/install.ps1'))

命令提示符:

> curl -fsSL https://cli.release.amo.run/install.bat -o install.bat && install.bat

验证安装:运行 amo --version 检查是否安装成功

2. 安装 doc-to-text 及相关工具

$ amo tool install doc-to-text
$ amo tool install ghostscript
$ amo tool install pandoc
$ # 可选(根据需要安装)
$ amo tool install calibre
$ amo tool install llm-caller

3. 验证安装

$ doc-to-text --version
$ ghostscript --version
$ pandoc --version
$ # 若安装了 Calibre(可选)
$ calibre --version
$ # 验证 OCR 引擎(根据选择的方案)
$ surya_ocr --version
$ llm-caller --version

使用指南

快速上手指南

从基本使用到高级技巧

1

基本用法

新手模式(自动引导)

$ doc-to-text 文件.pdf

指定OCR引擎

$ doc-to-text 文件.pdf --ocr surya_ocr --content-type image

批量处理

$ for file in *.pdf; do
  doc-to-text "$file" --ocr surya_ocr
done
2

进阶技巧

显示详细进度

$ doc-to-text 文档.pdf --ocr surya_ocr --verbose

指定输出路径

$ doc-to-text 文档.pdf --ocr surya_ocr -o ./输出/内容.txt

纯文本提取

$ doc-to-text 文档.pdf --content-type text
3

调用AI模型

下载模板

$ llm-caller template download https://github.com/nodewee/llm-calling-templates/blob/main/qwen-vl-ocr-image.json

准备API KEY

{
  "aliyun_api_key": "sk-xxx"
}

执行识别

$ doc-to-text 扫描件.pdf --ocr llm-caller --llm-template qwen-vl-ocr-image

支持

常见问题解答

解决您在使用中遇到的问题

PDF 是纯文字的,还需要 OCR 吗?

不需要,直接用 --content-type text,提取速度快且准确。

OCR 出现乱码怎么办?

可尝试更换 OCR 引擎,或检查是否为手写/低分辨率图像。推荐 llm-caller 配合大模型。

出现"找不到 ghostscript/pandoc"?

请确认它们已正确安装并添加到系统环境变量(PATH)中。

能否指定某几页进行识别?

当前暂不支持指定页码,但可先用 pdftkqpdf 拆分 PDF,再单独识别。

doc-to-text 的核心价值

没有页数限制

本地运行不上传

AI模型辅助识别

无论是几百页的项目资料,还是结构混乱的扫描手稿,doc-to-text 都能帮你有条不紊地"吃下"。 将繁重任务交给自动化工具,把时间留给真正重要的创造与思考。