首頁/圖片工具/PDF to Text

PDF 轉文本

上傳 PDF

選擇檔案或 drag 和 drop 這里

The first page is rendered 本機，then OCR runs 在瀏覽器中。最大 25 MB. OCR runs 在瀏覽器中 — 不會上傳任何内容。

Tip: 文本-based PDFs work best；scanned pages are treated like photos。

使用方法

匯出或儲存您需要的 PDF（最大 25 MB）- 必須先解鎖加密的 PDF。
在此頁面上傳文件；該工具接受標準application/pdf文件。
按一下 從 PDF 擷取文字 — 第一頁將在瀏覽器中呈現為圖像。
等待頁面預覽出現，然後 OCR 進度達到 100%。
閱讀文字面板；將您需要的行複製到 Word、Google 文件或電子表格中。
需要另一頁嗎？將該頁面重新匯出為 PDF 或螢幕截圖並使用Image to Text直到多頁面支援發布。

常見問题

PDF 轉文本有什麼作用？

PDF 转文本通过在浏览器中将第 1 页渲染为位图来读取 PDF 中的内容，然后运行我们 OCR 中心使用的相同 Tesseract 引擎。您無需安裝桌面軟體即可獲得可編輯的純文字。

PDF 是否上傳到伺服器？

不會。 PDF.js 在本機渲染頁面； Tesseract.js 可以辨識標籤中的文字。這兩個步驟都不會將您的文件傳送到我們的伺服器進行處理。

支援多少頁？

目前只有第一頁。對於第 2 頁以上，從外部分割 PDF 或將頁面擷取為影像並使用影像轉文字。

它適用於掃描的 PDF 嗎？

是的。掃描的 PDF 實際上是每頁的圖像；渲染後，OCR 將它們視為照片。品質取決於掃描 DPI 和對比度。

以文字（數字）為基礎的 PDF 怎麼樣？

帶有嵌入文字的數位 PDF 可以在渲染後很好地進行 OCR，但當文字已經可選時，專用 PDF 閱讀器的複製命令可能會更快。當停用複製或佈局僅為圖像時使用此工具。

為什麼 OCR 失敗或返回空文字？

常見原因：PDF 損壞、密碼保護、首頁空白或掃描解析度極低。嘗試重新儲存 PDF 或使用「影像轉文字」功能拍攝頁面。

檔案大小有限制嗎？

是的 — 此頁面上傳的每個 PDF 需要 25 MB，以保持瀏覽器記憶體合理。

介紹

PDF 到文字 當您有 PDF 但無法選擇文字時會有所幫助：掃描的合約、傳真表格、匯出的幻燈片、平鋪到圖像或複製/貼上被阻止的下載。

工作流程經過深思熟慮且透明：渲染頁 1 → 預覽 → OCR → 複製。一切都發生在客戶端，因此機密 PDF 永遠不會離開您的機器進行識別。

PDF 轉文本在瀏覽器中的工作原理

上傳 — 您從磁碟中選擇 PDF 檔案。
渲染 — PDF.js 將第一頁繪製到記憶體畫布上（如該頁面的螢幕截圖）。
辨識 — Tesseract.js 從渲染影像中讀取字母。
輸出 — 純文字出現在面板中以供檢視和複製。

無需安裝，無需帳戶，也無需批次佇列 - 針對從單一頁面快速提取進行了最佳化。

主要特點

透過 PDF.js 進行本機 PDF 渲染（首次使用時從官方 CDN 載入工作程式）。
在您信任文字輸出之前，對渲染頁面進行視覺預覽。
英語 OCR (eng) 適用於大多數商業和學術拉丁文字文件。
25 MB 上限可減少行動瀏覽器中大檔案的記憶體不足故障。

何時使用 PDF 轉文本

Situation	Fit
掃描的發票或表格（第 1 頁）	強——典型用例
包含一頁文字的 PDF 螢幕截圖	Strong
200頁電子書	部分 — 這裡僅第 1 頁；外部拆分
帶有可選文本的 PDF	可選 - 首先嘗試本機複製
受密碼保護的 PDF	解密之前不支援

更好地提取 PDF 文字的技巧

**如果字元在預覽中看起來模糊，請以 300 DPI 重新掃描。
喜歡白紙上的黑色文字掃描而不是彩色背景。
如果第 1 頁包含較大的空白頁邊距或封面，則在 PDF 編輯器中進行裁切。
旋轉橫向掃描，使線條在上傳前保持水平。

限制

今天的單頁處理。
複雜的表可能會在純文字輸出中遺失列對齊。
數學符號和不常見的符號可能會誤讀。
非常大的 PDF 在低 RAM 設備上可能會很慢或失敗 - 盡可能分割文件。

隱私

您的 PDF 不會傳輸給我們進行 OCR。渲染和識別使用瀏覽器 API 和下載的開源程式庫。在共用電腦上完成後，清除頁面或關閉標籤。