PDF 轉文本
上傳 PDF
The first page is rendered 本機,then OCR runs 在瀏覽器中。 最大 25 MB. OCR runs 在瀏覽器中 — 不會上傳任何内容。
Tip: 文本-based PDFs work best;scanned pages are treated like photos。
使用方法
- 匯出或儲存您需要的 PDF(最大 25 MB)- 必須先解鎖加密的 PDF。
- 在此頁面上傳文件;該工具接受標準
application/pdf文件。 - 按一下 從 PDF 擷取文字 — 第一頁將在瀏覽器中呈現為圖像。
- 等待頁面預覽出現,然後 OCR 進度達到 100%。
- 閱讀文字面板;將您需要的行複製到 Word、Google 文件或電子表格中。
- 需要另一頁嗎?將該頁面重新匯出為 PDF 或螢幕截圖並使用Image to Text直到多頁面支援發布。
常見問题
PDF 轉文本有什麼作用?
PDF 转文本通过在浏览器中将第 1 页渲染为位图来读取 PDF 中的内容,然后运行我们 OCR 中心使用的相同 Tesseract 引擎。您無需安裝桌面軟體即可獲得可編輯的純文字。
PDF 是否上傳到伺服器?
不會。 PDF.js 在本機渲染頁面; Tesseract.js 可以辨識標籤中的文字。這兩個步驟都不會將您的文件傳送到我們的伺服器進行處理。
支援多少頁?
目前只有第一頁。對於第 2 頁以上,從外部分割 PDF 或將頁面擷取為影像並使用影像轉文字。
它適用於掃描的 PDF 嗎?
是的。掃描的 PDF 實際上是每頁的圖像;渲染後,OCR 將它們視為照片。品質取決於掃描 DPI 和對比度。
以文字(數字)為基礎的 PDF 怎麼樣?
帶有嵌入文字的數位 PDF 可以在渲染後很好地進行 OCR,但當文字已經可選時,專用 PDF 閱讀器的複製命令可能會更快。當停用複製或佈局僅為圖像時使用此工具。
為什麼 OCR 失敗或返回空文字?
常見原因:PDF 損壞、密碼保護、首頁空白或掃描解析度極低。嘗試重新儲存 PDF 或使用「影像轉文字」功能拍攝頁面。
檔案大小有限制嗎?
是的 — 此頁面上傳的每個 PDF 需要 25 MB,以保持瀏覽器記憶體合理。
介紹
PDF 到文字 當您有 PDF 但無法選擇文字時會有所幫助:掃描的合約、傳真表格、匯出的幻燈片、平鋪到圖像或複製/貼上被阻止的下載。
工作流程經過深思熟慮且透明:渲染頁 1 → 預覽 → OCR → 複製。一切都發生在客戶端,因此機密 PDF 永遠不會離開您的機器進行識別。
PDF 轉文本在瀏覽器中的工作原理
- 上傳 — 您從磁碟中選擇 PDF 檔案。
- 渲染 — PDF.js 將第一頁繪製到記憶體畫布上(如該頁面的螢幕截圖)。
- 辨識 — Tesseract.js 從渲染影像中讀取字母。
- 輸出 — 純文字出現在面板中以供檢視和複製。
無需安裝,無需帳戶,也無需批次佇列 - 針對從單一頁面快速提取進行了最佳化。
主要特點
- 透過 PDF.js 進行本機 PDF 渲染(首次使用時從官方 CDN 載入工作程式)。
- 在您信任文字輸出之前,對渲染頁面進行視覺預覽。
- 英語 OCR (
eng) 適用於大多數商業和學術拉丁文字文件。 - 25 MB 上限可減少行動瀏覽器中大檔案的記憶體不足故障。
何時使用 PDF 轉文本
| Situation | Fit |
|---|---|
| 掃描的發票或表格(第 1 頁) | 強——典型用例 |
| 包含一頁文字的 PDF 螢幕截圖 | Strong |
| 200頁電子書 | 部分 — 這裡僅第 1 頁;外部拆分 |
| 帶有可選文本的 PDF | 可選 - 首先嘗試本機複製 |
| 受密碼保護的 PDF | 解密之前不支援 |
更好地提取 PDF 文字的技巧
- **如果字元在預覽中看起來模糊,請以 300 DPI 重新掃描。
- 喜歡白紙上的黑色文字掃描而不是彩色背景。
- 如果第 1 頁包含較大的空白頁邊距或封面,則在 PDF 編輯器中進行裁切。
- 旋轉橫向掃描,使線條在上傳前保持水平。
限制
- 今天的單頁處理。
- 複雜的表可能會在純文字輸出中遺失列對齊。
- 數學符號和不常見的符號可能會誤讀。
- 非常大的 PDF 在低 RAM 設備上可能會很慢或失敗 - 盡可能分割文件。
隱私
您的 PDF 不會傳輸給我們進行 OCR。渲染和識別使用瀏覽器 API 和下載的開源程式庫。在共用電腦上完成後,清除頁面或關閉標籤。
相關工具
- Image to Text— 各頁面的 PNG/JPG 螢幕截圖。
- Receipt Scanner— 匯出照片後縮小收據範圍。
- OCR Tools hub— 所有 OCR 變體都集中在一個地方。