TET 5
PDFlib GmbH發(fā)布了新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之后逐漸改名為»文本和圖像提取工具包«,在圖像提取方面得到明顯提升。
TET檢索文本、圖像、PDF文檔中的元數(shù)據(jù)和其他信息。以下是全新或顯著改善的五大特性:

· 文本檢索:
檢索文本的填充色和描邊色
改善布局檢測
· 圖像檢索
顯著增強分散圖像的合并
提取圖像蒙版和軟蒙版
· 頁面處理:
榮譽圖層和剪輯路徑
· TETML 內(nèi)容:
包括符號的填充色和描邊色、顏色空間和ICC文件配置細節(jié)
一些新的pCOS 偽對象
全新的PDFlib TETPDF IFilter 5 (企業(yè)版PDF搜索應用于窗口)版本現(xiàn)已可用。

PDFlib TET 5 - 特性
PDFlib文本和圖像提取工具包(TET)旨在從PDF文檔中提取文本和圖像,但也可用于從PDF檢索其他信息。
接受PDF輸入
TET支持所有相關(guān)的PDF輸入:
所有PDF版本到Acrobat DC,包括ISO 32000-1和-2
保護那些打開不需要密碼的PDF文檔
損壞的PDF文檔將被修復
世界的所有寫作系統(tǒng)
TET在世界上所有書寫系統(tǒng)中處理PDF文檔,并實現(xiàn)某些腳本所需的特殊處理:
拉丁語,希臘語和西里爾字母,包括脫音
阿拉伯語和希伯來語,包括從右到左和雙向文本的邏輯重新排序;阿拉伯語呈現(xiàn)形式的規(guī)范化
簡體和繁體中文,日語和韓語,無論編碼;水平和垂直文本
印度文字(無字形重排)
Unicode支持的所有其他語言和腳本
Unicode
由于PDF中的文本通常不以Unicode編碼,因此PDFlib TET將PDF文檔中的文本標準化為Unicode:
TET將所有文本內(nèi)容轉(zhuǎn)換為Unicode。在C和其他非Unicode感知語言中,文本以UTF-8或UTF-16格式返回,并作為具有Unicode功能的編程語言的本地字符串返回。
字符和其他多字符字形被分解為相應的Unicode字符序列。
沒有適當?shù)腢nicode映射的字形被識別,并被映射到可配置的替換字符,以避免誤解。
TET針對特定文檔創(chuàng)建包(例如InDesign和TeX文檔或在大型機系統(tǒng)上生成的PDF)的問題實施各種解決方法。
內(nèi)容分析和字檢測
TET包括專利內(nèi)容分析算法:
確定檢索正確單詞所需的單詞邊界
重組連字字的部分(去連字)
刪除重復的文字實例,例如陰影和人為粗體文本
按閱讀順序重新組合段落
正確排序散布在頁面上的文本
頁面布局和表檢測
分析頁面內(nèi)容以確定文本列。檢測表,包括跨越多個列的單元格。這改進了提取的文本的排序??梢詷俗R表行和每個表單元格的內(nèi)容。
幾何
TET提供了文本的精確度量,例如頁面上的位置,字形寬度和文本方向。頁面上的特定區(qū)域可以被排除或包括在文本提取中,例如。以忽略頁眉和頁腳或邊距。
文本顏色
TET分析PDF頁面描述中的顏色信息,并返回每個字形的精確顏色信息。這可以用于例如識別標題或其他突出顯示的文本。
圖像提取
PDF頁面上的圖像可以提取為TIFF,JPEG,JPEG 2000或JBIG2文件。針對每個圖像報告精確的幾何信息(位置,大小和角度)。分割的圖像被組合到較大的圖像以方便重新使用。由于不進行下采樣或顏色轉(zhuǎn)換,保證了圖像保真度。這確保了最高的圖像質(zhì)量。
PDF分析
TET庫包括用于查詢PDF文檔的詳細信息的pCOS接口,例如文檔信息和XMP元數(shù)據(jù),字體列表,頁面大小等等。
有問題的PDF的配置選項
TET包含各種PDF的特殊處理和解決方法,其中文本無法與其他產(chǎn)品正確提取。此外,它包括各種配置功能,以改善問題文檔的處理:
Unicode映射可以通過用戶提供的表來定制,用于將字符代碼或字形名稱映射到Unicode。
PDFlib FontReporter是一個用于分析PDF中的字體,編碼和字形的輔助工具。它作為Adobe Acrobat的插件。此插件可免費用于OS X / macOS和Windows。
分析嵌入字體以查找Unicode映射的其他提示。如果未嵌入字體,則使用外部字體文件或系統(tǒng)字體來提高文本提取結(jié)果。
Unicode后處理
TET支持各種Unicode后處理步驟,可用于改進提取的文本:
折疊保留,刪除或替換字符,例如。從不相關(guān)的腳本中刪除標點符號或字符。
分解用一個或多個其他字符的等效序列替換字符,例如。用其各自的標準對應物替換窄的,寬的或垂直的日語字符或拉丁上標變體。
文本可以轉(zhuǎn)換為所有四種Unicode標準化形式,例如。發(fā)射NFC表單以滿足Web文本或數(shù)據(jù)庫的要求。
文檔域
PDF文檔可能包含除頁面內(nèi)容之外的其他位置的文本。雖然大多數(shù)應用程序?qū)H處理頁面內(nèi)容,但在許多情況下,其他文檔域也可能是相關(guān)的。 TET從以下所有文檔域中提取文本:
頁面內(nèi)容
預定義和自定義文檔信息條目
文檔和圖像級別的XMP元數(shù)據(jù)
書簽
文件附件和PDF文件包可以遞歸處理
表單域
評論(注釋)
可查詢一般PDF屬性,如頁數(shù),符合PDF / A或PDF / X等標準。
XMP元數(shù)據(jù)
TET以多種方式支持XMP元數(shù)據(jù):
使用集成的pCOS接口,可以以編程方式提取文檔,單個頁面,圖像或文檔的其他部分的XMP元數(shù)據(jù)。
TETML輸出包含XMP文檔和圖像元數(shù)據(jù)(如果存在于PDF中)。
以TIFF或JPEG格式提取的圖像包含圖像元數(shù)據(jù)(如果存在于PDF中)。
TETML表示作為XML的PDF內(nèi)容
TET可選地表示稱為TETML的XML風格中的PDF內(nèi)容。它包含各種各樣的PDF信息,可以很容易地使用常用的XML工具進行處理。 TETML包含實際文本以及可選的字體和位置信息,資源詳細信息(字體,圖像,顏色空間)和元數(shù)據(jù)。
TETML還包括交互式元素,例如表單字段,注釋,書簽等。它甚至可以用于分析JavaScript或顏色空間細節(jié),ICC配置文件或輸出意圖。
TETML由相應的XML模式管理,以確保TET始終創(chuàng)建一致和可靠的XML輸出。 TETML可以用XSLT樣式表處理,例如。應用某些過濾器或?qū)ETML轉(zhuǎn)換為其他格式。用于處理TETML的樣本XSLT樣式表包括在TET分布中。
以下片段顯示具有字形詳細信息的TETML輸出:
PDFlib
TET連接器
TET連接器提供必要的粘合代碼來與其他軟件進行TET接口。以下TET連接器使PDF文本提取功能可用于各種軟件環(huán)境:
Lucene搜索引擎的TET連接器
Solr搜索服務器的TET連接器
TIKA工具包的TET連接器
Oracle Text的TET連接器
MediaWiki的TET連接器
TET PDF用于Microsoft產(chǎn)品的IFilter可作為單獨的產(chǎn)品提供。它從PDF文檔中提取文本和元數(shù)據(jù),并使其可用于在Windows上搜索和檢索軟件。
TET食譜
TET Cookbook是一個編程示例的集合,演示了TET對各種文本和圖像提取任務的使用。幾個Cookbook示例展示了如何結(jié)合TET和PDFlib + PDI產(chǎn)品,以增強PDF文檔,例如?;陧撁嫔系奈谋咎砑訒灮蜴溄?。
京ICP備09015132號-996 | 違法和不良信息舉報電話:4006561155
© Copyright 2000-2026 北京哲想軟件有限公司版權(quán)所有 | 地址:北京市海淀區(qū)西三環(huán)北路50號豪柏大廈C2座11層1105室
北京哲想軟件集團旗下網(wǎng)站:哲想軟件 | 哲想動畫