国产精品久久久久久2021,日韩精品无码av中文无码版,亚洲精品久久久午夜麻豆,无码成人精品日本动漫纯h

010-68421378
產(chǎn)品分類
AddFlow  AmCharts JavaScript Stock Chart AmCharts 4: Charts Aspose.Total for Java Altova SchemaAgent Altova DatabaseSpy Altova MobileTogether Altova UModel  Altova MapForce Altova MapForce Server Altova Authentic Aspose.Total for .NET Altova RaptorXML Server ComponentOne Ultimate Chart FX for SharePoint Chart FX CodeCharge Studio ComponentOne Enterprise combit Report Server Controls for Visual C++ MFC Chart Pro for Visual C ++ MFC DbVisualizer version 12.1 DemoCharge DXperience Subscription .NET DevExpress Universal Subscription Essential Studio for ASP.NET MVC FusionCharts Suite XT FusionCharts for Flex  FusionExport V2.0 GrapeCity TX Text Control .NET for WPF GrapeCity Spread Studio Highcharts Gantt Highcharts 10.0 版 HelpNDoc Infragistics Ultimate  ImageKit9 ActiveX ImageKit.NET JetBrains--Fleet JetBrains-DataSpell JetBrains--DataGrip jQuery EasyUI jChart FX Plus OPC DA .NET Server Toolkit  OSS ASN.1/C Oxygen XML Author  OSS 4G NAS/C, C++ Encoder Decoder Library OSS ASN.1 Tools for C with 4G S1/X2 OSS ASN.1/C# OSS ASN.1/C++ OPC HDA .NET Server Toolkit OPC DA .Net Client Development Component PowerBuilder redgate NET Developer Bundle Report Control for Visual C++ MFC  Sencha Test SPC Control Chart Tools for .Net Stimulsoft Reports.PHP Stimulsoft Reports.JS Stimulsoft Reports.Java Stimulsoft Reports. Ultimate Stimulsoft Reports.Wpf Stimulsoft Reports.Silverlight SlickEdit Source Insight Software Verify .Net Coverage Validator Toolkit Pro for VisualC++MFC TeeChart .NET Telerik DevCraft Complete Altova XMLSpy Zend Server

PDFlib TET

TET 5 

PDFlib GmbH發(fā)布了新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之后逐漸改名為»文本和圖像提取工具包«,在圖像提取方面得到明顯提升。

TET檢索文本、圖像、PDF文檔中的元數(shù)據(jù)和其他信息。以下是全新或顯著改善的五大特性:

· 文本檢索:

檢索文本的填充色和描邊色

改善布局檢測

 

· 圖像檢索

顯著增強分散圖像的合并

提取圖像蒙版和軟蒙版

 

· 頁面處理:

榮譽圖層和剪輯路徑

 

· TETML 內(nèi)容:

包括符號的填充色和描邊色、顏色空間和ICC文件配置細節(jié)

 

一些新的pCOS 偽對象

全新的PDFlib TETPDF IFilter 5 (企業(yè)版PDF搜索應用于窗口)版本現(xiàn)已可用。

 

 

PDFlib TET 5 - 特性
PDFlib文本和圖像提取工具包(TET)旨在從PDF文檔中提取文本和圖像,但也可用于從PDF檢索其他信息。
接受PDF輸入
TET支持所有相關(guān)的PDF輸入:
所有PDF版本到Acrobat DC,包括ISO 32000-1和-2
保護那些打開不需要密碼的PDF文檔

損壞的PDF文檔將被修復

世界的所有寫作系統(tǒng)

TET在世界上所有書寫系統(tǒng)中處理PDF文檔,并實現(xiàn)某些腳本所需的特殊處理:

拉丁語,希臘語和西里爾字母,包括脫音

阿拉伯語和希伯來語,包括從右到左和雙向文本的邏輯重新排序;阿拉伯語呈現(xiàn)形式的規(guī)范化

簡體和繁體中文,日語和韓語,無論編碼;水平和垂直文本

印度文字(無字形重排)

Unicode支持的所有其他語言和腳本

Unicode

由于PDF中的文本通常不以Unicode編碼,因此PDFlib TET將PDF文檔中的文本標準化為Unicode:

TET將所有文本內(nèi)容轉(zhuǎn)換為Unicode。在C和其他非Unicode感知語言中,文本以UTF-8或UTF-16格式返回,并作為具有Unicode功能的編程語言的本地字符串返回。

字符和其他多字符字形被分解為相應的Unicode字符序列。

沒有適當?shù)腢nicode映射的字形被識別,并被映射到可配置的替換字符,以避免誤解。

TET針對特定文檔創(chuàng)建包(例如InDesign和TeX文檔或在大型機系統(tǒng)上生成的PDF)的問題實施各種解決方法。

內(nèi)容分析和字檢測

TET包括專利內(nèi)容分析算法:

確定檢索正確單詞所需的單詞邊界

重組連字字的部分(去連字)

刪除重復的文字實例,例如陰影和人為粗體文本

按閱讀順序重新組合段落

正確排序散布在頁面上的文本

頁面布局和表檢測

分析頁面內(nèi)容以確定文本列。檢測表,包括跨越多個列的單元格。這改進了提取的文本的排序??梢詷俗R表行和每個表單元格的內(nèi)容。

幾何

TET提供了文本的精確度量,例如頁面上的位置,字形寬度和文本方向。頁面上的特定區(qū)域可以被排除或包括在文本提取中,例如。以忽略頁眉和頁腳或邊距。

文本顏色

TET分析PDF頁面描述中的顏色信息,并返回每個字形的精確顏色信息。這可以用于例如識別標題或其他突出顯示的文本。

圖像提取

PDF頁面上的圖像可以提取為TIFF,JPEG,JPEG 2000或JBIG2文件。針對每個圖像報告精確的幾何信息(位置,大小和角度)。分割的圖像被組合到較大的圖像以方便重新使用。由于不進行下采樣或顏色轉(zhuǎn)換,保證了圖像保真度。這確保了最高的圖像質(zhì)量。

PDF分析

TET庫包括用于查詢PDF文檔的詳細信息的pCOS接口,例如文檔信息和XMP元數(shù)據(jù),字體列表,頁面大小等等。

有問題的PDF的配置選項

TET包含各種PDF的特殊處理和解決方法,其中文本無法與其他產(chǎn)品正確提取。此外,它包括各種配置功能,以改善問題文檔的處理:

Unicode映射可以通過用戶提供的表來定制,用于將字符代碼或字形名稱映射到Unicode。

PDFlib FontReporter是一個用于分析PDF中的字體,編碼和字形的輔助工具。它作為Adobe Acrobat的插件。此插件可免費用于OS X / macOS和Windows。

分析嵌入字體以查找Unicode映射的其他提示。如果未嵌入字體,則使用外部字體文件或系統(tǒng)字體來提高文本提取結(jié)果。

Unicode后處理

TET支持各種Unicode后處理步驟,可用于改進提取的文本:

折疊保留,刪除或替換字符,例如。從不相關(guān)的腳本中刪除標點符號或字符。

分解用一個或多個其他字符的等效序列替換字符,例如。用其各自的標準對應物替換窄的,寬的或垂直的日語字符或拉丁上標變體。

文本可以轉(zhuǎn)換為所有四種Unicode標準化形式,例如。發(fā)射NFC表單以滿足Web文本或數(shù)據(jù)庫的要求。

文檔域

PDF文檔可能包含除頁面內(nèi)容之外的其他位置的文本。雖然大多數(shù)應用程序?qū)H處理頁面內(nèi)容,但在許多情況下,其他文檔域也可能是相關(guān)的。 TET從以下所有文檔域中提取文本:

頁面內(nèi)容

預定義和自定義文檔信息條目

文檔和圖像級別的XMP元數(shù)據(jù)

書簽

文件附件和PDF文件包可以遞歸處理

表單域

評論(注釋)

可查詢一般PDF屬性,如頁數(shù),符合PDF / A或PDF / X等標準。

XMP元數(shù)據(jù)

TET以多種方式支持XMP元數(shù)據(jù):

使用集成的pCOS接口,可以以編程方式提取文檔,單個頁面,圖像或文檔的其他部分的XMP元數(shù)據(jù)。

TETML輸出包含XMP文檔和圖像元數(shù)據(jù)(如果存在于PDF中)。

以TIFF或JPEG格式提取的圖像包含圖像元數(shù)據(jù)(如果存在于PDF中)。

TETML表示作為XML的PDF內(nèi)容

TET可選地表示稱為TETML的XML風格中的PDF內(nèi)容。它包含各種各樣的PDF信息,可以很容易地使用常用的XML工具進行處理。 TETML包含實際文本以及可選的字體和位置信息,資源詳細信息(字體,圖像,顏色空間)和元數(shù)據(jù)。

TETML還包括交互式元素,例如表單字段,注釋,書簽等。它甚至可以用于分析JavaScript或顏色空間細節(jié),ICC配置文件或輸出意圖。

TETML由相應的XML模式管理,以確保TET始終創(chuàng)建一致和可靠的XML輸出。 TETML可以用XSLT樣式表處理,例如。應用某些過濾器或?qū)ETML轉(zhuǎn)換為其他格式。用于處理TETML的樣本XSLT樣式表包括在TET分布中。

以下片段顯示具有字形詳細信息的TETML輸出:

 

PDFlib

TET連接器

TET連接器提供必要的粘合代碼來與其他軟件進行TET接口。以下TET連接器使PDF文本提取功能可用于各種軟件環(huán)境:

Lucene搜索引擎的TET連接器

Solr搜索服務器的TET連接器

TIKA工具包的TET連接器

Oracle Text的TET連接器

MediaWiki的TET連接器

TET PDF用于Microsoft產(chǎn)品的IFilter可作為單獨的產(chǎn)品提供。它從PDF文檔中提取文本和元數(shù)據(jù),并使其可用于在Windows上搜索和檢索軟件。

TET食譜

TET Cookbook是一個編程示例的集合,演示了TET對各種文本和圖像提取任務的使用。幾個Cookbook示例展示了如何結(jié)合TET和PDFlib + PDI產(chǎn)品,以增強PDF文檔,例如?;陧撁嫔系奈谋咎砑訒灮蜴溄?。

 

快速導航

                               

 京ICP備09015132號-996 | 違法和不良信息舉報電話:4006561155

                                   © Copyright 2000-2026 北京哲想軟件有限公司版權(quán)所有 | 地址:北京市海淀區(qū)西三環(huán)北路50號豪柏大廈C2座11層1105室

                         北京哲想軟件集團旗下網(wǎng)站:哲想軟件 | 哲想動畫

                            華滋生物