OpenDataLoader PDF — CPUだけで毎秒100ページ、PDFをMarkdownに超高速変換するOSSツール

GPUなしで毎秒100ページ以上のPDF→Markdown変換を実現するオープンソースツール「OpenDataLoader PDF」が話題になっている。Apache 2.0ライセンスで完全無料、CPUのみで動作するため、高価なGPUハードウェアは不要だ。 OpenDataLoader PDF とは OpenDataLoader PDF は、PDFドキュメントをAI活用に適した構造化データ(Markdown、JSON、HTML等)に変換するオープンソースのパーサーだ。Java で実装されており、Python・Node.js・Java から利用できる。 主な特徴: 超高速処理: ローカルモードで 0.05秒/ページ(CPUのみ)、8コア以上のマシンでマルチプロセスバッチ処理すると毎秒100ページ以上 GPU不要: CPUだけで高速に動作するため、導入コストが低い 高精度: ベンチマークで総合精度0.90を達成し、読み順・テーブル・見出し抽出で1位 Apache 2.0ライセンス: 商用利用可能な完全オープンソース インストール Python パッケージは Java CLI のラッパーのため、Java 11以上とPython 3.10以上が必要だ。 1 2 3 4 5 # Python pip install -U opendataloader-pdf # Node.js npm install @opendataloader/pdf Java の場合は Maven で opendataloader-pdf-core を依存関係に追加する。 基本的な使い方 Python でのシンプルな変換 1 2 3 4 5 6 7 import opendataloader_pdf opendataloader_pdf.convert( input_path=["file1.pdf", "file2.pdf", "folder/"], output_dir="output/", format="markdown,json" ) フォルダを指定すれば一括変換も可能だ。出力形式は Markdown、JSON、HTML、プレーンテキスト、注釈付きPDFから選べる。 ...

2026年3月18日 · 1 分