<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Scrapy on hdknr blog</title><link>https://hdknr.github.io/blogs/tags/scrapy/</link><description>Recent content in Scrapy on hdknr blog</description><generator>Hugo -- 0.157.0</generator><language>ja</language><lastBuildDate>Sat, 02 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://hdknr.github.io/blogs/tags/scrapy/index.xml" rel="self" type="application/rss+xml"/><item><title>Scrapling — BeautifulSoup比784倍速い適応型Webスクレイピング・Cloudflare突破・MCP対応まとめ</title><link>https://hdknr.github.io/blogs/posts/2026/05/scrapling-adaptive-web-scraping/</link><pubDate>Sat, 02 May 2026 00:00:00 +0000</pubDate><guid>https://hdknr.github.io/blogs/posts/2026/05/scrapling-adaptive-web-scraping/</guid><description>&lt;p&gt;Webスクレイピングの定番ライブラリといえば BeautifulSoup だが、それを最大784倍上回るパフォーマンスを持つ Python フレームワーク &lt;strong&gt;Scrapling&lt;/strong&gt; が注目を集めている。GitHub スター数は約47,000（2026年5月時点）に達する。Cloudflare Turnstile 突破やサイト構造変化への自動適応など、現代のWebスクレイピング課題を一手に解決するのが特徴だ。&lt;/p&gt;
&lt;h2 id="scrapling-とは"&gt;Scrapling とは&lt;/h2&gt;
&lt;p&gt;&lt;a href="https://github.com/D4Vinci/Scrapling"&gt;Scrapling&lt;/a&gt; は Karim Shoair（D4Vinci）が開発した適応型Webスクレイピングフレームワークだ。単発リクエストからフルスケールクローリングまでをカバーし、以下の3つを柱とする。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Adaptive Scraping&lt;/strong&gt;: サイトのデザインが変わっても対象要素を自動的に再探索&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Anti-bot Bypass&lt;/strong&gt;: Cloudflare Turnstile 等のアンチボットを標準でバイパス&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Spider Framework&lt;/strong&gt;: Scrapy ライクな Spider API で並列クロールをスケールアウト&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id="パフォーマンスベンチマーク"&gt;パフォーマンスベンチマーク&lt;/h2&gt;
&lt;p&gt;5,000 個のネスト要素に対するテキスト抽出速度（100回平均）。出典: &lt;a href="https://github.com/D4Vinci/Scrapling#performance-benchmarks"&gt;公式 README ベンチマーク&lt;/a&gt;：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;ライブラリ&lt;/th&gt;
&lt;th style="text-align: center"&gt;処理時間（ms）&lt;/th&gt;
&lt;th style="text-align: center"&gt;Scrapling比&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Scrapling&lt;/strong&gt;&lt;/td&gt;
&lt;td style="text-align: center"&gt;2.02&lt;/td&gt;
&lt;td style="text-align: center"&gt;1.0x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Parsel/Scrapy&lt;/td&gt;
&lt;td style="text-align: center"&gt;2.04&lt;/td&gt;
&lt;td style="text-align: center"&gt;1.01x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Raw Lxml&lt;/td&gt;
&lt;td style="text-align: center"&gt;2.54&lt;/td&gt;
&lt;td style="text-align: center"&gt;1.26x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;PyQuery&lt;/td&gt;
&lt;td style="text-align: center"&gt;24.17&lt;/td&gt;
&lt;td style="text-align: center"&gt;~12x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Selectolax&lt;/td&gt;
&lt;td style="text-align: center"&gt;82.63&lt;/td&gt;
&lt;td style="text-align: center"&gt;~41x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;MechanicalSoup&lt;/td&gt;
&lt;td style="text-align: center"&gt;1549.71&lt;/td&gt;
&lt;td style="text-align: center"&gt;~767x&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;BS4 with Lxml&lt;/td&gt;
&lt;td style="text-align: center"&gt;1584.31&lt;/td&gt;
&lt;td style="text-align: center"&gt;&lt;strong&gt;~784x&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;BS4 with html5lib&lt;/td&gt;
&lt;td style="text-align: center"&gt;3391.91&lt;/td&gt;
&lt;td style="text-align: center"&gt;~1679x&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;公式ドキュメントで強調されている「BeautifulSoup 比 784 倍」はこのベンチマークに基づいている。&lt;/p&gt;</description></item></channel></rss>