<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: EventMachineを使ったクローラの書き方の足がかり</title>
	<atom:link href="http://blog.masuidrive.jp/index.php/2008/08/07/how-to-write-spider-using-eventmachine/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.masuidrive.jp/index.php/2008/08/07/how-to-write-spider-using-eventmachine/</link>
	<description>life with open sources.</description>
	<lastBuildDate>Thu, 02 Sep 2010 16:09:14 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
	<item>
		<title>By: maimuzo</title>
		<link>http://blog.masuidrive.jp/index.php/2008/08/07/how-to-write-spider-using-eventmachine/comment-page-1/#comment-679</link>
		<dc:creator>maimuzo</dc:creator>
		<pubDate>Thu, 14 Aug 2008 08:30:55 +0000</pubDate>
		<guid isPermaLink="false">http://blog.masuidrive.jp/?p=126#comment-679</guid>
		<description>skynetはgoogleのMapReduceをrubyで実装したgemです。
http://skynet.rubyforge.org/
ただ、どうもコードをマップするのではなく、データをマップするようなので、あらかじめコードをワーカに配置しておかなければならないようですけどね。(よく理解してないんですけどね^^)
EC2などで必要なときだけインスタンス立ち上げて、マップでクロール対象URLを蒔いて、結果を集計すれば個人でも計算可能量がものすごく増加すると思うので使ってみたいのですが、どういう風に使えばいいのかイマイチピンとこないのです。
ググると日本語ではこれぐらいしか出てこないので困っています。　
http://www.moongift.jp/2008/06/skynet/
http://www.infoq.com/jp/news/2008/02/ruby-mapreduce-skynet
GEM_HOMEの中のexampleが一番参考になりそうですが、読み解くのに時間がかかりそうです…　</description>
		<content:encoded><![CDATA[							<p>skynetはgoogleのMapReduceをrubyで実装したgemです。<br />
							<a href="http://skynet.rubyforge.org/" rel="nofollow">http://skynet.rubyforge.org/</a><br />
							ただ、どうもコードをマップするのではなく、データをマップするようなので、あらかじめコードをワーカに配置しておかなければならないようですけどね。(よく理解してないんですけどね^^)<br />
							EC2などで必要なときだけインスタンス立ち上げて、マップでクロール対象URLを蒔いて、結果を集計すれば個人でも計算可能量がものすごく増加すると思うので使ってみたいのですが、どういう風に使えばいいのかイマイチピンとこないのです。<br />
							ググると日本語ではこれぐらいしか出てこないので困っています。　<br />
							<a href="http://www.moongift.jp/2008/06/skynet/" rel="nofollow">http://www.moongift.jp/2008/06/skynet/</a><br />
							<a href="http://www.infoq.com/jp/news/2008/02/ruby-mapreduce-skynet" rel="nofollow">http://www.infoq.com/jp/news/2008/02/ruby-mapreduce-skynet</a><br />
							GEM_HOMEの中のexampleが一番参考になりそうですが、読み解くのに時間がかかりそうです…　</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: masuidrive</title>
		<link>http://blog.masuidrive.jp/index.php/2008/08/07/how-to-write-spider-using-eventmachine/comment-page-1/#comment-678</link>
		<dc:creator>masuidrive</dc:creator>
		<pubDate>Wed, 13 Aug 2008 03:41:47 +0000</pubDate>
		<guid isPermaLink="false">http://blog.masuidrive.jp/?p=126#comment-678</guid>
		<description>そうですね。うちは別ポートでキューにURLを突っ込めるようにしたいなと思ってます。
HTMLのパースなら、Hpricotあたりが有名だと思います。

skynetってなんですか？</description>
		<content:encoded><![CDATA[							<p>そうですね。うちは別ポートでキューにURLを突っ込めるようにしたいなと思ってます。<br />
							HTMLのパースなら、Hpricotあたりが有名だと思います。</p>
							<p>skynetってなんですか？</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: maimuzo</title>
		<link>http://blog.masuidrive.jp/index.php/2008/08/07/how-to-write-spider-using-eventmachine/comment-page-1/#comment-677</link>
		<dc:creator>maimuzo</dc:creator>
		<pubDate>Wed, 13 Aug 2008 03:32:34 +0000</pubDate>
		<guid isPermaLink="false">http://blog.masuidrive.jp/?p=126#comment-677</guid>
		<description>自分もクローラーを使いたくて調べてた所だったのでとても参考になりました。
これって、最大クライアント数(CONCURRENCY)までHTTPリクエストを並列実行する部分のソースですよね。
こんなに簡単にできるんだ。
TARGET_URLをキューから持ってくるようにして、resultのパースを自分で書けば(ここも便利なgemとかあるんだろうか)、比較的簡単にできそうな気がしてきました。
skynetと絡ませたら面白そうですね。</description>
		<content:encoded><![CDATA[							<p>自分もクローラーを使いたくて調べてた所だったのでとても参考になりました。<br />
							これって、最大クライアント数(CONCURRENCY)までHTTPリクエストを並列実行する部分のソースですよね。<br />
							こんなに簡単にできるんだ。<br />
							TARGET_URLをキューから持ってくるようにして、resultのパースを自分で書けば(ここも便利なgemとかあるんだろうか)、比較的簡単にできそうな気がしてきました。<br />
							skynetと絡ませたら面白そうですね。</p>
]]></content:encoded>
	</item>
</channel>
</rss>
