アクセスが増えるとスクレイピング対象となる

アクセス数が増えてくると色々な問題が出てきたりします。

まあ意図的な文の大半をコピーするようなことは本当に稀にしか起こっていませんが、機械的なスクレイピング対象となったりしているようです(スクレイピングについては後述)。悪質な著作権侵害とまではいかないのかもしれませんが、何だかそんなことをする輩の悪しき心を成敗してやったほうがいいと思うのでちらほらスパム通報などをしています。

というような感じなので覚書です。

数ヶ月前は、コメントスパムによってサーバー負荷が高まり表示速度が遅くなったりしていました(鬱陶しいコメントスパムを弾くためしばらく中国からはアクセス禁止です)。ユーザーさんとしても大迷惑ですね。

まあコメントスパムについては、中国等々からのアクセスをブロックしたので、激減どころかほとんど来なくなりました(連投した時に2件程度来ることがあります)。

今回のスクレイピング事件もおそらく中国人あたりの仕業だと思いますが、最終的には日本の業者サイトにリダイレクトされる形になっていました。日本国内にいる中国人が雇われてやっているのかもしれません。

スクレイピング

さて、スクレイピングの概要について少し触れておきますが、まあこれは簡単に言うと機械的にインターネット上の情報を収集して、収集した情報を組み合わせて「新しい情報もどき」のものを生成するというようなやつです。狭義にはシステム的に自動で行うことを指しますが、手動で切り貼りするのも一種のスクレイピングです。

まあこのスクレイピングを行う人達が何をしようとしているのかと言うと、ネット上から文字列を拾ってきてそれを組み合わせ、一見自然言語かのようにみえる文を生成して「ページ」を作ることで、サイト全体の評価を上げようとしたりしているという感じです。

今回発見したスパムサイトは、スクレイピングで生成したページから業者のサイトに転送されるようになっていました(くだらん処理をしても簡単に見抜けるぞスパマーよ)。

検索エンジンの検索結果には出るのですが、クリックしてみると業者サイトに自動転送されるようにしてあるという感じです。

これはつまり色々なサイトからのパクリ文を組み合わせて一つのページのようなものを作り、検索エンジンにページへの評価を付けさせた後、その評価を転送先に送ろうというようなスパム手口です。

そして転送されるのだからスクレイピングの元となった著者たちにもばれないだろうというような魂胆です。

ざ・ん・ね・ん・で・し・た

今回スクレイピング対象となっていたものには比較的検索結果の上位になっている古い記事も含まれていたので、おそらくRSS系ではなく、検索結果からの収集だと思います。

リダイレクト先は同じ業者でしたが、スクレイピングサイトは複数ドメインで行われていたので、全てのドメインを把握した後、一気にスパム通報しておきました。

まあそういうスパマーに限らず、広告収入目的でコンテンツ力向上のためにスクレイピングをしていくパクリアフィリエイターもいますから、そうした人たちはなるべく成敗してやろうと思います。

記事をパクっていくアフィリエイターたち

悪意に満ちたいたずら

Category:IT &Internet パソコンとか通信とか

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語のみ