VAddyに登録したドメインをクロールした際に、特定のURLやファイルをクロールから除外したい場合、例えば example.com/foo/barや/css/以下の.cssファイルを除外したい場合にPACファイルを利用すると柔軟にProxyを通すか通さないかをコントロールできます。
こちらはhttps(SSL/TLS)のサイトの場合は、Firefoxのみ対応となる機能です。Chromeの場合はhttpサイトのみが対応しています。
下記ような内容で example.pac というファイル名で保存します。
この設定では、/foo/bar.cssや/foo/bar.jpgなどのURLがProxyを通らないためクロールに記録されません。また/foo/bar.css?12345のようにパラメータ付きのものもクロールに記録されません。
記述のwww1.example.comは検査対象のサーバのドメイン(FQDN)に変更してご利用ください。FQDNが1つだけの場合は、www2.example.comの1行を消してご利用ください。
PROXY 54.92.84.100:28888という箇所のポート番号28888は実際にVAddyのProxyCrawlingメニューに表示されているポート番号をご指定ください。
function FindProxyForURL(url, host)
{
if (shExpMatch(url,"*.(jpg|jpeg|png|gif|css|js|ico|svg)")) {
return "DIRECT";
}
if (shExpMatch(url,'*.(jpg|jpeg|png|gif|css|js|ico|svg)\?*')) {
return "DIRECT";
}
if(shExpMatch(host,"www1.example.com")
|| shExpMatch(host,"www2.example.com")
)
{
return "PROXY 54.92.84.100:28888";
}
else
return "DIRECT";
}
このファイルをアクセスできる任意のWebサーバに置いてください(FirefoxのみローカルファイルにPACファイルを作成して読み込み可能です)。このファイルのURLを、ブラウザのProxy設定画面の「自動プロキシ設定用URL」の箇所に入れてください。次の画面キャプチャはfirefoxでの入力例です。
HTTPSの場合の注意点
クロールしないURLがhttpの場合は問題ありませんが、httpsの場合はPACファイルの
function FindProxyForURL(url, host)
のurlという変数にURLパスやパラメータが入らないため、.cssをクロールから除外するなどの処理ができなくなります。
Firefoxの場合は、ブラウザのURLバーに about:config と入力して高度な設定画面に遷移し、
network.proxy.autoconfig_url.include_path
という項目を trueにするとhttpsの場合でも動作するようになります。
Chromeの最近のバージョンでは設定ファイルでの変更が不可になったため、httpsが対象の場合はこの記事の方法が利用できません。
ローカルファイルのPACファイルを利用する場合
Firefox限定となりますがローカルPCにPACファイルを作成して読み込む場合は、pacファイルのURL設定の欄に「 file:// 」から始まる形でファイルを指定してください。
例えばwindowsの場合、cドライブのfooディレクトリにproxy.pacというファイルを置き、「 file://c:/foo/proxy.pac 」と指定。
Macの場合は、ホームディレクトリ(ユーザ名はfooとする)にproxy.pacを置き、「 file:///Users/foo/proxy.pac 」と指定。
PACファイルを設置するサーバがない場合
もしPACファイルを設置するWebサーバがない場合は、GitHubが提供しているgistなどのサービスをご検討ください。
例としてこのようにgistにPACファイルの内容を記載して登録します。
https://gist.github.com/ichikaway/87d194cbd7c7b00e3264e6da435b5a27
このURLにアクセスした先で、"RAW"ボタンを押すと
https://gist.githubusercontent.com/ichikaway/87d194cbd7c7b00e3264e6da435b5a27/raw/fcceb472bb2e8ca23937391c2df2518ca909af58/example.pac
のようなURLでアクセスできますので、これがPACファイルのURLになります。
ご自身でgistに登録し、RAWボタンを押したURLをブラウザのProxy設定の自動プロキシ設定スクリプトURL欄にご入力ください。