« きょうのきょう(いよいよ抜くらしい) | トップページ | きょうのきょう(抜けました) »

2008年6月13日 (金)

ココログのミラー化

 ホームページ可搬化&ミラーリングの最期の難関、ココログのミラー化を検討。ミラー先にもブログ用のソフトがあれば移行できることになってはいるが、画像が移行できない。画像自体の移行も問題だが、リンクがココログのサーバを指したままだし簡単には移行できない。ソフトの維持管理も面倒なので、できればhtml化してミラーしたい。

RIMG4118a テキスト部分や、画像を直接貼り付けたものは自動巡回ソフトでhtml化して採取できるんだけど、ポップアップする形式で貼った画像は取れない。cgiを使っているらしい。以前のポップアップ画像は上の画像のように、ウインドウを開いてそのまま画像を表示しているだけだった。最近は下の画像のように上下左右のマージンを0にして表示している。Mdsc0457a_tnaこれはココログの仕様が変わったのが原因。今の表示方法の方がスマートで好きなんだが、cgiでスタイルシートと画像へのリンクを生成しているので、巡回ソフトでは画像まで届かないのが難点。
 結局、ココログの機能の「記事を書き出す(バックアップをとる)」でブログのダンプを取って画像へのリンクを旧形式に変換して別ブログに読み込ませてブログ自体を二重化した上で巡回ソフトで丸ごと取得と言う手順になった。めんどくさ。1回取るだけならまだしもデイリーに出来る作業ではない。

 画像はこれでok。万事解決!かと思ったら、記事内のリンクが二重化の時に変わっていたり、相対パスになっていなかったり、そのままでは使えない。がんばれば大半は自動化できそうなのだが、どうしても手作業で個別対応しないといけない点が残る。やはりデイリーにはやってられない。日々の増分も含めて一括でhtml化してくれるソフトはないものか。う~む。

<追記(メモ)>

 別ブログに読み込ませた時点で個々の記事とカテゴリページのファイル名(URL)が変わってしまう。id(name=に相当)も変わるのかどうかは不明。記事のファイル名は記事のタイトルから自動生成される模様。1ヶ月ごとに別ディレクトリに格納されるので、月内でユニークになるよう調整される。同名タイトルの記事が複数あると生成順に_1,_2と枝番が付くらしい。別ブログへ読み込ませる時は、日付順に読み込まれていくが、元ブログの記事を日付順に作成していない場合(バックデートで新しい日付の記事を先に作成した場合など)は枝番部分が入れ替わる。
 このため、ブログ内で別記事にリンクを張っていた場合、参照関係がめちゃめちゃになる。この確認・修正は一つ一つリンクを辿って確認するしかなさそう。(両ブログを巡回ソフトで取得して比較すると言う手もないではないけど...。)
 カテゴリページについては、全ユーザ間でユニークにしようとしている感があり、全く別のファイル名(実際にはディレクトリ名が異なりファイル名はindex.html固定)が割り当てられる。

 最大の問題は画像を表示する為に↓のようにcgi(何故かimage.htmlと言う名前になっているが)を使って表示している事。このcgiでは指定された画像ファイルへのリンクを含んだhtmlファイルを返してくる。
 http://ichi.txt-nifty.com/.shared/image.html?/photos/uncategorized/2008/06/09/mdsc0457a_tna.jpg
 巡回ソフトではcgiと認識せず、こういうURLの画像ファイルとして取得してくるので、DLされたファイルは拡張子がjpgなのに中にhtmlが書かれている。もう一段階リンクを辿って画像をDLしてくれる巡回ソフトがあればいいのだがねぇ。

|

« きょうのきょう(いよいよ抜くらしい) | トップページ | きょうのきょう(抜けました) »

コメント

記事を投入する用のcgiを用意して、html化された記事の生成とココログへの記事投入をやらせるとか?
今までの記事のhtml化処理は手作業で頑張る(笑)

投稿: じん@うち | 2008年6月14日 (土) 08時34分

 手作業で頑張り中ですわ。(^^ゞ
 うむ、プリプロセッサ方式もありか、なる。問題はココログの編集機能並みのエディタを自作しないといけない点だな。ぱくるか。(^_^;)

投稿: ichi | 2008年6月14日 (土) 14時16分

コメントを書く



(ウェブ上には掲載しません)




« きょうのきょう(いよいよ抜くらしい) | トップページ | きょうのきょう(抜けました) »