« 雑誌IPにWikipedia収録 | トップページ | 出張の供には »

2008/05/24

ウィキペディア日本語版、LXで再び

WindowsPCで、
cygwin
をインストールしておきます。
perl, make, zip をsetup中で指定しておきます。

http://ikazuhiro.g.ribbon.to/dic/dic.html#FREEPWING
からfreepwing-1.4.4+20071226.tar.gzをダウンロード。
ダウンロードしたものは、WindowsXPなら、たとえばC:\cygwin\home\[ユーザー]\あたりに置きます。
VistaならC:\USER\[ユーザー]\あたりでしょうか。

$ tar zxvf freepwing-1.4.4+20071226.tar.gz
$ cd freepwing-1.4.4+20071226
$ ./configure
$ make
$ make install
$ cd

http://ikazuhiro.g.ribbon.to/dic/wikipedia-fpw.html
からwikipedia-fpw-20071202-src.tar.gzをダウンロード。

$ tar zxvf wikipedia-fpw-20071202-src.tar.gz


http://download.wikimedia.org/jawiki/latest/
から、jawiki-latest-pages-articles.xml.bz2をダウンロード。

$ bzip2 -d jawiki-latest-pages-articles.xml.bz2

$ mv jawiki-latest-pages-articles.xml wikipedia-fpw-20071202/wikipedia.xml

$ cd wikipedia-fpw-20071202

wikipedia-fpw.confを編集して,
'enable_reference' => 0,
相互参照を無効にします。(容量削減のため)

$ fpwmake

で、HONMON生成です。
VAIO typeGで5時間50分ほどかかりました。変換中に、Entryは941857までカウントされ、順次変換が行われました。

HONMONのファイルサイズは、1,651,722,240bytesでした。
相互参照をなくしても、ファイルサイズはあまり削減できないようです。

Lxwkp5

これなら、IP誌6月号を入手するのがおすすめかな。

前回は古いバージョンを使ってしまったためきちんと全てのエントリを処理できていなかったのでしょう。自宅のPCで、最新のWikipediaのオフライン版を(ダウンロード時間含めて)6時間あまりで作成できる環境が整ったのは収穫でした。

|

« 雑誌IPにWikipedia収録 | トップページ | 出張の供には »

コメント

Transcendの4GB SDを入手して、LXに作り直したWikipedia1.7GB(相互参照付き)を入れ、無事に使えるようになりました!
いつも情報ありがとうございますhappy01

投稿: パドラッパ | 2008/06/07 08:02

突然で申し訳ないですが教えてください。
上記の記事で「IP誌6月号のほうがいい」と
書かれていますが、自作したものと雑誌に
添付されているものとは、なにがどう違うのでしょうか?

投稿: a-murata | 2008/09/17 21:50

a-murataさん、こんばんは。

雑誌IPでは相互参照をオンにして生成しているので、相互参照をオフにして生成したらファイルサイズが小さくならないかの実験をしたけれどさほど小さくならなかった、というのがこのエントリの趣旨です。

このエントリは、前のエントリ雑誌IPにWikipedia収録の末尾の、「ファイルサイズがどうにも大きいのが困りどころです。」を受けて書かれています。また、ウィキペディア日本語版をhp200LXで使うで古いバージョンのツールだと辞書生成結果が途中までしかできずファイルサイズも異常に小さかったため、最新のツールで生成しなおしてみたという意味もあります。

雑誌IPと同じものを自作することもできるので、自作と雑誌IPが違うというわけではありません。

相互参照は、辞書本文の途中にあるキーワードからのリンクを作るかどうかということです。相互参照をオフにしても、ファイルサイズはさほど小さくならないし、相互参照をオンにしても辞書ファイルは正常できることが確認できたので、相互参照をオンにして生成した方が読み物として楽しめるからいいよね、それだったら、このエントリの時点では、雑誌IPのデータはそれほど古くなっていないので、手間も時間もかからないし、一般的に他人にすすめられるよね、という意味です。

なお、ぼく自身は、雑誌IPの辞書ではなく、自作したものを使っています。

そういえば、しばらく更新していないから、また最新のデータで作り直さなきゃ…。

投稿: あやち | 2008/09/17 22:39

さっそくのお返事に感謝いたします。
そうかそういうことでしたか。
実は私も最新のツール類で作成してみたのですが、
リンク(語句の横についているあれ)がないし、
なんでかなと思っていたのです。相互参照は
オフにしたので、これがつかない状態に
なっているのですね。理解できました。
もう一度相互参照オンで作ってみます。

ご丁寧なお返事、ありがとうございました。

投稿: a-murata | 2008/09/17 22:47

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/69188/41293497

この記事へのトラックバック一覧です: ウィキペディア日本語版、LXで再び:

» 200LXに4GB SDが使えています! [パドラッパ]
いまさら…かも知れませんが、ついに4GBのSDを入手することができました。 上海 [続きを読む]

受信: 2008/06/07 08:31

« 雑誌IPにWikipedia収録 | トップページ | 出張の供には »