講談社日本人名大辞典を入手してEPWING互換形式に変換

CD未開封な講談社日本人名大辞典の古本が安くあったので買ってみました。65000人収録の巨大な人名辞典です。項目ごとの解説はさほど長いわけではありませんが、時代と職業、経歴と代表的な仕事などと、要を得た解説になっていると思います。

講談社日本人名大辞典は辞書関連ソフトのページEPWING互換の形式に変換するプログラムが公開されているのを見て知った本です。もっとも普及した電子辞書のフォーマットであるEPWING形式に変換して、いろいろな辞書とまとめて検索できるから買ってみたわけですね。

書籍/CD-ROMは2001年の物で、最新版は有料辞書サービスのJapanKnowledgeで提供・メンテされているらしいのですが、とりあえず手元にあると安心だし、古くなったらそれはそれで資料価値もあろうかと。

でまあ、jinmei02.lzh のツールを用いて変換テキストを生成しようとしてみたのですが。途中で「実行時エラー380 プロパティの値が不正です」が出て落ちてしまいます。環境の問題だろうかと他のPCで試してみたのですが、同様にうまくいかない。

しかたないので元のデータを眺めてみると、一人一ファイルのHTMLとなっておりました。なるほど、これから抽出してEBStudioへの入力用のデータを作成している様子。エラーで終了するまでに書き出されたテキストを見ますと、人名については \DAT\DTL\9900\ の数ファイルを残して成功していたようでした。

それならばと、手作業で追加・修正してみました。IDをファイル名から取ってつけて本文と読みをコピーして適切な形式に入れるだけです。

そのあとは ebstemp.txtを元に

InPath=入力元パス
OutPath=出力先パス

を追加して.ebsファイルを作成。EBStudioで変換すると。

カラー図版…done
図版総数=(2217)個
音声総数=(0)個
前方一致表記インデックス…(74252)個
後方一致表記インデックス…(74252)個
前方一致仮名インデックス…(74071)個
後方一致仮名インデックス…(74071)個
外字(8x16)…(253)個 done
外字(16x16)…(416)個 done
アンカー総数…(74254)個
リンク総数…(59253)個

となり、正常に検索利用できるようになりました。

まだ記念館のデータを変換してませんが、どうせ使わないだろうから、とりあえず放置しときます。


この記事へのトラックバックURL:

http://drupal.cre.jp/trackback/2164


この記事をブックマーク

人気コンテンツ