自炊でつくる電子辞書

 自炊経験者であるなら自明に近いのですが、辞典・辞書を電子化するとセルフメードの電子辞書をつくれるんですね。その経験談を書いておきます。

 今回の自炊による電子辞書化の対象は次の二冊。めったに引くことがない辞典であります。
1)『小口偉一・堀一郎監修 宗教学辞典』(東京大学出版会)1985年
2)『倉石・折敷編 日中辞典 』(岩波書店)1989年

 なぜ、自炊するか?
古いし、あまり使わない。収蔵場所に困る。けれど処分するのは惜しいといういつもの理由に加えて、電子化すれば座右の書として生かせるというのもありますね。全文検索が可能なるのは最大のウリでしょう。これは前著でも強調したことです。

1)の自炊はけっこう覚悟がいります。
 箱に入っているしっかりとした作りの本で、6000円をはたいて新刊で買ったものなので。
ご覧のように長年の管理のずさんさか、箱にはシミが出ている状況。外箱は本体を日焼けなどから守るためなので、当然なのでしょうが。
 カバーはあっさりとした赤表紙です。それほど汚れはない(読んでない!


 自炊の常として、箱は諦めます。未練があればデジカメで上のように記念撮影もいいでしょう。
外箱のスキャンというのは、本の外形を保存するためには無意味ではないでしょうが、それは真の愛書家にお任せいたします。
 辞書全体で800頁です。これをCANON両面スキャンで取り込むのです。
所要時間は、裁断(自分は幾つかの理由でカッター派ですね)に4分弱。スキャンに15分でした。表紙だけをカラースキャンして、本体は白黒モードで取り込みます。重送は表紙で一回、本体部分で2回しか起きませんでした。
 重送とナナメ読みが自炊の最大の敵です。

 こうして出来た自家製電子辞書はpdf形式です。すでにOCRが済んでいます。もちろん検索可能です。
 98Mとファイルサイズは大きい。あとでAcrobatProで圧縮します。文書圧縮(v7以上のみで互換)すると35Mになりました。


2)の自炊は気楽です。
 古書店で特売で買ったからであります。原価は4430円ですが買値は1割程度でしたかね。出費が低いとゲンキンなもので、裁断してもあまり良心が痛まない。

 外箱はこんなものです。

 この辞書は、中日辞書としてはそれなりに権威のある辞書なんですよ。

カバーも丁寧な造りのビニール装丁です。

 ページ数は1249頁です。裁断は4分程度。ハンディサイズですが頁数があるので1)と時間は変わらず。
 スキャン時間は18分でした。すべて白黒でスキャンです。重送は3回だけでした。
ファイルサイズは149Mと大きいです。これもAcrobatの文書圧縮で59Mにダウンサイズしました。


 というわけで40分で自前の電子辞書が制作終了でした。
 特殊な分野の電子辞書は販売されていないか、あるいはあっても高めでしょう。本事例のように多少検索精度が落ちても電子化してしまえば、有効利用に道が拓かれるのです。もし検索精度を向上させたいのであれば、専用のOCRソフトを適用すればいいでしょう。



【参考書】自炊とOCR精度、全文検索の生かし方はこちらに書いてあります。ここで指摘しているように、OCRの文字認識精度の限界が検索の限界になるわけです。