OCRの誤認識・二ニ

漢数字の「二」とカタカナの「ニ」はよく間違えられるが、特に漢字片仮名交じり文をOCRに掛けた場合には、カタカナの「ニ」は殆ど漢数字にされてしまう。これを一括で修正したい。

使い慣れたsedの形式。


s/二\([関關對対供]\)\([シスセ]\)/ニ\1\2/g
s/\([故共直曩]\)二/\1ニ/g
s/二\([及就依於副]\)/ニ\1/g
「二則」は「ニ則ッテ」が「第二則」のようなものかを判断せねばならないが、

s/\([^第]\)二則/\1ニ則/g
でいいかなぁ。