OCRの行の間から見る段落検出についてその４

補足

他のやり方

一応、他に思いつくOCRの情報を使った方法として

フォントサイズを基に段落を検出
インデントおよび折り返し位置を基に段落を検出

フォントサイズは見出し等がフォントサイズが大きくなりがちなので、それは段落としてみなせるでしょうみたいなアイデア。段落ごとにフォントサイズが異なる場合も生きる気がする。

インデントと折り返し位置は、段落の先頭はインデントが挿入されるし、段落の末尾は右端まで行かずに折り返されるのでそられの情報から段落境界をを検出するアイデア。

行間の使い道

行間が極端に狭い場合は段落とみなしてよいと私は考えています。

感覚的にある程度行間が狭いと「さすがにこれは同一段落だろう」と思うようなところはあると思っていて、0だとかマイナスってのはそのさすがにに相当すると考えています。具体的にどのくらいまでとか考えるとややこしくなるとは思いますが…。

以下のページに画像の膨張処理で段落を検出する話があるんですが、感覚的には似たような話かなぁと思ってます。

How to detect paragraphs in a text document image for a non-consistent text structure in Python OpenCV

複数のスタイルに対応できたとして

下図みたいな文章があった場合、複数のスタイルに対応できれば

1. Aaq...

2. Aaq...

3. Aaq...

ごとに段落境界を検出する。

ただ、これが箇条書きであれば不完全な識別だと言えるし、それぞれに境界が欲しくなる。

とは言え、それは本質的には文章から箇条書きを抜き出すような別タスクで、空間的な距離だけをもとに識別する方法の外の話になるだろう。

ぬるっぽさんちのPCOT

PCOTの実装は掲示板を見るとそれとなく書いてあるので探してみると良いです。しきい値との兼ね合いが分からないんですが、どうやら行送りの最頻値もしくは最小値を使っているみたいです。

最小値？ってなるかも知れませんが使ってみると良い感じなんですよね。

基本的に文章段落は単一のスタイルに統一されている
箇条書きは文章より行間が広いことが多い

って感じで結果的に文章の行送りが最小値になってることがままあるので、文章は同一段落になって箇条書きは分離みたいなことがありました。実践的な感じがします。

ちなみに動作確認していた際に、「嘘っ、これも分離できるの？すごくない？」みたいなことがあって感心していたんですが、行末改行文字（。(句点）.（ピリオド）など)による判定だったんですよね。

前回みたいに変に捏ねくり回すよりもそうしたそれぞれ別のタスクの組み合わせでRISC的に積み重ねた方がうまくいくんじゃないかと感じました。

メカ馬

このブログを検索