2023年4月5日更新
本を自炊した時、PDFデータに変換したときなど「OCR」という言葉を耳にしたことはありませんか?
「OCRってなんだろう」という方の為に、OCRの意味や、メリット・デメリットについてお話します。
Optical Character Recognitionの略で、直訳すると「光学文字認識」になります。
OCRとは手書きや印刷されたテキスト部分を認識し、文字データに変換して出力するソフトのことです。
多くの場合は、書籍や書類などのスキャン後にOCR専用ソフトを使用してOCR処理を行います。
OCRの歴史は意外と古く、世界的には1900年前後から文字認識技術の開発が本格的に始まり、
1950年頃には印刷された文字を読み取るOCRの製品化が始まっています。
日本では1968年に郵便事業の自動化の一環で、手書きの郵便番号の読み取りに初めて利用されました。
現在のOCRは認識精度も向上しており、ペーパーレスやDXの風潮と合わせて「業務削減の効果があるツール」として注目されています。
OCR処理を行うことで…
自炊(スキャン)されたPDFデータのテキストが文字データとなります。
OCR処理を行わないと…
自炊(スキャン)されたPDFデータの文字がただの画像データのままとなります。
ここがOCR処理の大きな違いとなります。
年々精度の向上を続けている「OCR」ですが、取り入れる上でのメリットとデメリットをご紹介します。
OCR処理をすることでの一番のメリットは、スキャン後のデータに対して「検索」が出来るようになることです。
「あの特集ページって何ページ目だったっけ?」
「この単語の意味を調べたいけど何ページがわからない」
「先週仕入れた商品の伝票を探したいけど、伝票数が多過ぎる」
など、あのページを見たいのにすぐに発見できないというときに、検索で知りたいワードを入力することによって、簡単にそのページへ移動することができます。
特定のワードを紙の書籍や書類で探したいときは、目次や索引がない限り1ページずつ目視で探す方法しかありません。
紙媒体を自炊(電子化)してOCR処理をすることによって「検索」という電子データならではの探し方が可能となります。
OCR処理をすることでのもうひとつのメリットは、
自炊(スキャン)後のPDFデータから 「コピペ」が出来るようになることです。
「問題集を自分用にまとめ直したい」
「同じような書類を作成しないといけないけど、全て入力すると大変」
などの時に、WordやExcelにコピペが出来る非常に便利な機能となります。
※当社が提供しております「OCR処理」は検索を目的とした簡易なものとなっております。
例えば、アルファベットの「O」と数字の「0」、カタカナの「タ」と漢字の「夕」などが誤認識しやすい文字となります。
自炊(スキャン)されたPDFデータをOCR処理することで、データ内を自由に検索することができ、
おまけに自分仕様に要約などを簡単にコピペでまとめることが出来るなんて、いい事ばかりですね。
そんな便利なOCRですが、使用するにあたって知っておいた方がいいデメリットもあります。
OCR処理は画像から文字を読み取る技術のためいずれも完璧ではありません。
判別の難しい文字や特殊なフォント、文字がかすれている、手書き文字、古い書籍や書類など
人の目でも読みづらい・見づらいと感じるものはOCRの精度にも同じように反映されます。
「検索に引っかからない」、「コピーした文字とは違う文字がペーストされている」などが起きる可能性がありますので、
「文字認識は完璧ではない」ということをあらかじめ覚えておきましょう。
そういったデメリット部分をカバーするために、最近では「AI-OCR」というOCRにAI技術を加えたものも活用され出しており、読み取りの精度が99%といったようなOCRソフトもあります。
判別の難しい文字や手書き文字などはAI-OCRを使用することをおすすめします。
AI-OCRも時代に沿ってどんどん活用の領域が広がっていくことは間違いありません。
OCRを無料で利用したい人にはおすすめのソフトです。
Google Chromeの拡張機能としても使用できるため、Mac、Windows問わず利用ができ、利便性の高いフリーソフトとなっています。
OCRだけでなくPDFデータの圧縮や結合、編集なども無料で出来るので、自分好みにカスタマイズしたい方にはおすすめです。
ダウンロードはこちら
GoogleドライブにOCR処理をしたい画像、またはPDFデータをアップロードし
Googleドライブ上でGoogleドキュメントを開くことでOCRによりテキスト出力されます。
最近では授業でノートを書かずに、板書の写真を撮っている人も多いのだとか。
文字認識の精度はこちらも完璧ではありませんが、私たちの身近なGoogleのサービスで、無料で板書写真もテキスト出力ができるのはありがたいですね。
Googleドライブについてはこちら
パナソニック製で市販OCRソフトの中でもよく見かけるソフトとなります。
機能が充実しており、初めてOCRソフトを個人で利用する方から業務で利用される方まで、幅広い層の方が利用しています。
高精度で縦書き、横書き、画像などが混在した原稿でも、レイアウトを保ってOCR処理できるとのことで、人気の有料ソフトです。
読取革命についてはこちら
OCRの基本的なことからおすすめソフトまでお話しました。
機能や精度を理解することで、より便利に使用することが出来ます。
OCR処理を行うことで、自炊(スキャン)されたPDFデータのテキストが文字データとなり、
OCR処理を行わないと、自炊(スキャン)されたPDFデータの文字はただの画像データのままとなります。
ここがOCR処理をするしないでの大きな違いとなります。
電シカ君にもスキャン後のPDFデータをOCR処理する「文字読み取りスキャニングサービス」があります。
現在、OCR処理を無料で付けさせていただく『OCR無料キャンペーン』を実施中です!
スキャニングサービスに加えて、オプションの「ファイル名変更」、「表紙のみスキャニング」、
「カバーのみスキャニング」、「どちらかおまかせ 表紙・カバースキャニング」、「カバー+帯スキャニング」のいずれかを付けて頂くことでキャンペーンが適応されます。
※当社のOCRは検索を目的とした簡易なものとなります。
テキスト化(コピペ)の精度は低くなっておりますので、ご了承ください。
同人誌や専門誌にオススメ!
本の背表紙を測って送るだけの薄い本に特化した自炊代行サービス『デンシカーナ』はこちら↓