fc2ブログ
2019/01/16

Mac で OCR - Google ドキュメント が便利 -

文書のデジタル化が話題だった頃、印刷された文書をスキャナで取り込んで OCR 処理、テキスト原稿化する方法が取られていました。現在でもその需要はあるのですが、OCR自体が一般化してしまったせいか、かつてのように OCR専用アプリは見かけません。筆者も昔は使った記憶があるけれど、特に日本語はテキスト化精度の問題もあって多用はしませんでした。そう言うこともあって、私の Mac には OCRができるアプリはインストールされていません。

でも、OCR したい状況は確実にあります。昨年末、タイを旅行した際、主要な観光地にはタイ語と英語による案内板があり説明を読んでたわけですが、英語を読むのはやはり時間がかかる。それで帰国後にゆっくり読もうとパチリと写真に撮って残しました。たとえばこんな感じ。

TMH_IMG_3836.jpg

これが OCR でテキスト化できて、しかも翻訳できたら有り難い。。。

そう思ってググってみると、Google ドキュメントアプリに OCR機能があることがわかりました。

使い方は至って簡単。
1. OCRしたいテキスト入り画像を Google Drive と同期するフォルダーに保存
2. ブラウザで Google Drive を開いて、同期された画像ファイルを右クリックして 「アプリで開く/ Google ドキュメント」
※ Google Drive の設定で「アップロードしたファイルを変換する」にチェックを入れておく
3. しばらくすると Google ドキュメントが開いて、画像とともに OCRされたテキストが表示される
4. Google ドキュメントの設定で Google 翻訳をアドオンに入れておくと、翻訳も可能

OCRした結果は次の通り
『วัดสะพานหิน ตั้งอยู่บนเนินเขาที่มีความสูงประมาณ 500 เมตร ชื่อวัดเรียกตามลักษณะทางที่ปูลาดด้วยทินจากตีนเขาขึ้นไปเป็นระยะทางประมาณ 500 เมตร มีเจดีย์ทรงพุ่มข้าวบิณฑ์หรือ ทรงดอกบัวตูมขนาดเล็กตั้งอยู่ระหว่างทางเดินขึ้นเขานี้ด้วย โบราณสถานที่สําคัญบนยอดเขา คือพระพุทธรูปประทับยืนปางประทานอภัย ขนาดใหญ่ ประดิษฐานภายในวิหาร ซึ่งน่าจะตรง กับที่ศิลาจารึกหลักที่ 9 ของพ่อขุนรามคําแทง ที่กล่าวถึงเบื้องตะวันตกของเมืองสุโขทัยว่า “ในกลางอรัญญิก มีพิทารอันนึ่งมนใหญ่สูงงามแก่กม มีพระอัฏฐารศอันนึ่งลุกยืน..." และ น่าจะเป็นวัดที่พ่อขุนรามคําแทงทรงช้างเผือกชื่อ รูจาครี เพื่อไปนบพระในวัดนี้ทุกวันพระ ข้างขึ้นและแรม ๑๔ ค่ํา
WAT SAPHAN HIN
Situated on a mound 200 meters high, an ascent of 300 meters from the foot of the mound to the temple was paved with stone and this is how the temple got its name. Along the paved way there is a small lotus bud chedi. This temple is well known for a large standing Buddha image mentioned in the stone inscription No.1, "...In the heart of the forest Aranyik, there is a beautiful large vihāra, a Buddha image called Phra Attharot in standing posture..." Wat Saphan Hin is thought to be the temple to which King Ramkhamkaeng the great rode on a white elephant named Ruchakhari to worship a Buddha image every Buddhist sabbath.』

これは見事と言うしかありません。間違いは1文字もありませんでした。

英語部分を全選択してコピーし、アドオンの Google翻訳を開いて翻訳した結果が次。
『高さ200メートルの塚の上にあり、塚の足から寺まで300メートルの高さに石で舗装されていて、これが寺の名前の由来です。舗装された道に沿って小さな蓮のつぼみチェディがあります。この寺院は石の碑文No.1で言及されている大きな立っている仏像のためによく知られています、「... Aranyikの森の中心に、立つ姿勢でPhra Attharotと呼ばれる美しい大きなvihāra、仏像があります.. "ワットサパーンヒンは、ラムチャムケーン王がルチャカリという名の白い象に乗って大仏を安息日ごとに仏像を崇拝する寺院であると考えられています。』

一頃の機械翻訳は珍訳が多かったのですが、これは誤訳もなく普通に意味が通じます。(タイ語部分を翻訳してもほぼ同様の内容になったので、タイ語 OCR も間違いなく機能している)

英語 OCR の精度が高いのは当たり前、日本語はどうかというと・・・
試してみたのは YouTube の一画面のこの画像です。

TMH_スクリーンショット
結果は次の通り
『51. シーサチャナライ歴史公園 ヨム川の湿地やカオプラシー、カオ・ヤイ、カオスワンキリー、カ オ・パノムプルンの傾斜地は、居住地とするのに適しています。この辺り の住民がまだ仏教を信仰していた先史時代末期から、居住地があった証拠 が見つかっています。仏暦9世紀辺りから仏暦12世紀から16世紀に掛 けてのタワラワディー時代と、仏暦17世紀から18世紀のロッブリ時代 それに、その後も続いた社会の発展により、スコータイ時代の仏暦19世 紀頃、シーサチャナライの街が造られました。シーサチャナライはスコー タイ地域にある重要な街の一つで、碑文の仲にも、「シーサチャナライ、 スコータイ”といった形で、中心都市であったスコータイと共に、良く名 前が出てきます。シーサチャナライの街が栄えた大きな理由は、スコータ イ時代とアユタヤ時代に、当初は地域社会内で使用するために造っていた モノが、輸出するまでに発展した、サンカローク焼と言う、焼き物産業が 有ったことです。これにより当時の政府に大きな収入がもたらされました。 この経済面での重要性から、シーサチャナライは、後日、チェンチュー ン”と呼ばれていたランナーや、“サワンカローク”と呼ばれていたクル ンシー・アユタヤなど、他の列強に支配されるまでの、スコータイ時代、 位の高い人達から、直接統治されました。しかし、仏暦2112年(西暦 1569年)にクルンシー・アユタヤが、初めてビルマに敗北して以降、 シーサチャナライのサンカローク焼産業も終息し、シーサチャナライの街 も、単なる大きな街となりました。その後、仏暦2310年(西暦176 7年)に、アユタヤがビルマに二度目の敗北を喫した際、住民らが、家族 揃って、今のスコータイ県サワンカローク郡ワンマイコーン村周辺に避難 したため、シーサチャナライの街は、完全に見捨てられることになりまし た。芸術局は、歴史教育に意義のある遺跡や考古学的資源を持ち、現在の ラタナコーシン文化の元である、アユタヤ文化に影響を与えた、タイ芸術 の根本でもある、シーサチャナライの街が持つ価値と重要性を認識し、シ ーサチャナライの街を、国の重要な遺跡として、官報で告知することによ り、この街の保存に着手しました。その後、興味を持つ一般の人達に向け た、生涯学習の場とする為、修復や、歴史公園としての開発を行いました。 仏暦2533年(西暦1990年)、シリントーン王女が、シーサチャナ ライ歴史公園の正式な開所式を執り行われました。仏暦2534年(西暦 1991年)、シーサチャナライ歴史公園は、スコータイ歴史公園、カム ペンペット歴史公園と共に、ユネスコの世界遺産に登録されました。シー サチャナライ歴史公園は、シーサチャナライ町、サーンチット町、ノーン オ一町、ターチャイ町に跨っており、広さが約45.14平方キロメート ル、その中に、283カ所の遺跡が見つかっています。その内、これ までに、全体の約26%に当たる、74カ所が、発掘、 修復されています。重要な遺跡としては、ワット・チャーンローム、 ワット・チェディーチェットテオ、ワット・ナーンパヤー、ワット・プラ シーラタナマハタートチェーリアン、サンカロークの窯跡群、バーンパー ヤーンとバーン・コノーイのトゥリアン窯、それに、ワット・チョムチュ ーンの遺跡群などが有ります。
กรมศิลปากช Fine Arts Department

これもお見事!  一文字たりとも間違いがありませんでした。
ただ一点、改行部分がスペースに変わっているので、Googleドキュメントの中で「半角スペース」を削除(半角スペースを検索置換)すれはOKです。

Mac OS Mojave ではファインダーのフォルダから右クリックで iPhone などを起動して写真を取り込むことができます。この機能を使えば、印刷物を iPhone で撮影して保存し、Google ドキュメントで開いて OCR も簡単にできます。

ちなみに、iPhone の Google翻訳アプリでも同様のことがワンステップでできます。ある程度の長文でもちゃんと翻訳してくれます。



★ よろしければ、下のバナーをクリックお願いします。
  関連したランキングページに移動します。


★ ご協力有り難うございます。
関連記事

コメント

非公開コメント