ホーム  > オンライン書店・本屋  > 本や出版のこと  > 本のデジタル化、人力に勝る手段はない?

2008 .08 .30

本のデジタル化、人力に勝る手段はない?

正解率99% ネット認証技術、書籍のデジタル化に威力(asahi.com)
古い書籍などをデジタル化しようとすると、文字のにじみや色あせで機械がうまく読み取れないことがある。でも、無数のネット利用者の力を借りると、99%の正確さを達成できた。しかも、使ったのは一見無関係な迷惑メール・迷惑ブログの対策技術――。
「無数のネット利用者の力」と聞くと「Amazon Mechanical Turk」を思い出しますね。
Amazon Mechanical Turk の用語解説(ZDNet Japan)
Amazon Mechanical Turkとは、今まではソフトウェアに実行させていた処理の中でも、人間の方が得意であると思われる作業を、開発者がウェブ上に掲示することによって行ってもらうという市場形式のことである。
本のデジタルアーカイブ化は未来に実現することを期待してることのひとつなんですが、これが難しいんですよね。

本の内容をデジタルデータ化するにはOCR(光学式文字読み取り装置)でスキャンするのが一般的と言われてます。高校とかで先生がフィルムに描かれたレジュメをスクリーンに投影してたアレね。でもOCRの識字率は20%程度なんだそうです。まあ色んな言語があるしね。
でOCR以外の手段となると人力で手入力。これはやってられないですよねぇ。

このような状況を打開するために開発されたのが、ブログのコメント登録画面なんかでよくみる、ゆがんだ文字の画像を入力することで機械的なスパムを抑止する「CAPTCHA(キャプチャ)」を応用した技術。
研究チームはこの技術を応用し、書籍のデジタル化で、二つのOCRによる読み取り結果が食い違った文字の画像を表示し、利用者に入力してもらう仕組みに改良。迷惑メール・迷惑ブログ対策と、書籍デジタル化の「一石二鳥」を狙った。
発想の転換がうまい。機械が判別できなかった箇所だけ人間がチェックするならゼロベースの手入力よりいくらかマシですよね。

しかもゼロからの手入力だとたいていのひとは躊躇しちゃうだろうけど細かいパーツごとに対処するのなら気軽なバイト気分で挑戦できるかも。
このプログラムを約1年間にわたってネット上で公開したところ、4万以上のウェブサイトで採用され、約1万7600冊の書籍に相当する4億4千万以上の単語が、ネット利用者によって解読された。
しかも正解率は99.1%。すばらしい。

つくづくインターネットはコミュニケーションのあり方、幅を大きく変えてきてるなぁと感じる記事でした。

▼参考リンク
CAPTCHA(Wikipedia)
Google人力翻訳センターと、その後の狙い(TechCrunch Japanese)

« アマゾンが「タグ付け機能」リリース | ホーム | 競争率10倍以上の「アクアライン探検隊」レポ »



この他のエントリー

アーカイブ