ドキュメント電子化サービス
(OCR事業)
紙に印刷された文字をスキャナーなどでコンピュータに取り込み、その画像から文字を電子的に読み取って電子データに変換するOCRの技術は、ここ数年でめざましい発達を遂げております。
これに伴い、企業や行政機関などにおいて、書類や書籍を電子データへの変換する取り組みが盛んに行われています。
株式会社デジタルノーツは、そういった客様のニーズにお応えすべく、新たな技術開発に取り組んでおります。
従来は困難であった複雑な数式認識機能を備えたOCRにより、学術文書の電子データ化も可能なサービスを、提供しております。
教育機関・学習塾・学会などの様々な分野で、当社のサービスはお役に立ちます。
当社のOCRソフトには、九州大学大学院数理学研究科の鈴木昌和教授の技術協力により、数式を認識する機能を実装しています。
これにより、従来は困難であった、分数・ルート・積分記号など複雑な数式や添え字なども正確認識が出来るうえに、数式の構造情報も保持したデータを抽出できるため、LaTeXや数式書誌システムなどへのデータ変換が可能と成ります。
この機能により、一般文書のみならず数学の学術文書の認識も実現します。
当社がご提供させて頂く電子化サービスでは汎用的なOCRソフトを使用せず、自社開発したアプリケーションにより行います。
これにより、お客様のご要望に適したアプリケーションへと自由にカスタマイズして利用することが可能であり、またOCR作業を行う上での効率化やクオリティの向上を図ることが出来ますの。
つまり、ユーザーのニーズにあったサービスを行うためのプログラムのカスタマイズや、認識率の向上や作業効率の向上など、常に進化する作業環境をもって、ハイクオリティ&ローコストなサービスを提供させていただきます。
従来のOCRソフトでは、認識結果をテキスト形式で出力する物が多く、文書のタイトルや章節といった文章の構造情報は失われてしまいます。
当社のサービスに置いては、従来は無視されていたこれらの文章構造までも解析して出力し、文書構造を保持したデータを得ることが可能となります。
これにより、お客様の希望されるフォーマットへの変換を効率的に行い、価値ある情報をとしてご提供することが可能です。
当社のOCRサービスでは、原稿から読み取ったデータをXML形式で出力します。
XMLデータはパーサー(変換処理)を介して、お客様の希望される形式に変換いたします。
●変換事例として下記のものがあります。
- HTML(ホームページ)
- PDF
- Microsoft
Word/Excel
- LaTeX
- テキスト/音声/点字
※お客様の利用目的にあった様々な形式への変換が可能ですので、お気軽にご相談下さい。