約 35,000 冊の蔵書と、書籍や文書で満たされた 80 km 以上の棚を擁するバチカンの秘密文書館には、人類の最も重要な歴史的コレクションの 1 つが保管されており、その最古の写本は 8 世紀末に遡るということです。仮想的にアクセスすることはできず、カトリック教会の本部に行くことができる学者のみが利用できます。

イタリアの首都ローマトレ大学とラ・サピエンツァ大学の研究者グループは、この状況を変えたいと考えている。彼らは、In Codice Ratio と呼ばれるプロジェクトを開発しています。これは、一般の人々がアクセスできるアーカイブ内のすべてのコンテンツを自動的に転写することを目的としています。

これを達成するために、チームは と光学式文字認識 (OCR) を組み合わせて取り組んでいます。彼らは、現在の OCR の知識を手書きテキストに適用する新しい技術を使用し、その領域で使用されるインクの量に応じて単語を小さな部分に分割します。これにより、各文字を個別に分離し、紙をデジタル文書に変換することが可能になります。


これらのテキストをラテンアルファベットの文字として認識する人工知能のトレーニングは、イタリアの高校生によって実施されました。彼らはいくつかのアンケートに答え、どの画像が目的の文字を表しているかを特定しました。

チームがアーカイブに保存されている約 18,000 ページの手紙を使用してテストを実行したとき、これらすべての結果がテストされました。研究者らによると、このプログラムは文字の 96% を正しく識別でき、単語の 3 分の 1 には少なくとも 1 つの間違った文字が含まれていました。このテクノロジーはエラーが特定されるたびに学習するため、これらの数値は次回の試行でのみ改善される傾向があります。

In Codice Raio の Web サイトでは、研究結果とともに出版されたすべての記事をご覧いただけます。

研究者が AI を使用して経由で
