[image 02164] くずし字の字形データセット(86,176文字)公開のお知らせ

KITAMOTO Asanobu kitamoto @ nii.ac.jp
2016年 11月 18日 (金) 14:50:37 JST


image MLの皆様

国立情報学研究所 北本です。

情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープン 
データ共同利用センターでは、このたび「日本古典籍字形データセット」を公開 
しましたので、お知らせします。

http://codh.rois.ac.jp/char-shape/

日本古典籍データセットで公開するデジタル化された古典籍を対象に、翻刻テキ 
ストを制作する過程で生まれるくずし字の座標情報などを、機械のための学習 
データや人間のための学習データとして提供します。

2016年11月現在、日本古典籍字形データセットの規模は、日本古典籍データセッ 
トの8点の画像データから切り取ったくずし字1,521文字種の字形データ86,176文 
字です。2016年度中には約40万字に規模を拡大する計画です。ライセンスはCC  
BY-SAで、研究に使いやすいライセンスとなっています。

このデータセットによって、くずし字を対象とした文字認識研究が、パターン認 
識や機械学習コミュニティにおいて活性化し、日本古典籍数十万冊のデジタル 
データの網羅的な解析が進むことを期待しております。

関連する情報としては、以下のプレスリリースなどをご覧ください。

江戸時代の文字の字形データセットを国文研との協働で構築/機械と人間の学習 
のためのオープンデータとして公開(国立情報学研究所)
http://www.nii.ac.jp/news/2016/1117-1/

くずし字学習、文字認識に朗報!日本古典籍字形データセット 8万字を公開(国 
文学研究資料館)
http://www.nijl.ac.jp/pages/cijproject/images/20161117_news.pdf

関連する文献としては、以下の文献などをご覧ください。

北本 朝展, "オープンサイエンスの動向と情報学分野へのインパクト", 電子情 
報通信学会技術報告, Vol. 116, No. 259, pp. 1-6, 2016年10月

北本 朝展, 山本 和明, "人文学データのオープン化を開拓する超学際的データ 
プラットフォームの構築", 人文科学とコンピュータシンポジウム じんもんこん 
2016, 2016年12月10日
http://www.jinmoncom.jp/sympo2016/

データセットに関するご質問がありましたら、お気軽にお尋ねください。
よろしくお願いいたします。

-- 
北本 朝展 (KITAMOTO Asanobu)
国立情報学研究所 コンテンツ科学研究系
情報・システム研究機構 人文学オープンデータ共同利用センター
http://agora.ex.nii.ac.jp/~kitamoto/
TEL 03-4212-2578 / FAX 03-4212-2612


image メーリングリストの案内