[image 02164] くずし字の字形データセット(86,176文字)公開のお知らせ
KITAMOTO Asanobu
kitamoto @ nii.ac.jp
2016年 11月 18日 (金) 14:50:37 JST
image MLの皆様
国立情報学研究所 北本です。
情報・システム研究機構 データサイエンス共同利用基盤施設 人文学オープン
データ共同利用センターでは、このたび「日本古典籍字形データセット」を公開
しましたので、お知らせします。
http://codh.rois.ac.jp/char-shape/
日本古典籍データセットで公開するデジタル化された古典籍を対象に、翻刻テキ
ストを制作する過程で生まれるくずし字の座標情報などを、機械のための学習
データや人間のための学習データとして提供します。
2016年11月現在、日本古典籍字形データセットの規模は、日本古典籍データセッ
トの8点の画像データから切り取ったくずし字1,521文字種の字形データ86,176文
字です。2016年度中には約40万字に規模を拡大する計画です。ライセンスはCC
BY-SAで、研究に使いやすいライセンスとなっています。
このデータセットによって、くずし字を対象とした文字認識研究が、パターン認
識や機械学習コミュニティにおいて活性化し、日本古典籍数十万冊のデジタル
データの網羅的な解析が進むことを期待しております。
関連する情報としては、以下のプレスリリースなどをご覧ください。
江戸時代の文字の字形データセットを国文研との協働で構築/機械と人間の学習
のためのオープンデータとして公開(国立情報学研究所)
http://www.nii.ac.jp/news/2016/1117-1/
くずし字学習、文字認識に朗報!日本古典籍字形データセット 8万字を公開(国
文学研究資料館)
http://www.nijl.ac.jp/pages/cijproject/images/20161117_news.pdf
関連する文献としては、以下の文献などをご覧ください。
北本 朝展, "オープンサイエンスの動向と情報学分野へのインパクト", 電子情
報通信学会技術報告, Vol. 116, No. 259, pp. 1-6, 2016年10月
北本 朝展, 山本 和明, "人文学データのオープン化を開拓する超学際的データ
プラットフォームの構築", 人文科学とコンピュータシンポジウム じんもんこん
2016, 2016年12月10日
http://www.jinmoncom.jp/sympo2016/
データセットに関するご質問がありましたら、お気軽にお尋ねください。
よろしくお願いいたします。
--
北本 朝展 (KITAMOTO Asanobu)
国立情報学研究所 コンテンツ科学研究系
情報・システム研究機構 人文学オープンデータ共同利用センター
http://agora.ex.nii.ac.jp/~kitamoto/
TEL 03-4212-2578 / FAX 03-4212-2612
image メーリングリストの案内