[image 01832] CFP: ACCV2016 Workshop: Multi-view Lip-reading/Audiio-Visual Challenges

Takeshi SAITOH saitoh @ ces.kyutech.ac.jp
2016年 6月 1日 (水) 01:20:12 JST


image-MLの皆様

九州工業大学の齊藤と申します.

11月に台湾で開催されます ACCV2016 で多視点を考慮した
読唇/視聴覚音声認識に関するワークショップ
  Multi-view Lip-reading/Audio-visual Challenges
を開催致します。ワークショップのHPは下記になります。
  http://ouluvs2.cse.oulu.fi/ACCVW.html

論文投稿〆切は8月9日です。是非論文投稿をご検討下さい。

現在、招待講演者を検討中です。決まり次第HPで公開されます。


本ワークショップではオウル大学で構築された多視点発話
シーンデータセットOuluVS2(同期して撮影された5視点の
映像と音声から構成、収録話者数は52名、口唇ROI切り出し
データもあります)の利用を勧めています。OuluVS2は無料で
ご利用いただけます。

読唇技術のコンペティションは初めてになります。
論文投稿〆切まで約2ヶ月ありますが、ご関心がありましたら
OuluVS2を利用されて下さい。


もし興味がおありでしたら、聴講だけでもご検討いただければ幸いです。


----- Call for Papers -----

Multi-view Lip-reading/Audio-visual Challenges

ACCV'16 workshop organized by Ziheng Zhou, Guoying Zhao (University of
Oulu), Richard Bowden (University of Surrey) and Takeshi Saitoh (Kyushu
Institute of Technology)

Descriptions
It is known that human speech perception is a bimodal process that makes
use of both acoustic and visual information. There is clear evidence
that visual cues play an important role in automatic speech recognition
either when audio is seriously corrupted by noise, through audio-visual
speech recognition (AVSR) or even when it is inaccessible, through
automatic lip-reading (ALR).

This workshop is aimed to challenge researchers to deal with the large
variations of the speakers' appearances caused by camera-view changes.
To this end, we have collected a large multi-view audiovisual database,
named 'OuluVS2', which records 52 speakers uttering digit strings, short
phrases and sentences. To facilitate participants, we have preprocessed
the first two types of data to obtain the regions of interest for each
utterance. The cropped mouth videos are available to researchers
together with the original ones.

Please visit the workshop webpage for more details and instructions on
how to download the database.

Researchers are invited to tackle the following problems:
* Single-view ALR/AVSR 
  to train and test on data recorded from a single camera view.
* Multiple-view ALR/AVSR 
  to train and test on synchronized data recorded from multiple camera
views. 
* Cross-view ALR/AVSR 
  to learn knowledge from videos recorded from a reference view (e.g.,
the frontal view) to enhance recognition performance for a target view
(e.g., the profile view) from which there is not sufficient amount of
training data.

Important Date:
Paper submission deadline: August 9, 2016
Notification of acceptance September 10, 2016
Camera ready: September 19, 2016

-----

よろしくお願い致します。


---------------------------------------------

    九州工業大学
    大学院情報工学研究院
    システム創成情報工学研究系
      齊藤 剛史(Takeshi SAITOH)

      E-mail: saitoh @ ces.kyutech.ac.jp

---------------------------------------------




image メーリングリストの案内