言語処理学会第18回年次大会(NLP2012) 3日目レポート、後半 (tmp2)

プレビューで見る限りではちゃんと最後まで見えるのですが、ブログ上では途中から消えてるので続きを別記事としてアップします。

全体討議（村上さんによる問題提起と議論編、ニュービッグさんによるサマリ編）

全体討議

誤解語釈が多々あると思います。ご注意ください。
村上さん・ニュービッグさんらのプレゼン資料公開されるようなら後でリンク張ります。

楽天・村上浩司さんによる問題提起、その後の議論

告知：「不自然言語処理枠にはまらない言語の処理」〆切延長のお知らせ: 3/20->4/27

一緒に考えたいこと
　コーパスが必要な言語処理
　　何をするにもまずはコーパスが必要：事例の豊富さ／ただのデータでも良いがアノテートされてると嬉しい
　安否情報ツイートコーパス：6万以上のツイート
　　しかるべき手順のもと、何とか公開できないか？
　　　個人情報保護法：非常時から定常時へ。震災から1年経ち、簡単に公開できない
　　　Twitter社との権利問題：再配布禁止？アノテーションは非合法？
　どうすれば公開できるか？
　　生死というナーバスな情報＝リスク
　　京大コーパスと同様に扱う：ツイートIDとタグ情報だけ公開
　　本当に使われる可能性はあるのか？？
　公開できるならば
　　問題点：間違いが多いので見直し必須。見直すならタグ仕様再設計、マニュアル整備。継続的なデータ蓄積。質の担保。
　　汗かいて仕事してくれる人、団体はいるのか？
　前に進むために
　　データが必要な人、団体はあるのか？
　　データの利用に関わらず図災害NLP？
　　　災害が起こってからやること／起こる前にやること：タスクフォース？
　災害時のタスクサイクル
　　課題は大きく分けて3種類
　　　(1) 災害時：準備した技術の適用
　　　(2) これから平常時側でやるべきこと：適用結果の分析／タスク再設定／必要情報同定／技術研究開発
　　　(3) より大きな枠組み（言語処理屋さん以外）での活動

Q: いきなりタグ付きコーパス必要かと言われても良く分からない。タスク再設定というのがとても重要だと感じていて、出発点はそこでは。縛り次第にもよってはTwitter社も折れてくれるかもしれないし折れてくれないかもしれない。
Q: Twitter社のデータを誰かが配るというのはほぼ無理？
A: リーガルな情報については良く分からないので確固たる答えは出せない。プライベートな情報を含むので簡単な再配布は難しいのではないかという理解。特に災害とかは重要度が高いトピックだと思うので、商用ではなくて災害向けに作ったものという特別な利用規約に持っていけるようにできたら、社会にとっても会社にとっても嬉しい姿だと思う。
Q: Twitterに直接問い合わせれば良い？
A: はい。

Q: 2つパラレルにやった方が良いと思う。IDやURLベースでのプランとリーガル調整プラン。ID側／URL側は多分大丈夫。リーガル側はこれから規約変えるというのは相当大変だと思う。

Q: どういうのをやって欲しいとかいう意見はあるか。
A: 基本的に対象とする問題が普通のNLPと違っていて、ダイレクトに社会にフィードバックがかえる。こういうのをやりたいかという動機が重要で、そうでなければ持続性が持たないのでは。
A: 個人的には猛烈にやりたくて燃え上がっている。単に災害で世の中に役立つという大義名分だけでは難しい側面もあると思う。ポイントが別にもあって、災害時にはガソリンが無くなるとは誰も思っていなかった／原発壊れる／計画停電などなど、予測できなかったイベントが多かった。どういう情報を抜いてくるかが分からない状況下で「抜いてくる」というタスクは一つ大きな面白いタスクだと思う。　予想外のニュースが来た時にそれをテンプレートとして用意ドンでタスク化するとか。　二つ目は、その情報だけを取り出してくる、フィルタリングするという話。テンプレートを何分で埋めれるかというタスク。もやっとしているところはあるが、タスク設定。　臨場感もあるし、やることで見えてくる知見もあるのでは。
Q: 災害ツイートコーパスがないとできないことと、そうでないことはあるか。その例ではそれがなくても練習はできなくはないのでは？　そのコーパスじゃないとやれないことは何？
A: 災害時だとRTのされ方とかは違うかなというのはるかも。そうじゃないかもしれないが。それ以外の時でも似たようなことができるのか、災害の時でも使えそうかという一段を挟む必要はあると思う。強い理由が無ければ災害時の設定／コーパスを使うのは必要だと思う。慎重に進める必要はある。
A: 何か起こった時に何か作れるかというのは確かにそう。ANPI_NLP始まった時は何も決まっていなかった。方法論はあれこれあるかもしれないが、それまで無かった状況下／イベントに対する方法論というのはあって良いと思う。
A: 人工知能学会で災害基盤構築という話があって、そことも協調していく必要性があると思う。
A: 私はコーパス欲しい。公開できないとしても、凍結してたのが解凍して使えるようになるとか。災害時に人名なり場所なりが取れるソフトがあると、次回に活かすことでさらに一段上にいけると思う。辞書なりはこれから貯めていけば。

Q: ANPI_NLPにもいろんな情報があって、人名辞書提供して頂いたりとか共有する形になっているのもいろいろある。パッケージ化してドキュメンテーション付けておいておくのはできそう。

A: NLPを使ってというよりももっと大きな枠組みで考えたい。大きなプラットフォームに載ってNLP使っていくというのが本筋に思う。災害に向けてどう貢献できるかという点ではより大きな視点で。

A: 災害に対して一般的に社会では避難訓練が行われる。NLPでもTwitter使って何かしら情報見つけるということだが、いつ来るか分からないものに対して素振りだけしててもだらけてしまいそう。身を引き締めるものがあると。

A: 何か役に立つというのはとても難しく、sinsai.infoで求めているものがあったができなかったとか。他にも呟くことで送り込もうとかエンジン作ったが、アプリ作ってくれる会社が忙しくてできなかった。　役に立ったということを利用者から声が届いたということを共有できたのは良かった。　普段から使えるものを作ることが大切では。迷子とか電車付近で倒れてるとかいうのが呟かれているかもしれない。普段から使えるものを作り込む事を考えて動く。

Q: 研究普通にしてるとまともに動くよりは結果さえ出れば良いという側面が確かにある。不特定多数が落ちずに使えるものを、動くものをちゃんと作るというのは確かに重要。

naltoma: 個人情報云々等で直接的にデータを使えない場合、検証するためのプラットフォームとして、時間＆場所を加味した大規模なマルチエージェントシステム型シミュレーションなりで「災害時のマイクロブログストリーム／マスメディア報道／公共機関対応」みたいなのをひっくるめて再現／近似できると嬉しい？　表記揺れとか多様な人間モデルとかも盛りまくりで何が必要か自体の分析からだと思うけど。災害初期／中期／後期とか何かしら状況設定して特定状況毎に切り分けても良いかもしれないが。
naltoma: 後で俯瞰するようなスタンスではなく「今ホゲホゲこういうのに関するものを見たい／そのある特定側面を見たい／etc.」というようなタスクを体系化できるのかな。
naltoma: 調べたい／抽出したい対象というのがエンティティとかイベントとかトピックみたいな言葉で説明されることが多い気がするが、それらを真面目に分析して体系化する必要あり？　そんなの無視して「時間軸＋α」みたいな形で絶対的な軸だけを中心にして機能語／実体語／etc.とかを横断抽出するみたいなアプローチもあり得そうではある。

京大・グラム・ニュービッグさんによるサマリ

災害時における言語情報処理ロードマップを作ってみた。平常時準備->災害時対応->災害後サポート。普段から使えるもの。ML作ってみた。
　日本語ML：URL
　国際ML：URL
平常時／災害時／災害後サポート各ステージでのタスク。

A: 分野横断的な連携をその日や翌日とかのタイミングでできるような場ができてると良いと思う。
Q: 良いとは思うが、当日以降になると忙しくて困難かもしれない。
A: それはその通りだが、そういうことがやれる対応をする。

A: 災害後のサポートはとても重要だと思う。被災地終われてその後何年もメンタリティのケア等を背負う必要がある。NLPに何がやれるかはまだ分からないが、非常に大きなインパクトがあると思う。
A: Hope Japanという放射線関連のプロジェクトをやってるが、とにかくデマが多い。そしてデマを信じている人も多い。放射線とかに詳しい物理学者とか医学者とかいるが、その人向けにTwitterから得られた情報を見せて、その方にデマ真偽判定や分からないといった分類をお願いするような。言語処理の枠組みとしてそういう連携ができれば、アノテートされたデータがとれる側面もあって嬉しいのでは。

A: 頑張りましょう！