第271回研究講演会開催報告


日時:平成10年4月22日(水)14:40〜16:00
場所:東北大学工学部 電気・情報館101大講義室
演題:『ヒューマンインタフェース技術の現状と将来』
講演者:竹林洋一
(東芝研究開発センターヒューマンインタフェース技術センター長)

講演要旨:

1. まえがき

情報機器のマルチメディア化とネットワーク化が進み、インターネットやモー バイル・コミュニケーションを手軽に利用できる時代となった。コンピュータ は仕事や遊びの道具ではなく、巨大なデジタル情報空間の入口的な存在となり、 世界中の情報を「いつでもどこでも」利用したり、「だれとでも」コミュニケー トできるでデジタル情報環境が実現されようとしている。

今後、モーバイル機器や家庭向けデジタル機器の開発や、情報サービス、教育、 エンターテイメント関連の新しい産業が生まれるであろう。「ユーザは何を望 んでいるのか」、「人間や社会のために何を支援するのか」という社会学的側 面が技術開発に求められる時代になったと言えよう。人間(ユーザ)中心の視点 で「使いやすさ、豊かさ」を追求するヒューマンインタフェース(HI)技術へ の期待が高まっている理由はここにある。

ヒューマンインタフェースは、人間と機器との「界面としてのインタフェース」 のことであると誤解されがちである。HI技術は、人間と機器システムのイン タラクション(対話/相互作用)を対象とするが、インタフェースを人間工学的 に設計評価するだけではなく、人間や社会にとって望ましいマルチメディア機 器やコミュニケーション・システムなどを創造する分野でもある。システム開 発者とユーザの視点とを合わせ持ち、応用/ニーズ指向で機器システムやデバ イスの開発を目指す点が特徴である。このため、音声、画像、言語などのメディ ア情報処理、基本ソフトウェア、デバイス、認知科学などの広範な科学技術と の連携が必要なのである。

2. ヒューマンインタフェースの進化

1970年代後半にAlan Kayは、コンピュータが「メタメメディア(Paersonal Dynamic Media)」であるという点に着目し、ノートブックサイズのコンピュー タDynabook(ダイナブック)のコンセプトを提唱した[1]。「ディジタルの世界」 では、音声認識、翻訳、画像理解などのメディア理解や、音声、言語、画像な どのメディアの編集や検索が可能であると考え、人間の創作活動を支援するた めのメディア(技術)としてDynabookの構想を示した。また、GUI(Graphical User Interface)を開発し、ビットマップディスプレイを装備した対話型コン ピュータ(Alto)上に実装した。さらに、コンピュータネットワーク環境を構築 し、当時の先端要素技術を統合して電子出版、アニメーション関連の魅力的な 応用ソフトも開発した。

第1世代のインタフェースは、"Remember type"型であり、キーボードから文 字列で指示を与えるコマンド言語入力方式である。専門家がコンピュータを独 占していた時代につくられた。複雑なコマンドを覚える必要あるので初心者向 きではないが、効率的なのでソフトウェア開発者を中心に現在も根強く使われ ている。

第2世代は、現在主流の”See and point型”のGUIであり、机の上の作業 環境を模擬したデスクトップ・メタファー(隠喩)に基づいている。マウスの直 接操作でメニューやアイコンを選択するだけで、コマンド入力と同等のことが 行なえるという利点がある。メニュー方式は操作が簡単なので、家電や現金自 動引出機などでも広く採用されている。しかし、GUIの直接操作では膨大な デジタル情報を迅速に検索できないことが明らかとなってきた。マウスの代わ りに音声や言語入力を使えば、短い言葉で感情や抽象的な概念を効率的に伝達 することが可能となる。

アラン・ケイは70年代後半に、既にGUIの限界に気付き、大規模ネットワー ク時代には、ユーザの意図や情報の内容を理解できる知的なエージェント (Agent)技術が必須となることを予見していた。

第3世代のHIは”Ask and tell”型の「マルチモーダルインタフェース」で ある。 マルチモーダルインタフェースは、視覚、聴覚、触覚、言語などの複 数の感覚器(センサー)や認知処理様式(モダリティー)を考慮して様々なメディ ア情報を処理し、コンピュータと人間の「高度なインタラクション」を指すも のであり、コンピュータとの自然な対話を実現するポストGUIとして期待さ れている。エージェントを介したマルチモーダルHIであり、音声やジェスチャー 理解、意図状況理解、知的対話処理がコアとなる。その実現には、人間や環境 側からのアプローチが必要であり、また、大規模知識ベースとデジタル情報イ ンフラの整備も必要である。最近の音声入出力や3次元グラフィックスの性能 向上は目覚しく、第3世代のHIの萌芽期に入ったと考えられる。最近では、 GUI(グーイ)に対してPUI(プーイ:Perceptual User Interfaces)として 着目されている。

3. MITメディア研究所での体験

筆者は、1985年に設立当初のMITのメディアラボに派遣された。以前は、ディ ジタル信号処理と音声認識を研究していた。しかし、当時のメディアラボは、 Negroponte所長の「Demo or Die!」をモットーに、「メディア技術」とか「ヒュー マンインタフェース」と称して、”Put That There”、 "Movie Manual"など の構築に専念しており、最盛期にあったAIラボとは対照的であった。

そんな中で、Alan Kayが"Vivarium Project"始め、そのセミナーで扱う話題が、 対話型3Dグラフィックス、オブジェクト指向、LOGO、ニューラルネット、音 声認識、学習、プランニング技術、バイオリン教育等と広範にわたり、学生に は毎週多くの参考書や文献を紹介して勉強するように奨励していた。また、セ ミナーに顔を見せるMinskyの博学ぶりと「Society of Mind」の内容にも感心 したものである。

帰国後は音声研究を中断し、知的文書処理、知的グラフィックス、自然言語処 理の研究などに従事し、研究コミュニティー間のギャップが大きいことを知り、 人間にとって役立つメディアを探求するメディアラボのアプローチを理解できる ようになった。

そして、「不特定ユーザに何ら制約を設けない」というコンセプトの下で、音 声自由対話システムTOSBURGII[2]を開発した。これは、雑音に強い音声認識、キー ワードに基づく話し言葉の理解、ユーザ主導型の対話処理、表情付きのマルチ モーダル応答、アクティブ音声応答キャンセル技術などのロバストな要素技術 の統合により実現できた。

MITメディア研究所では、Wearable Computerや、種々のデジタルメディアの研究 が盛んに行なわれており、「技術」、「アート」、「エンターテイメント」の 融合が進んでおり、とてもエキシティングで目が離せない。

4. HI技術の応用と実用化

4.1. メディア変換とメディア理解

人間は、音声、表情、ジェスチャーなどを五感を使って情報の入力やコミュニ ケーションを行なっている。人間の情報入力は主に視覚と聴覚を介してが行な われ、記憶や内容理解は脳の高次機能により行われる。人間が言葉や文書を認 識し理解するということは、膨大なパターン情報を、情報量の少ない意味情報 (表現)に変換することと考えることができる。集約された意味表現に変換する ことで、高度な知的処理が可能となるわけである。

人間同士のコミュニケーションでは、送信した音声や言語などの情報が、受け 手の人間に届き、情報の内容を理解したり感動したとき、はじめて価値が生ま れる。つまりメディアの価値は、単なる情報伝達ではなく理解が重要であり、 自然で快適なヒューマンインタフェースを実現するにはメディア理解の高度化 が欠かせない。

人間が情報の内容や状況を理解するには、あらかじめ蓄積された知識がなくては 不可能であり、「9割の知識がなければ、新しい情報を自分のものにすること はできないのである」・この「理解」の機能なくしては、人間の知的活動は語 れない。

しかし、認識エラーや曖昧性は避けられないという本質的な問題がある。このため、 ユーザの認知的な負担を軽くするインタラクションの実現には、高性能で健な 認識理解技術と認識エラーや曖昧性への対処が欠かせない。

マルチモーダルインタフェースでは音声やジェスチャーなどの入力メディアの 理解が中心的役割を果たす。その基礎となるのがセンシングであり、ユーザの 意図的情報や非意図的情報(利用状況、動作環境)の抽出を高度化するための研 究が盛んである。新しいセンサーや入力デバイスは、メディア変換処理、イン タラクションの形態、応用分野を変革する可能性がある。

4.2 マルチメディア情報の構造化とマルチモーダル対話

ネットワークの本格化に伴い、インターネット/イントラネットを介して送 られて来るフロー情報と組織や個人が保有するストック情報が飛躍に増 大し、情報洪水の問題が深刻化してきた。また、テキストデータに加えて 音声や映像データもネットワーク上を行き来するようになり、マルチメディア 情報の普及が進んでいる。

ユーザとコンピュータとの検索対話インタフェースとマルチメディア/マルチ モーダル情報の構造化インタフェースが両輪となっている。メディア理解やメ ディア変換処理は、氾濫するマルチメディア情報を収集構造化して整理する際 にも有用である。

多様なマルチメディア情報から役に立つものを収集し、内容を理解して構造化 (インデックス付け)し、知識データベースに蓄積すると、意味内容レベルで の検索や再利用がしやすくなるという利点がある。映像メディアの場合は、シー ンの変わり目や特定の人物が映っているシーンを検出して構造化しておけば、 映像データに付加価値が付く。

4.3 東芝のHIへの取り組みとHIコア技術

東芝では、パーソナル用から、家庭、産業、公共用の様々な機器システムにユー ザ指向/ニーズ指向で付加価値を与えるためににHI技術の研究開発に取り組 んでいる。全社のHIコア技術開発にを横串を通し、製品への適用を促進する ために、1995年にヒューマンインタフェース技術センターを設立した。

HIコア技術として、使いやすさを追求する人間工学設計技術(ヒューマンファ クタ)、大量のデータをデジタル化し構造化するための文書画像理解技術、マ ルチメディアの中心となる言語メディア処理技術の高度化に注力している。

文書画像理解技術は、郵便番号の自動読み取り機、ドキュメントリーダ、帳票 読み取りシステムに応用している。ネットワーク環境で行き来する大規模 マルチメディアデータを処理するのに欠かせない技術である。

言語処理技術は、日本語ワープロの仮名漢字変換技術の開発以来、継続的に研 究開発を行っている。翻訳システム、文書検索システム、情報フィルタリング システム、知識情報共有システム、音声合成システムなどの高度化に活用して いる。インタフェースの設計評価に関しては、携帯機器のGUI設計やATM (現金引き落とし機)のユーザインタフェース設計のガイドライン策定やノウハ ウの共有を図り、全社関連部門が連携してユーザに価値と満足感を提供できる ように研究開発を進めている。

筆者らは、組織や個人がストックしている知識や情報をネットワークを介して 本人に代わってオン・デマンドで答える秘書エージェントシステム(KIDS: Knowledge and Information on Demand System)を開発した[3]。ネットワーク 環境下における知識情報の公開と共有に焦点をあてたインターフェースエージェ ントであり、必要に応じて人間同士の直接対話も行なえる。ネットワーク時代 に重要なキラーアプリケーションとして、1000人規模の実証実験を行なっ ている。

5. 結び

ネットワーク上を行き来する映像、音声、言語などの情報は、人間に届き、人 間が情報の内容を理解したり感動したとき、はじめて価値が生まれる。マルチ メディア・ネットワーク環境下における知識情報の共有やコミュニケーション の円滑化など、マルチモーダルインタフェースの活躍の場は多い。人間の知的 活動や情動に適合したヒューマンインタフェースの研究開発を、種々のメディ ア変換処理や知識処理を統合して加速していきたい。また、情報処理学会東北 支部でのHI研究への関心が高まることを期待したい。

文献

1)A.Kay,"Personal Dynamic Media", IEEE COMPUTER, pp.31-41 (1997.3)
2) 竹林:"音声自由対話システム TOSBURG II --ユーザ中心のマルチモーダル インタフェースの実現に向けて--", 電子情報通信学会論文誌, Vol.J77-D-II, No.8, pp.1417-1428 (1994)
3) 中山,真鍋,竹林:"知識情報共有システム(Advice/Help on Demand)の 開発と実践",インタラクション'97論文集,情報処理学会,pp.103-110(1997)

参加者:250名
報告者:小島正美
東北工業大学・通信工学科
〒982-8577
仙台市太白区八木山香澄町35-1
tel: 022-229-1151 ext368
fax: 022-228-0447
email: mkojima@titan.tohtech.ac.jp