オンラインツール, 人工知能

グーグル研究者、音声をスマートフォンの優れたインターフェースに

更新しました 01/09/2023

コミュニティの一員になる

メーリングリストに参加して限定コンテンツを受け取りましょう

これまでAIはスマートフォンのインターフェースをコントロールするのに苦労してきた。しかし、グーグルの研究者たちは解決策を見つけたようだ。

モバイル・ユーザー・インターフェースとの音声ベースのインタラクションを改善するために、グーグル研究所の研究者たちは大規模言語モデル（LLM）の使用を研究している。現在のモバイル・インテリジェント・アシスタントは、画面上の特定の情報に関する質問に答えることができないため、会話によるインタラクションには限界がある。

研究者たちは、ユーザー・インターフェースをテキストに変換するアルゴリズムを含め、モバイル・ユーザー・インターフェースにLLMを適用するための一連の技術を開発した。これらの技術により、開発者は新しい音声ベースのインタラクションを素早く試作し、テストすることができる。LLMは、モデルに問題のタスクの例をいくつか与えることで、文脈に応じたプロンプトを学習するのに適している。

スマートフォン用インターフェースとしての大規模言語モデル

4つの主要なタスクが大規模な実験で研究された。研究者らによると、LLMはこれらのタスクにおいて競争力があり、タスクごとに2つの例しか必要としないことが示された。

1.画面上の質問の生成：例えば、モバイル・ユーザー・インターフェース（UI）が提示された場合、言語モデルは、ユーザー入力を必要とするUI要素に関する関連する質問を生成することができる。この研究によると、言語モデルは、ほぼ完璧な文法（4.98/5）で、画面に表示された入力フィールドに92.8パーセント関連する質問を生成することができた。

interface de voz para smartphones da google

2.画面の要約：LLMは、モバイル・ユーザー・インターフェースの主な機能を効果的に要約することができる。以前に紹介したScreen2Wordsモデルよりも正確な要約を生成し、UIに直接表示されていない情報を推測することもできます。

3.画面上の質問に答える：モバイル・ユーザー・インターフェースと、UIに関する情報を必要とする公開質問が提示された場合、LLMは正しい答えを提供することができる。この研究によると、LLMは “見出しは何ですか？”といった質問に答えることができる。LLMは、参照用のDistilBERT QAモデルよりも有意に優れたパフォーマンスを示した。

4.UI内のアクションへの命令のマッピング：モバイル・ユーザー・インターフェースと、それを制御するための自然言語の命令が与えられた場合、モデルは、与えられたアクションが実行されるべきオブジェクトIDを予測することができます。例えば、「Gmailを開く」という指示が与えられたとき、モデルはホーム画面上のGmailアイコンを正しく識別することができた。

グーグルの研究者たちは、モバイルUIにおける新しい音声ベースのインタラクションのプロトタイピングは、LLMを使用することで簡素化できると結論づけている。これは、新しいデータベースやモデルの開発に投資する前に、デザイナー、開発者、研究者に新たな可能性を開くものである。

André Lug

Iglu Online の創設者であり、ブログのライターである André Lug。人工知能とコンテンツ作成のスペシャリストとして、彼は AI、生産性、起業家精神に関するコンテンツを提供しています。

グーグル研究者、音声をスマートフォンの優れたインターフェースに

メーリングリストに参加して限定コンテンツを受け取りましょう

スマートフォン用インターフェースとしての大規模言語モデル

André Lug

コメントを残すコメントをキャンセル

ニュースレターを購読する

どこに行こうか

グーグル研究者、音声をスマートフォンの優れたインターフェースに

メーリングリストに参加して限定コンテンツを受け取りましょう

スマートフォン用インターフェースとしての大規模言語モデル

André Lug

コメントを残す コメントをキャンセル

ニュースレターを購読する

どこに行こうか

コメントを残すコメントをキャンセル