Agent-1は間もなくあらゆるソフトウェアを操作できるようになる。当初、このAIモデルはブラウザ拡張機能の一部としてリリースされる予定だ。

HyperWriteAIとOthersideAIのCEOであるマット・シューマーは、「Agent-1」と呼ばれる基本モデルを発表した。おそらく、人間のようにソフトウェアを操作できると思われる。科学的な論文はまだないが、彼はビデオでその能力を実演した。

シューマーによれば、GPT-4などの現在のAIモデルや、まだ発表されていない次世代モデルでさえ、ソフトウェアやプログラミング・インターフェースを確実に操作することはできないという。

また、ソフトウェア操作が複雑なため、コストとスピードも重要な問題だという。”Agent-1 “はこの問題を解決することを目指している。シュマー氏は多くのことを約束している。”我々はすでに以前の最先端をはるかに凌駕しており、毎週劇的に改善している。”

クロームプラグインの統合

Agent-1は、今後数回のアップデートでHyperWriteのPersonal Assistantに統合される予定だ。これは、ウェブサイトに依存しないAIテキストジェネレーターを提供するブラウザ拡張機能である。

agent-1

6月末、シュマーはパーソナル・アシスタントのごく初期バージョンを発表した。このパーソナル・アシスタントは、電子メールの送信や料理の注文といった簡単なタスクをブラウザ上で実行することができる。

しかし、Agent-1はもっと複雑なタスクをこなすことができる。シュマー氏のデモ・ビデオでは、Agent-1がGoogle Cloudのダッシュボードを操作している様子を見ることができる。

como funciona o agent-1

ダイナミックな思考

「現在のモデルは、推論のためのパラメータを少なくして、多くの知識を保存しています」と彼は説明する。「その代わりに、私たちの目標は、ダイナミックな推論にモデルのパワーをフルに発揮させることです」。

この “動的推論 “アプローチによって、モデルは訓練されていない状況にも対処できるようになると彼は言う。シュマーはAgent-1に高い基準を設定した:

私たちの目標は、人間の能力を凌駕すること、つまり、あらゆるソフトウェアを操作し、ユーザーの代わりに複雑な目標を確実に達成できるアシスタントになることです」。

マット・シューマー、HyperWrite社CEO

どんなAIエージェントでもそうであるように、問題は予期されるものだが、シュマーはAgent-1が時間をかけて学習しながら改善していくことを約束する。今後数週間で、Agent-1がシュマーの約束に沿うかどうかがわかるだろう。短いビデオを除けば、彼の主張を裏付ける他の情報はない。

ところで、ACT-1とは何だったのだろうか?

Agent-1はアデプト社のACT-1デモによく似ている。この米国の新興企業は、2022年9月の発表以来、3月に完了した3億5000万ドルのシリーズB資金調達ラウンドを除いては、あまり音沙汰がない。創業者にはディープマインド、メタ、グーグルの元研究者が名を連ねており、そのうちの一人は、現在GPT-4などのモデルの基礎となっているトランスフォーマー・アーキテクチャの作者だった。

最近、バークレー大学とマイクロソフト・リサーチも、1,600のプログラミング・インターフェースで訓練され、ソフトウェアを操作できる大規模な言語モデルであるGorillaを発表した。