Hugging FaceとServiceNowの共同イニシアチブである “BigCode “は、2つの素晴らしいオープンソース言語モデルであるStarcoderとStarcoderBaseを紹介する。研究者は特に、透明で著作権に準拠したデータの選択を強調している。

155億のパラメータを持つStarcoderモデルは、86のプログラミング言語のコードを生成することができる。革新的なアプローチとして、研究者らは「マルチクエリー・アテンション」と呼ばれる方法を使用した。これは、Starcoderモデルが各トークンを逐次処理するのではなく、コードの複数の部分に同時に注目することを可能にする。これにより、Starcoderの両モデルは、より大量のコード(8Kのコンテキストウィンドウ)をより迅速かつ効率的に読み取ることができ、コードの理解と生成を高速化することができる。

参加した研究者Lubna Ben Allal氏によると、Starcoderモデルは高度に選択されたデータで学習されたため、多くの人手を要したという。「選択したプログラミング言語のすべての拡張子について、50~100のファイルを手作業で検査し、適切なフィルターを選択しました。

両モデルはベンチマークにおいて、複数のプログラミング言語をサポートする他のどのオープンモデルよりも優れたパフォーマンスを示し、OpenAIの “code-cushman-001 “モデルと同等かそれを上回ることさえある。

これにより、Starcoderは、プロプライエタリな産業用モデルと競争できるオープンソースAIモデルのリストに加わりつつあります。

プライバシーと著作権を尊重するStarcoderチーム

両モデルはまた、データガバナンスにおける新たな基準を設定することを目指している。チームは、データ・トレーニングには個人参照のない許可されたデータのみを使用していると主張しており、また、The Stackデータベースから使用されるデータに自分のコードが含まれているかどうかをチェックしたい場合に備えて、除外メカニズムとコード・スニペット検索メカニズムを実装している。

チームはStarcoderモデルをOpen Responsible AI Modelライセンスの下で公開しており、商用利用をサポートしている。Starcoderのモデルは、そのままでは命令に最適化されていませんが、いくつかの命令を追加することで、技術アシスタントとして最適化することができます。すべての追加関連情報とリンクは、HuggingFace Starcoderにあります。