オンラインツール, ニュース, 人工知能

Starcoderは、著作権に準拠したコードのための高性能なオープンソースモデルです。

更新しました 03/09/2023

コミュニティの一員になる

メーリングリストに参加して限定コンテンツを受け取りましょう

Hugging FaceとServiceNowの共同イニシアチブである “BigCode “は、2つの素晴らしいオープンソース言語モデルであるStarcoderとStarcoderBaseを紹介する。研究者は特に、透明で著作権に準拠したデータの選択を強調している。

155億のパラメータを持つStarcoderモデルは、86のプログラミング言語のコードを生成することができる。革新的なアプローチとして、研究者らは「マルチクエリー・アテンション」と呼ばれる方法を使用した。これは、Starcoderモデルが各トークンを逐次処理するのではなく、コードの複数の部分に同時に注目することを可能にする。これにより、Starcoderの両モデルは、より大量のコード（8Kのコンテキストウィンドウ）をより迅速かつ効率的に読み取ることができ、コードの理解と生成を高速化することができる。

参加した研究者Lubna Ben Allal氏によると、Starcoderモデルは高度に選択されたデータで学習されたため、多くの人手を要したという。「選択したプログラミング言語のすべての拡張子について、50～100のファイルを手作業で検査し、適切なフィルターを選択しました。

両モデルはベンチマークにおいて、複数のプログラミング言語をサポートする他のどのオープンモデルよりも優れたパフォーマンスを示し、OpenAIの “code-cushman-001 “モデルと同等かそれを上回ることさえある。

Last week we released StarCoder, a state-of-the-art code LLM with 15B parameters. With the release of StarCoder we also conducted a comprehensive evaluation of code LLMs.

Some interesting findings and how we got there ✨: pic.twitter.com/ZGazeqd06F
— Loubna Ben Allal (@LoubnaBenAllal1) May 9, 2023

これにより、Starcoderは、プロプライエタリな産業用モデルと競争できるオープンソースAIモデルのリストに加わりつつあります。

プライバシーと著作権を尊重するStarcoderチーム

両モデルはまた、データガバナンスにおける新たな基準を設定することを目指している。チームは、データ・トレーニングには個人参照のない許可されたデータのみを使用していると主張しており、また、The Stackデータベースから使用されるデータに自分のコードが含まれているかどうかをチェックしたい場合に備えて、除外メカニズムとコード・スニペット検索メカニズムを実装している。

チームはStarcoderモデルをOpen Responsible AI Modelライセンスの下で公開しており、商用利用をサポートしている。Starcoderのモデルは、そのままでは命令に最適化されていませんが、いくつかの命令を追加することで、技術アシスタントとして最適化することができます。すべての追加関連情報とリンクは、HuggingFace Starcoderにあります。

André Lug

Iglu Online の創設者であり、ブログのライターである André Lug。人工知能とコンテンツ作成のスペシャリストとして、彼は AI、生産性、起業家精神に関するコンテンツを提供しています。

Starcoderは、著作権に準拠したコードのための高性能なオープンソースモデルです。

メーリングリストに参加して限定コンテンツを受け取りましょう

プライバシーと著作権を尊重するStarcoderチーム

André Lug

コメントを残すコメントをキャンセル

ニュースレターを購読する

どこに行こうか

Starcoderは、著作権に準拠したコードのための高性能なオープンソースモデルです。

メーリングリストに参加して限定コンテンツを受け取りましょう

プライバシーと著作権を尊重するStarcoderチーム

André Lug

コメントを残す コメントをキャンセル

ニュースレターを購読する

どこに行こうか

コメントを残すコメントをキャンセル