松尾研 GENIAC LLM開発プロジェクト 第1フェーズ結果発表会 2024.06.01 @ 東京大学 福武ホール

はい それでは皆さんお時間になりました ので始めさせていただきたいと思います 皆さん本日はお忙しい中 松尾研LLM開発プロジェクトの 結果発表会にお越しいただき本当にありがとうございます 本日は東京大学の福武ホールにて実施している結果発表会の 様子をオンラインで会場から生配信もしております オンラインの方もご参加いただきありがとうございます 音声届いておりますでしょうか?大丈夫ですかね はい ありがとうございます 会場で直接ご参加いただいている方もオンラインでご参加 いただいている方も一体となって盛り上げていけたらなと 思いますので本日どうぞよろしくお願いいたします なお 本結果発表会の様子はSNSに掲載いただいても問題 ございませんと松尾研アンダーバーGENIACのハッシュタグで ぜひTwitterXなどでつぶやきください また 本発表中に松尾研のLLMコミュニティの Slack上で質問も受け付けております 詳細はZoomのチャット欄 そしてSlackでの ご案内をご覧ください 申し遅れましたが本日司会は松尾研で広報を担当しております白石が 担当させていただきますどうぞよろしくお願いいたします ありがとうございます では本日の流れをご説明いたします今日は各チームの発表の 後コジマから評価基準の説明 そして皆さん楽しみにされて いるであろう結果発表に移りたいと思います その後 松尾教授によると表彰式笹山がささやかながら 開催をさせていただきましてその後総評そして今後の アナウンスという形に移れたらなと思います 表彰式オンラインでご参加いただいている方はちょっと参加 いただけずに恐縮なんですが 会場にお越しいただいている 方でお名前を言われた方はぜひ前に出てきていただけたらなと 思いますのでご協力のほどよろしくお願いいたします 最後に 懇親会も実施させていただきます オンラインの配信は 懇親会前までと今後のアナウンスの 部分までとなりますのでそちらご了承ください 本日長丁場となりますがどうぞよろしくお願いいたします 最初に改めて今回の結果発表会初めてご参加される方もいらっしゃる かなと思いますので 本プロジェクトの概要等結果発表会の 位置づけについてご説明をいたします この度 松尾研は経済産業省並びにネットが開始する国内の生成 AIの開発力を強化するためのプロジェクト人役におきまして 基盤モデル開発に必要な計算資源の提供支援を受け 500億パラメータ サイズの公開型基盤モデル開発に取り組んでいます GENIACにおける松尾研としての取り組みは 有志の開発者の メンバーここにいる皆様ですね が500名 500億パラメータ サイズの大規模言語モデル開発を進めるというものです チームメンバーは提供する松尾研が提供する講座の修了 生および一般の公募によって構成されています また本プロジェクトでは 開発されたLLMの公開のみなら ず 開発過程の公開 そしてこれらの成果を社会全社会全体で 共有することを通じ 日本全体のLLM開発の技術レベルの 向上と社会実装の加速を目指しています 本プロジェクトの第1フェーズにおいては チームに わかれまして 複数の研究テーマを設定し 探索を 行い 知見を共有しながら試行錯誤することで 実用的 かつ効率的な手法を模索していきました そしてこの結果発表の後第2フェーズにおきましては 最優秀に選ばれた1チームが500億パラメータサイズの LLM開発に取り組むことを予定しています 本日はこちらの第1フェーズにおける各チームの取り組み 発表と結果発表会という位置付けとなります 今年3月にですね 同じ会場福武ホールで開発のキックオフを 実施させていただきまして この数ヶ月間 皆さん本当に 盛り上がって開発に取り組んでいただきました 3月のキックオフの際に松尾教授からはこんなスライドが 提示されてコメントをいただきました このプロジェクトの中で試行錯誤しながら 重要であるノウハウを 共有することで良いモデルを作り 開発経験を積んでもらいたい また このプロジェクトを通してより多くのLLM開発者を生み出し 参加者の皆さんが様々なところで活躍してもらいたい そんなコメントをもらっています 皆さんご記憶にはございますでしょうか?もちろん一番の関心事項は 結果発表自分のチームどうだったかなっていったところかなという ふうに思うんですけれども ぜひ他チームの活動内容も聞いていただき まして 今後の活躍の糧にしていただけますと幸いです それではここから各チームの発表の発表に移らせていただきます 各チームの発表時間は10分 終了時間の2分前にベルを 1回終了時にベルを2回鳴らさせていただきます それではトップバッターとチームGENIACの 中村さんお願いいたします はい ありがとうございます人脈チームリーダーの大阪大学 修士1年中村仁ですどうぞよろしくお願いいたします 目次はご覧の通りです 最初にチームの紹介です 我々のチームは様々なバックグラウンドを 持った方々によって構成されています これを可視化するために学生アカデミーや民間 行政 経理と分けて可視化しました 我々のチームはリーダー サブリーダー 開発 リーダーメンバーで構成されています 特にご活躍いただいたメンバーのご紹介です ご覧の皆様の強い貢献により開発が進展しました 最後にメンバーの皆様です 多大なるご協力をいただきました 次にチーム構成についてです 我々はボトムアップを基調とし マネジメント チームがサポートを行いました チームミーティング等を通じて未綿密な連絡を行いました 事前学習事後学習のフェーズでは 会議を打つ会議を 追加し 迅速な対応と調整規制を行いました 多少の調整はありましたが最後までボトムアップを貫きました 私達の目標は公立高品質な日本語データセットを構築し 知識点を見据えたデータセットに工夫を行うことでした 特に日本語の特性を最大限に生かした生成モデルの 構築とLLM人材の育成に注力しました 開発ステップはこちらの通りです 後ほどご覧いただけると幸いです 次に学習corpus構築です 事前学習のために収集加工したデータについてご説明します 学習データ100ミリオン日本語データ 100Billionを準備しました 特に国会議事録など 高品質な日本語 データの学習に重点を置きました 事後学習用データについてです 合成データ省庁会見データなど多様なタスクに 対応するためのデータを収集し加工しました 遠くない座の構築についてです LLMJPと遠くないザバージョン2を参考に フルフルフルスクラッチで構築しました 頻出する固有名詞の分割を防ぐための工夫を行い モデルの 性能を最大限に生かすことを引き出すことができました 次にモデル構造です 我々のチームではDPCFMいいモデルを採用しました このモデルはエキスパートの増加やりウェイティング構造の 改良により 学習効率を大幅に向上させています GPTGPTやミックスとRAGも試しましたが 学習効率や スケール化の観点から 最終的にもうモデルを採用しました 次に事前学習事後学習です 事前学習では 学習 学習順序に工夫を凝らし タスクの質を 失礼しましたデータの質を最大限に引き出すように努めました 本番環境でのエラー対応についてです 型エラーやデータせ データセット前処理の失敗 などが盛んなどの問題が発生しましたが 適切な 対処 対処を講じ 学習を継続させました 事前学習の結果 データセット分割の影響に より 様々なロスが観測されました 過学習を行っていないことも確認することができました 次に事後学習についてです SFTではLLMJPSFTを使用し 指示応答形式に あるにある程度掻痒に映画なりましたが 自動翻訳 的な出力や文章の一貫性に課題が残りました DPPを実施した結果 学習自動翻訳的な出力を深め含む 含まれており 日本語のせい正確性向上は未達成でした さらに多くのデータを使用して再度BPOを実施したところ 改善が 見られたため データ量が不足していたと考えられます データセットの学習順序についても実験を 行いましたが 正式採用は断念しました 次にモデル評価です LLMJP威張るのスコアはSTSFT単独時からDP王子 工事まで 実施後に大きな変化は確認されませんでした 一方MTベンチのスコアは SFTP単独時からDP 実行時 実施時には若干の向上が見られました 我々は心理英語学習させたモデルの構築を行いました 学習が不十分でしたが モデル音楽もデータを 増やすことで対応できると考えています そのため インディゴは日本語と近い文法構造を持つため 日本語データセットの他に役立つと考えています アジア圏には日本語と類似した文法を持つ言語が多く 将来的にはこれらの言語に応用可能なモデルを構築 することが可能であると考えております 次 最後に開発を終えてです 開発全体を通じた総括としてLLM開発の大変 さやGPU環境の重要さを理解しました また 多様なメンバーをメンバーが参加することで 技術的な 発揮発展だけではなく コミュニティの形成が進みました フェーズ番号はナレッジのまとめやデータセットの 公開を考えています 最後にチームの皆様 松尾岩沢研究室を 始めとした皆様に感謝申し上げます 以上で人脈プロ人脈チームのPhaseOne発表を終わります ご清聴ありがとうございました 中村さんありがとうございました ありがとうございますご質問がある方そしてコメントがある方は LLMのチャンネルの方Slackの方にお願いいたします それでは続きましてチーム熊の熊谷さん チームをお願いいたします それではチーム熊の発表をさせていただきたいと思います まずチーム紹介からいきたいと思いますこちらの31名のメンバーで 開発を行いました特に頑張ってくれた人として富谷宮沢さんが 遠く内在セーフティのところ特に頑張ってくれた加藤潤さんが 銀フェイス変換のところを特に頑張ってくれました 太田進さんがアスクルMやデータの整備のところを 特に頑張ってくれました チーム内の組織図なんですけど 事前学習開始まではデータチームが 遠くない山の学習事典学習データの準備モデルチームが 学習コードの 作成モデルの学習評価チームが事後学習データの準備と所学習方法の 調査で事前学習を開始した後は モデルチームがやることがなくなった のでデータチームと評価チームに統合してデータチームと評価チームに わかれて開発を行いました それでは学習コーパス構築の説明に入りたいと思います まず事前学習用データなんですけど僕たちのチームは前処理 コストの低いデータセットを優先的に採用しました学習後半の データセットが性能に良い影響を与えるという観点から後半に 良質なデータセットを学習させるようにしました まず前半の事前学習のデータは 英語データがスリム パジャマで日本語データがカルチュアXのデータに なってます処理方法としましては英語と日本語を混合 してシャッフルさせた状態で学習させました こちら カルチュアXがデータの説明に既にZアップされてると 記載されていたためデータ部処理をせずに学習しました学習の方法なんですけど 本当はパッキング処理を行うべきだったんですけどちょっと羽バックでの データでpaddingやケースです 切り捨てがされる状態で学習をしました事前学習の後半の事前学習 では こちらはのデータと国会議事堂や判例だったり 雪青空文庫 ライブドアのコーパスのデータから学習データを作りました処理方法 としましては 後述するアスクLLMによるフィルタリング処理を 行ったのとDAP処理とこれまた交流するパッキング処理を行いました 反省点としましてはZAP処理とパッキング処理は1回目のデータに 対しても行うべきだったと思っております 次ちょっと少LLMについて太田さんに説明させてもらいます はい東京工科大学で非常勤をしている太田といいます ですね 少LLMというのは今年の2月にDeepMindから発表された 論文で紹介されている手法で まず目的の方がですね LLMの主に 事前学習データを既存の代理LLMと既存な既にあるLLMを使って スコア付けをして そのスコア上位から高いものを取ってくるという ことで高品質なデータのみで学習することで学習のデータ効率と計算 効率も上がるということが言われていて例えば8割のデータを事前 学習データを削減してもフルでやったときと同程度の性能が出ると いうことが論文では紹介されています それ方法はちょっと今日時間があまりないので 右側の方にあるんです けれど事前学習データの一つを一つ取り出してきてシャープの中に 入れてこのデータが有用であるかということをLLMに判定させて ポイントなのがイエスとノーで答えさせて イエスの生成確率をスコアと するという部分がこの論文ではかなりポイントとなる部分でこれは 結構重要でかなり小さな3B4ぐらいのモデルでも十分スコア付けが できてその結果チームで10名の方にアノテーションしていただいて 実際に1人スコアをつけたと それとあそこLLMの相関係数が0 .53で性の高い相関が出たということなので ちょっと下流タスクの 精度はわからないんですけれど 人間にかなり近いスコアが出せると いうところまでは確認できたということです成果としてはPythonの モジュールとか実際のデータセットも既に12個ぐらい公開していると いう状態です 以上です ありがとうございます 次学習データのパッキング処理なんですけどベストフィットパッキング っていう論文に書かれてるような処理を実装して行いましたこちらは 文章の区切れをちょっとアルゴリズムでうまく判定して普通に 連携させるよりも効率的に学習できるようにな処理になっております データの削減された法律なんですけど 青枠のところに書かれて いるように判例データとか国会議事堂データとかが短文で短い データが多かったのでこちらの処理を行うことで3割程度に圧縮 されて学習時間が削減されました 次遠くない図について説明していて はい 宮沢と申します 遠くないぞについてはこのような形で構築を行いました LLMJPトークないTheというライブラリを使って 日本語コーパス英語コーパスと算数系のコーパスとプログラム corpusからそれぞれ5位を獲得してマージして一つの 5位にしてからユニーgのスコアを再推定して遠くない 座を構築するという流れで行っています 語彙サイズは約5万6000円で こちらは山系のモデルで継続 学習で日本語モデルを作るという世の中のよく出ているモデルの 方で大体合意サイズが4万から5万ぐらいだったっていうところと 今回事前学習に含める日本語のデータ量っていうのがかなり多い ので日本語のテキストっていうのが ひらがなだったりカタカナ だったり漢字っていうかなり種類が多いっていうところを踏まえて 4万から5万より少し大きめのサイズにしました 言語の割合としては 大体英語と日本語が6対4程度になるように していて これは事前学習する予定だったコーパスの大体の比率が このくらいだったのでそれに合わせたような形になります アルゴリズムとしては代表的なものBPという2gあると思うん ですが 今回LLMJP遠くないTheが元々unigを想定した 作りになっていたので輸入車を選択したというところと 先行研究 でも 日本語ではなくヨーロッパ圏の言語なんですけど英語とヨーロッパ 現ヨーロッパ圏の言語に関する多言語モデルを作ったときに BP よりもユニーgの方が下流タスクの精度が高かったというところ なので今回このアルゴリズムを選択しました 空車点としては日本語は形態素解析の事前処理を入れたというところ だったり数字を1桁区切りにして声を設定したり あとはシンプルに 日本語のテキスト像から5位を獲得するとかなりカタカナ語が 多かったり一般的に使われる言葉っていうのがあんまり入って きてくれなかったので日本語の常用漢字一覧だったり引き隣だっ たりっていうところから一般的に使われる 言葉だったり1名 交互表現定型表現などを5位 行為の中に追加するような処理を行いました あとは標準コードだとt5遠くない座がベースになっていたんです けれども この後お話するんですが 私達ミックスとられる スペースになっていたので元々のミックスとらるのモデルで 使われているラマ島区内Theだったり今回事前学習だったり 事後学習に使うライブラリも遠くない前提のものが多かった のでそれをそこに変換してな形になります ありがとうございます 実はモデルの構造について説明したいと思います自分たちは ミストラルベースの萌乃構造を採用しましたこれはドロップ レースも多いという萌のトークンドロップを対策した構造に なってまして並列化はMP4DP6で行いました こちらの構造はエキスパートがそれぞれのGPUに分割されて 配置されるような形になってます学習方法としましては構造の モデルを最初から学習するというような形をとりましたモデルの 構造決定までの経緯なんですけど最初はPixel7×8Bを 学習しようと思っていましたただ 学習ができたのですが3 ノードでは事前学習するのに十分な計算速度にほど遠かった のでこちらの採用を見送りました サイズを小さくした萌が Llama2ベースの電通のモデル 化最初にLlama2ベースの点数モデルを学習してその後 これを駅すぱあと食事にしても学習するかの候補が挙がったんですけど 一番最後はやりたかったんですけど リソース的に残念をして サイズを小さくした萌えを採用しました ジェット萌という論文が程度のサイズで 同程度のH100の 時間で8Billionと同じ程度の精度だったのでこちらを 参考に学習しましたサイズが小さくなったことで並列化の方は 急遽代わりRAGフェイスのコードの修正作業が発生したんですけど そちらをメンバーに対応していただきました こちらが事前学習の結果となります2回に分けて事前学習を 行ってますロススパイクなどはなくてあとも論文などで デンソーよりも高い学習率がいいというような話が書か れていたのでちょっと比較的高めの1.0掛ける10から 10のマイナス3乗まで学習率を上げてます 左側が1回目の事前学習のときのロス大体1.998 ぐらいになりました右側が後半の事前学習継続して 学習のロスで大体1.78ぐらいになりました 55学習はおよそ3万件のデータで自己学習を行いました こちらがモデルの評価の結果になりますFTに入れるデータ によって出力がかなり変わっていましたマルチ他のデータは MTベンチの結果の向上にシングル他のデータは LLM ジェイPRの結果の向上に寄与していました こちらメンバーの開発に対する感想になります 以上で事務熊谷の発表を終了します ありがとうございました では続きましてチーム甲と配島さんチームお願いいたします はいヨーク大学の配島と申します私からはチームチーム昨日 発表させていただきますよろしくお願いいたしますまずチーム 紹介なんですけれどもメンバーの全体像ということで総勢29 名で大体属性はこんな感じで半分ぐらいが社会人半分ぐらいが 学生といった構成になってました稼働時間っていうのもほとんどの 方が20時間未満の稼働時間というところで 大体1日3時 間弱かけられるっていう方ですね なのでキャッチアップの時間とかも考えると やっぱりみんなで 手分けして作業を行うことが重要なプロジェクトでした こちら一部抜粋なんですけれども本当に多様なバックグラウンドの 方々が参加してくださっていました 組織図はこのような形になってまして他チームと学習チーム大きく 二つに分けてますそれらをにまたがるような課題とかを解決する 全体統括チームというものも置かせていただきました 私達のチームではのボトムアップ型開発というのを掲げさせていただいて おりまして 特徴としては例えばその学習チームの方では メンバーの 方々自らがプロジェクトの例えばモデルですとかっていうのを発生 考えてプロジェクトチームを立ち上げてチーム化していくサブチーム 化していくといった動きをしていました他チームの学習チームの兼任の 方とかも数名いらっしゃり 全体統括チームに入ってくださる方とか もいらっしゃるっていうところで このチーム間の連携というのを とっていくというようなの組織構造になっておりましたこれからデータに 関することですとかモデルに関すること担当のチームリーダーの方々から ご説明させていただきます よろしくお願いします はい続きましてデータの方について説明させていただきますまず データのを集めるにあたってLLMのコンセプトを決めます日本語を 学習するということなんで俳句短歌が読めたらいいだろうっていうのと あと傾聴力のあるモデルにしたいということで 逆算的にモデルを データを集めていきました事前学習データとしては2本500ミリオンと 高度20ミリを使っています 日本語としてはこれらのデータを使ってコードはこういうコードを 抽出して使っています事後学習データは既存OSSデータを活用 しつつ独自作成した高難易度のタスクデータを合わせています 事前学習データセットの方なんですけど まず基本戦略として 計算リソースを日本語と行動に集中しました フェーズ1で訓練可能なトークン数というのは200日4から300 ミリオンが限界と試算されていたのでされていましたし10ミリオン 程度のモデルでは知識転移は起きないんじゃないかということだった ので日本語が多少少なかったとしてもそれを複数回回すことで200 日を回そうという戦略でやっていきました 日本日に日本語データ100ビデオの方なんですけどベースとしては 公開されてるMCforオスカーなどの大規模データセットでこれは 基本的には他文章の圧縮率基準のフィルターRAGでフィルタリング してあと単語とかのフィルターをやっています何がやりたかった かというと単語を羅列とか同じ文章の繰り返しみたいなものを削る っていうのが一番最初あと 広告を割と削りました他の内容はあまり 厳しく検閲せずにそのまま突っ込んでいます全データ投資重複状況と いうのをやっています それに加えて高品質なデータとしてWikipediaと 青空文庫を使っていてこれら一つのサンプルが長いので 前後が少しかぶるように先端5ぐらいです スプリットして投入するということをしています またこれらのデータに関してはモデルがどこから来て いるかドメインを認識できるように先頭にメタデータを 付与するみたいなことをやっています それにプラス今回配布単価を読みたいということなのでモデルに その日本語の音ですね漢字かな交じり分でデータを与えられる わけですけど本当はその音を知らないと合意事項が読めない のでこれを教えるためにちょっとした人口データを加えています 具体的には漢字かな交じり分からひらがなとか読みとか文節 分けといった日本語の中学生の国語タスクみたいなものをやる ためのデータってのを作っています 2+20ミリオンコードデータを加えてましてこれは GitHub由来のコードからライセンス問題の ないものを抽出して突っ込んでいます 内訳はこんな感じで日本語のコメントとかを含む ものは全部導入しているという感じです 事後学習の方では基本方針としては質の高いデータの方を 質を優先して量を集めるということをやっていますどういうのが 質がいいかっていうと 形式がしっかりしてるその文体とか 文章構造がしっかりしていてタスクとか内容が網羅的であって ちゃんと論理的なアウトプットができるようなこういうデータを 作ろうということです いかんせん量を集めるのが難しいのでここは既存既存のOSデータを 積極的に活用しつつ事後的なフィルタリングとか修正で品質を上げて いますできたものは4万件ぐらいのデータができていて こんな 感じのものになってますあと俳句を読ませたいということなので 俳句短歌データも使って作っているんですけど これは今回の時 学習ではちょっと使う余裕がなかったので今後再学習したものを 公開できればなと考えているところです 遠くない図のところなんですけど語彙数5万5000語のものが できています日本語語彙数が4万語でコードの語彙数が1万5000 語です作るときは日本語コード別々で作った後で マージして います重複を加味した上でマージさせています はいとりあえずデータと遠くない図に関しては以上です はい次にモデル構造についてお話させていただきます僕らのチームは ミストラルの9ミリオンを採用しましたベースはメガトロンディープ スピードの実装に対してはサイドウィンドウアテンションだっ たり元の論文とはちょっと違うですけどローリングバッファキャッシュの 代わりにページたテンションでのキャッシュの手法だったりを 採用して組み込んだ形になります モデル構造決定までの経緯なんですけど僕らのチームは事前学習を フェーズが入ってなるべく早く進めたい 早く始めたいっていうような モチベーションがあったのでミックスとあれだったり球宴だクエン だったりミストラルの三つのモデルを実は用意してました ただ実際フェーズ1に入ってモデルが簡単に乗ってスムーズに 開始できるのはどこかってなったときに MICストレート 9円がかなり難しいなという結論に陥ったのでミストラルに なったというような経緯になります 事前学習についてです事前学習時にあったことですけどモデルが 乗らない結構どこのチームもあったと思うんですけどモデルが 乗らなかったりFLOPSが出なかったりでかなり苦労したところ もあって特にうちのチームでは7が故障していたために2ノードで 学習を行うことになったりその後 3ノードになったときの対応 だったりとその辺かなり苦労しました結果的に学習に関しては ロススパイクは起こらなかったです 次次続いて事後学習について説明させていただきます まずロープ問題ということで ロータリーポジション エンベディングがメガトロンディープスピードトランスフォーマー ぜ互換性がなくて ちょっと形が違う いたっていうところで推論結果が0がちょっと違うくて 恐縮なんですけど夏目漱石はとなると楽天市場と関係の ないことを言ってたんですけども直した後は日本語ちゃんと した日本語で答えるようになったという感じです 学習手法の検討としては 事前学習の段階ではフルパラメーターの 予定だったんですけども推論結果の実際やって学習してみると 推論結果の日本語がやはりちょっと崩れていたりしていたので ローラーや道路といった他の手法をやると数十件のデータかつ 数分の学習で十分学ぶことができました実際のデータ作成データ 収集については実際学習を回すとやっぱ質問あるいは悪いデータ や足りないデータというのが明らかになっていたので最終日まで 学習をしては推論結果を検証してそしてそれをもとにデータを 改善するというサイクルを回し続けました特にデータの改善については メンバーの方がたくさんの方にご協力いただいて何とか改善が できたことによってMTベンチでは最初1点4点台が3.5点 台というふうに上がっていきました はい このような開発の経緯を得まして最終的にモデル評価というところで はいいくつかそういったモデルが出てくるわけなんですけれども その中からどういった基準で選択するかというところで チーム 内で話し合いましてLLMジェイPRとMTベンチをもとにした リーダーボードのスコアを基準としつつも 汎用性の高いモデル っていうのを最終的に選びたいというところでMTベンツの方を より重視するというような選択をしました結果的に選んだモデルなんです けれども大体各指標のスコアはLLMJP0とMTベンチこのような 形になってましてこの星マークのところこれこちら横軸がLLM JP0で縦がMTベンチでこの辺の部分はいつも一方に強みがあって この辺は精製能力が高めでといった数になっているんですけれども これ有名どころですね結構出てますねGPT-4とか出てる中で この辺がイライザの7Bとかなんですけど私達のモデルはこれっていうような 形になってますMTベンチのそのスコアの詳細のところを見ますと ここのXトラクション情報抽出のタスクのところで強みのある モデルができたというところでおそらくこの点は私が観測している 中だと全チームの中でも一番なんじゃないかなというふうに考えてます ちょっとここはなぜこうなってるのかってちょっといくつか 仮説は出てるんですけれどもちょっとまだチーム内でも 正確な答えが出ていないところではあります はい開発を終えてなんですがいろいろと学んだことはすごく多くて 理解すべきことも多いですしデータセット主導に使用する自動に しよう何かしらコストがかかってくる中で より多くのデータを 集めることが難しかったこと あとは他の開発者開発者さんで阿部さんとかに も御協力いただいて勉強会させていただいたり ストックマークさんに ご質問させていただいたということで他の開発者の方々との交流が 非常に重要な開発でした なので最初にLLM開発1人にならずという言葉をこれ実は全体 統括チームのリーダーの宗光野さんの言葉なんですけれども本当に そうだったなということを実感したプロジェクトでした私達のチームを 支えてくださった皆様 心より感謝申し上げます ご清聴ありがとうございました ありがとうございました チーム甲の皆さんでした ありがとうございます APEXも入れていただいてますね はい それでは次はチームビジネスの川越市チームの 皆様よろしくお願いいたします 栃木ビジネスの川越しですそれで発表を始めて いきますよろしくお願いいたします まず初めにチーム紹介というところなんですけれども 私達はビジネス用途の方針で 精度の高いモデルを 開発することで コンペの優勝も目指しました 学生社会人どちらも所属しておりますが 主に 社会人の多いチームとなっております 次にチームの組織図なんですけれども今回人数が28名以上という ことでチームメンバーを三つのチームに分割いたしました そしてそれぞれのサブチームにわかれて作業を実施いたしました 次に学習コーパスの構築というところに 対して説明させていただきます 今回英語講座で学習後 日本語で学習するという継続 事前学習の方針を得ておりましたそのため英語行動 日本語の三つのセットを取得いたしました と いうことを高度のデータセットに関しましては 前処理済みの綺麗な 既存データを採用いたしまして 日本語に関しましては既存のデータを データセットに関し加えて 例えば国会議事録ですとか白書 また 法律ですとか有価証券報告書といったようなビジネス系のデータを Webクリッピングで取得いたしました こういったデータセットに対して次に前処理を行ったんです けれども 英語と行動に関しては綺麗ということでした ので日本語にのみ前処理を実施いたしました 実施内容といたしましてはこちら右側にありますようにテキストに 対して赤色のパラグラフレベルで行う前処理と青色のA.0で終わ るような一部レベルで行う前処理に分けてセルを行いました その前処理はこちらに書かれているように行ったんですけれども その後にですね 三橋による重複処理を実行いたしました こちらの右端による重力処理ではですね パラメーターと してNgの文字数ですとか KHといったものがございますが そちらですねどちらも大きくするほど精度が良く 重複分を 取り除くことができるということがわかりました しかしながらメモリですとか 計算量が大きくなるため そのあたりも鑑みて 私達のチームでは10gKコール 4を基本として重複処理を実施いたしました そしてジューク処理まで行ってせデータセットを 用いて遠くないずというところを行いました こちらは日本語英語コードそれぞれで仙台スピースのNgで学習を 行ってから合意をマージするということを行いました 日本語に関しましてはめかぶで事前分割 後に遠くない処理を実施いたしました 右のところに圧縮率とこちら引きのデータと有価証券報告書 等の電通データで算出算出したものになるんですけれども LLMJPの宮内座では1.51という圧縮率に対し 私達の 東京アジアでは1.6と圧縮率が高くなっております この結果からビジネス系の単語が短い遠くで扱われると推論 速度の向上が期待できるというふうに考えられます 次に事後学習用の自作データというところに 関して説明させていただきます 私達のチームでは言語理解ですとか 数学的推論 要約 などLLMに必要とされる能力を17のタスクに分解いたし まして それぞれのタスクに対応したプロンプトを作成 し ミックスとなる8画22Billion使用して データセットを大量に生成いたしました さらに生成したテキストに対して LLMによる品質の判定ですと か 自動修正 また目視による修正を行い綺麗なファインチューニングの データを大量に作成いたしました 次にモデル講座に関して説明させていただきます 今回私達は多くの企業で検証済みの江良モデルを採用し RAGⅢ同様グループアテンションを導入いたしました 学習期間と計算資源の最適化 またLlama2の パラメータ等を参考に 最終的にこちらの12.3 ミリをパラメータサイズで決定いたしました こちらのモデルのパラメータ決定するに当たりまして 計算資源の最適化が結構関わってきましたそちらに 関して説明させていただきます 今回TFLOPSを上げるために様々な 試行錯誤を実施いたしました そこで得られた知見としてしましては 精検数lengthを 小さくしてアクティベーションチェックポイントをプレゼン することで速度を向上するといったところ またモデル パラメータを最適に分割できるように MPPを調整する ことが重要であるといったところです こちらのPPを調整するというところに関して 少し細かく進めさせていただきます 下の図がPP6MPコール1でディープスピードに よるモデル分割された際の結果となっております 左から二つ目のA列がですね 10ミリをやめた分割 した場合の結果 そしてその右側にありますのが12 Billionで分化した結果となっております 今回ですねPコール6ですので六つに分割されているんですけれども PP0が一番左上左ですね JB4ですとPP0が2億ミリオン パラメーターに対してP5が1Billionパラメーターと いうところで 入力部分と出力部分でかなりパラメータのわかれ 方が異なっているということがわかりました このようにバランスが悪いというところでPP0がボトルネック なってる一方で PP5月に地上隊というようなところで TATFLOPSとしては240といったように かなり 下がっているといった結果となっております 一方で12Billionではかなり均等に分ける ことができまして大体400TFLOPSほどレッドで 出ているといった結果となっております 私達のチームは社会人が多くですね 土日での開発活動が主な ため5月17日金曜日に学習が可能となるように ボトルネック 部分であるフィードコアネットワークの大きさを調整して パラメータサイズを12.3秒に決定いたしました 次に事前学習 自己学習というところに 関して説明させていただきます まず事前学習ですが 私達のチームでは 英語行動10対1の 割合で95Billion学習後 日本語英語行動10対1 対1の割合でWeb一般知識報告書 法律企業数学の順で85 秒学習させましたドメイン変更時にロスが増加するですとか 途中でいくつかスパイクが発生したんですけれども 自宅に 関し出力に関しては特に問題はございませんでした しかしながらハッキングフェスへの変換というところで少し 苦労いたしましてまず止め方のディープスピードでは萩フェイス への思いの変化Llama2コードですとか MPPが人 以上のものをサポートしてもらうしておりませんでしたので 閉館へ変換スクリプトを構築いたしました またディープスピードのステージごとにもチェックポイント 構造は異なっておりましたのでそれぞれ準備いたしました そのおかげで事前学習後の戻り変化問題なく 実施することができました また遠くない座の返還というところで 標準工場の標準コードの thave方式でセンテンスピースモデルを返還いたしますと こちらの左下のように スペシャルトークンが分割されて しまうといった問題点がございました そのためLLMJPの変換方式を参考といたしまして ブラインド 区内TheFirst方式を採用いたしました これによりトークの合図が正しく変換することができました 次に自己学習というところなんですけれども今回既存のデータセット 100万件を事前学習済みモデルに対してセーフティを行いまして その後自作データセット3万件をFTいたしました その後試行錯誤過程で作成した他のモデルも合わせて三つのモデルで 進化的モデルマージを実施し さらに精度を向上させました 次にモデル評価というところなんですけれども 今回SFPによる 学習では データセットを増やすほど精度が向上いたしました 例えばこちらの図にありますように事前学習済みモデル ではJRさんのアベレージが0.029なんですけれども 100万件でSFP行いますと約0.363という ふうにいう形でかなり上昇しております その100万件のFTしたモデルに対して 自作でセットを 用いて学習を行い さらに精度を向上させました BPOは実施したんですけれども 繰り返し分が増えるなどの 精度低下を確認いたしましたので 不採用といたしました そして先ほど説明ご説明させていただきいただき ましたように精度の高い三つのモデルを用いて 進化的モデルマージを実施いたしました こちら結果としては ジェイ明日が少し下がりましてもJMTベンチが 上がるという結果となったんですけれども 平均値が高かったので こちらの次モデルは最終的に提出いたしました 最後に開発大手というところなんですけども今回開発センター を通じてとも今までご説明させていただいたような知見を いろいろと得ることができました しかしながら今回ですねビジネス適用の有効性までは確認 することができなかったため今後このようなところに関して 確認できればなというふうに思っております こちらで発表は以上になります ご清聴ありがとうございました ありがとうございました それでは続きましてチーム天元突破の 尾崎さんチームお願いいたします それではチーム天元突破の発表していきますよろしくお願いします キックオフのときにですね天元突破って何ですかって言って 全然通じなかったんで 何かこういう空色デイズでChatGPTが つぶやいた画像だけ載せたんであとは皆さん推論いただい たらいいかなと思います はいでは私のチームとしてはLLMの春新書の提言を目指しました ここにある論文の通りですねハルシネーションの原因というのは 主に加算階層ありましてそのうちの一つがですね不完全なデータソースです 従って事前学習データの品質が非常に重要ですなので元々のデータから クリーニングフィルタリングにフレージングいろいろあると思うんです けれども そういったのを通して高品質な学習corpusにすると いうことがすごく大事でした参考資料としてこういったところ 参考にさせていただきました チーム紹介なんですけれども 遅ればせながらなんですが大阪 公立大学大学院今修士1年って書いてるんすけどごめんなさい 2年になりました尾崎ですよろしくお願いしますそれ以外に もメンバーの皆さんや 今回 てんちむ天元突破ではサテライト コアメンバーという形でより能力の高い方々をにですね発言権を できるだけ持っていただきたいということでこういった方々に 役職を与えることになりました チームの組織図としてはこのような形になっていてちょっとずれてるんで あれなんですけど コレクションとキュレーションとモデルトーク ライザーの3チームを大きく分けてコアメンバーがサブチームのリーダーを それぞれ務めるというような形になりました リーダーとサテライトコアメンバーともろもろみんながチーム 全体を支えるという形ですねそれ以外にもサポートチームという 形で文献資料を整理したりとかチームの状況をセーブしたりと いうような役割を持ってもらうチームを作りました では学習corpusの構築なんですけれども データコレクション についてはLLMの開発で利用歴あったりとか 著名なデータセットを 中心に選択しまして日本語英語数学コードバス2E2という かこの四つを主に集めました データキュレーションが最も基本的なところなんですけれども 右側にあるようなパイプラインでキュレーションを行いました 主にLLMJPやスワローで実施されているフィルタリングを してまして ほうじ茶というテキスト処理ライブラリがあるんです けれどもこれを改良したフィルタリングコード等々でフィルタリングを 行ってですね全体として低品質なテキスト全約4割をフィルタリング するに至りました 量は少ないんですけれどもLLMりフレージング実施しています 最終的に上がった事前学習データセット このような形になっています 事後学習についてなんですけども事後学習のデータセットは 基本的に既存のSSプラスちょっとオリジナリティのあるデータと いう形で集めています合計約10万件程度ですかね 東北のいざに関してなんですけれども 標準コードに 準拠しておりましてセンテンスピース遠くない座で 日コードそれぞれでブラウザを作成しまして最終的に マージするというようなことになりました 語彙数なんですけれども約5万ぐらいになっていてLPが 日本語で2を超えているっていうことで非常に遠くない山 にはなったんではないかなというふうには思います モデル構造についてなんですけれども Llama2アーキテクチャを 採用しました非常にオーソドックスな方だと思うんです けれども この載せている論文にあるようになかなか良い アーキテクチャと総合ベースでなかなかいいアーキテクチャと いうことになりました 長いコンテキストの埋め込み精度が向上しているらしいです諸 パラメータはもうこんな感じで文献とそれからライブラリ等の 実装事例に基づいてモデルチームに選んでいただきました最終 的には11Billion程度のモデルが出来上がりました ミストラルIMO今検討したんですけれども 実装難易度とスケジュールの 観点から今回は断念するということになりましたが今発表あったように MEを採用するチームもあってそういった知見が集まったら非常に 良いことだったなと思います では事前学習なんですけれども先ほど紹介した事前学習のデータセットを 全部で4ステージに分けて心をカリキュラム学習と呼ぶのかどう かわからないんですけれどもこういった形で学習しましたユニーク だったのは日本語メインのコーパスをステージ1に持ってきたと いうことですにできるだけ日本語 日本語のを作りたかったっていう ちょっと漠然とした理由はあるんですけれどもここが一つユニークな 点だったかなと思います 約180ミリオンをですね20日間かけて学習しまして最終 的にはさらに付近で学習終了することになりましたマシントラブル 以外にですね3回ほど学習がストップすることあったんです けれども特段大きなロススパイクもなくですね非常に順調に ルンダンではないかなとは思います ステージ四つあると先ほど申し上げたんですけれどもそのステージの 間でのスパイが起こるだろうなという想定は元々していたんです けれども こうやって画像にすると何か大きく出てるみたいなんです けれどもかなりさっきの画像を見ていて思い出しいただいてわかる 通り結構軽微なもので割とすぐその後降りていったんでそんなに 心配することはなかったかなというところです 事後学習についてなんですけれどもFTによるフルパラメータのファイン チューニングに最終的になりました実験でですねローラだったりと か振るパラメータのSFT+DBOだったりRPOONFちゅうん ですかねとかもいろいろ試したんですけれどもそれぞれ事後学習に関しては 最終的なモデル評価と同時に行っていたのでそういった面でスコアで FTによるフルフルパラメータTuningに勝てなかったっていうところで 断念するに至りました モデルの評価についてです 最終的に提出させていただいたモデルについては 上に書いてあるようなスコアになっています そこが近いモデルとしてはスワローの13Billionの 指示インストラクションとRSFが終わってるモデルと 大体似たような形になったかなというところです 次事後学習データですね最終的にこれでいこうみたいなのができ 上がってから大体6区6回ぐらいいろんなデータセットで試しました なんかどれが行ってどれが駄目みたいなのでパズルゲーム的なところが あったかなというような最終的な感覚があります 最後なんですけれども元々チーム天元突破としてはハルシネーションを 低減したいというところで非常に真実性の高いモデルを作りたいなと 考えていましたそこでですねちょっと全然コンペとは関係ないところで メンバーの方がですねJトゥルース触れJTS9Aを算出いただいて 最終的になかなかいいモデルが出来上がってんじゃないっていう ことで評価することができました JTS9AっていうのはLLM真実性信頼性安全性を図るための ベンチマークなんですけれども上に書いてあるような形の問題が 何個が入ってるというようなデータセットになりますこの表のモデルと 比較してもですねなかなか数値になっていますGPT3.5Turboの ロバートのところを見てほしいんですけどバターで評価を行った 際のところの数値を見てほしいんですけども大体似たような水準に なっているしそれ以外にもですね著名な日本語LLMに比べても なかなか良いスコアになっていて 高い真実性を持っているなと いうふうに評価できるかなと思います 最後に開発を終えてなんですけれども率直に非常に悔しいコンペに なりましたいろんなことが本来なら持ってきたと思うんですけれども 私の経験不足とかマネジメント不足もあって なかなかできることが 全部できないっていうような形で皆さんにも チームのメンバーに も悔しい思いをさせたんではないかなと反省しています このLLM開発はですねスケジュールと人的リソースとの 戦いを多分今後もどんなプロジェクトでもやっていくんだろうなと 想像するんですけれども 団体戦だというところであとは 脳内で棒危ないそうなりましたの曲が流れると嬉しいなと 思ったんですけれどもなんで 皆さんも多分もっと協力しないと いけないのかなというところです アウトプットとして出てきたそのキュレーションの 効果と日本語から事前学習を始めたってアウトプットと いうかユニークなところですね ユニークなところがですね結構いい形で現れたっていうところは 率直に嬉しかったですちょっとJAさE2つい昨日まで行ってたんです けれども そのときにも日本語から事前学習やったモデルをGENIACで やったんですよみたいな話を振られて 振られてというか そういう 話を知ってる方がいらっしゃって 開発としてですねモデルに自己 紹介を求めたときに始まったときにはですねさすがに鳥肌が立ったんで なかなか面白いモデルができたんじゃないかなというところがあります 今後なんですけれどもこのような小規模LLMのあり方はどういう やり方がいいのかなというのがよく考えさせられました単純な汎用 性を勝負しても意味ないんだろうなというところはあるんですけれども そういったところでどう今後やるのかなというのはすごい悩ましいところです もう一点今回ユニークな点としてディベートデータを使っていました ディベートデータを事後学習で使ったんですけれどもあんまり効果を 検証できなかったのが残念なところです 本来であればこれはフェニックスの本来なら書いてあるんで 後で見てほしいんですけれども 事前学習のデータにディベート データがあればいいなというのが最初の考え方だったのでそういった モデルが最終的にできればもっとよかったのになというところ ですが 今後の研究の種になりそうです はい 以上でチームターゲット発表 ありますありがとうございました はい ありがとうございました おります 皆さんSlackの方でも少しずつコメントをいただいて おりますが発表資料もSlackのチャンネルの方に流さ せていただいているのでそちらもご確認の上 気になったところ あればどんどんコメントいただけますと幸いです はい それでは続きましてチームたぬき畠山チームお願いいたします はい ご紹介ありがとうございます チームたぬきのリーダーの畠山と申しますと結構詳しいことを いろいろ書いてたんですけどスペースなくなっちゃったので 詳細についてはSlackに貼ってある技術詳細をAPEX ご覧ください最初に自己紹介と行きたいところだったんですけど わかりやすいところからポイントをご説明します 何ができたかといいますと割と限られたリソースの中で 結構性能の高いモデルができたなと思ってます 先週に提出したバージョンがJMTベンチで4.6で その後も ちょっとBPOとかできなかったので 細々と検討していて今4 .9点ぐらいです今そこで林さんが今も計算してるみたいです それ4点9点とかそれがどれぐらいかというとこちら見ていただくと わかるんですけど 10ミリオンぐらいの規模のモデルでいけば一応 トップクラスの成績になってます成績はトップクラスであるのに対して 事前学習に費やしたトークン数というのが300ミリオンぐらいに なってます他のモデルは大体その10倍ぐらいアメリカの大きい会社が 作ったものに載ってるので 日本みたいにそれなりにお金はちょっと あるけど アメリカには敵わないようなところが新しくモデルを作ろうと 思ったときにどういうことができるかといういろいろ試行錯誤の成果が 一つ出たかなと思ってます はいチームメンバーとしては私は東工大で教員をして いる畠山と申します実は専門が化け学であんまりトランスフォーマーの こともわかってません なのでわかんないなりにスケールアップトランスフォーマーと 思いながらやってるような感じです他のチームの方々は真面目な バックグラウンドの方々がたくさんいるので そういう方から いろいろ教えてもらいながらやってます 加えてチームの正式メンバーじゃない方なんかも含めて結構 スタートアップの方が多くて こういう機会を通してより 今後 大金持ちになってもらいたいなと思ってます そうですねチームの構成は割とオーソドックスなので割愛します corpusとかそこら辺は基本的に基礎に忠実にやりました 何をしたかというとまず可能な限り大量のデータを集めました コンクールなんかも大量に大量というかが可能な範囲で集めて きて その上で汚いデータをできる限り抜きました やっぱりあのインターネット上のデータって大体商用サイトで 似たような言い回しすごくたくさんあるのでそれをかなり確率 的なフィルタリングとか 教師あり学習なんかで抜いています それでできるだけ密度の高いデータセットを作りました英語 については英語の論文とかWikipediaとかコードを 学習させて 普通のそこら辺のインターネットのデータは今回は 全部バッサリ捨てることにしました ファンTuningデータも結構頑張って集めました やっぱりあんまり良いデータセットないなということが最初 わかってきたのでからくりで働いて除去東大助教やっている 片上さんにいろいろ指示を仰ぎながら推し作り方を教えて もらいながら みんなでデータセットを作りました当時高校生 だった周さんがこちらのようなすごい非常におしゃれなWeb サイトなんかも作ってくれました ただ それでも意外とデータが集まらないなということに 気づいたので次は半自動でデータを作ることにしました これは4月ぐらいにミストラルっていう結構性能いいモデルが 出てきたので Googleのスプレッドシートに質問を打って あげると回答が結構レスポンス良く出てくるとこれをみんな 見ながらとか 部分的に修正しながらデータセット数百件ぐらい 作りましたそれでも足りないなと思ったので今度全自動で100万 件ぐらいデータを作ることにしました 今ポイントとしてはあんまり10ミリオンぐらいのモデルって 賢くないのでもうあらゆる人類とのやり取りというのを事前に 学習させたいというそういう思いで作りましたそうですね 遠くないず 関連は雨風では高地が木下とかそれぐらいの ことで あんまり詳しいことはやってないです モデル設計についてはこれも割と競うに忠実に定番の玉系の アーキテクチャを使いましたFLOPS数には結構こだわってって 言ってGPTベースよりなぜか良かったので生を使ったという 経緯もありますモデルサイズは10日よりちょっと小さめに してできるだけたくさん試行錯誤の回数をあのする機会を増やし たいなと思ったりしてやりました 実際の事前学習のついてなんですけど結構たくさんいろいろ条件が 降りました多分250回ぐらいの学習コードスタートしたかなと 思いますFLOPSも他のチームも高い方いましたけど450 TFLOPSぐらいで多分この規模でいけば割と最高クラスに なるかなと思ってますそうするとやっぱり単位時間あたりにたくさんの データを学習することができますそういうおかげで300ミリオン トークン近く学習することができました やっぱりモデルの基礎力というのが何よりも重要だなという ことを触っているうちにわかってきたのでもっと学習させ たかったんですけど 300ぐらいを学習させました 事後学習は126万件のデータでやって多分国産モデルとしては こういう取り組みはまだあんまりないんじゃないかなと思いますさらに 人工知能真面目にやってる方から多分怒られるんですけどハウスハルシネーションを 含むデータも大量に大量に学習しました それなぜかというと自動生成のデータは結構たくさん ハルシネーションが入ってるからです 結果どうだったかというと 先ほどご紹介した通り そんなに 悪くない成績だったかなというふうに思います人工合成データを 学習するようなモデルも方は許せんみたいな感じのことを おっしゃる方もいるんですけど今回試した限りにおいては そんなに悪くなかったかなという感じでした まずコントロール実験として ルールベースでハルシネーション系の 情報を抜いた日本の情報とか時系列のものを抜いたものを一緒に学習 させた100万件のやつと あと抜かないやつで比較してみると JMTベンチではバリエーション入ってた方がいろんなデータがある ので学習の能力が高かったということになりますそれに加えてスターとか Jコモンセンス 能力見てみるとハルシネーションのデータ入って てもそんなにというかやった範囲では悪いことはなかったので結果 オーライという感じという理解をしてます ただとりあえずユーザーインターフェースとしては一番 重要な指示に対してちゃんと言うことを聞くということの 能力は上げられたのでようかなと思ってます はい学習の最後開発を終えてあと何分ぐらいですか はいか 3分なんか早くしてたんで最後ゆっくり話します開発やっててすごく 思ったことは知識を詰め込むそうというのが結構つらいなということで この情報化社会においてインターネットから遮断されたスタンドアローンの 能力を競うことにどれほどの意味があるんだろうかということを常々 思いまして教育面においてはそういうことをすごく言われてるんですけど まだ現在のベンチマークはやっぱりスタンドアローンのことをやって いるなというふうに思いました なのでやっぱり次に目指すべきことは 情報をちゃんと使い こなせるモデルを作ろうということかなと思ってます 私も別に都道府県の場所全然まだわかってないんですけど ちゃんと検索エンジンを使えば生活ができます それと同じように多分AIもわかんないことはインターネットで 調べたりとか あとは計算苦手だったらツールを使うみたいなところで まずは与えられた情報を正確に処理してつつ 使いこなせ るモデルを使えばある程度社会実装には近づくんじゃない かなというふうに思ってます もちろん知識を詰め込んだりすること大切なんですけどオープンなところで 開発しても定期的にアップデートしていかないとそもそも どんどん 時代遅れになっちゃうので それもやっぱりしんどいということで 今後もしやるとすると与えられた情報を正確に処理してジェーソンを 出すとか ツールを使ってみるとか あとはやっぱり汎用人工知能と いう意味ではやっぱエージェント化できに最終的に呼び出して動か せるものとかがいいかなと思ってます あとお金でいくとやっぱり伝票を高速で安く読み取れるCRとかを 作れれば 結構世の中の人がやや喜ぶんじゃないかなみたいなことを やってます加えて性格で知識としては正確じゃないけれども こういう 論理的なことというのは合成データで結構勝負しやすい領域なので ある程度環境整ってきているかなというところです こういう人工知能じゃない人たちがやるエンドユーザー視点で フットワーク軽く開発するということには一定の意味があるん じゃないかなというふうに思っている次第です はい ありがとうございました ありがとうございました チームたぬきの発表でしたありがとうございます では続きましてたくさんアプレンティス入れていただいてますね 続きましてTeams三昧3チームの発表になります本日ちょっと お越しいただくことが叶わなかったので録画で発表ご用意いただいて おりますこちら投影させていただきます 本日はよろしくお願いします 京都大学理学部特定准教授で Teamsの リーダーをしております 三内秋吉です 突然なんですが 研究開発ということはありますよね この言葉は研究と開発が何らかの意味で近い あるいは同時にできると いう音から生まれた言葉なんですが 少なくとも私の周りで研究と 開発が同時に行われている事例を見たことがないんですね 他方で 世界に目を向けてみると OpenAIやGoogleは 内部に研究のフロンティアよりも先へ行く技術を持ち それを もとに最先端のモデルを開発しているわけです なので我々も研究と開発の距離を縮める あるいは同時に行うといった経験が必要だろうと思い 研究と開発を同時に行う研究開発を行いました さて前置きが長くなってしまいましたが 結果はと いいますと 研究としては 歴史エキスパートに関する 三つの新しい手法を試し そのうち二つは既存地方と 比べて良い結果を得ることができました モデルについては 通常のMOEと比べ25%程度少ないパラメータ 数で 5%程度低いロスを達成し またMEの学習アルゴリズムに つきましては PBXと呼ばれる既存の手法に対し 1.5倍から 2倍程度が宿主学習速度が向上するという結果を得ました また開発の方は残念ながらロススパイクが発生してしまい 未完成な 形での提出になってしまいましたので 本日は事前検証で行った 結果を中心にお話させいただきたいと思います 実験方法としましては FBTXとUPTXを改善 した手法を用いて 日本語の学習モデルの学習済みの トランスフォーマーモデルをME化しました 結果としましては 3桁の足し算の正答率が0%から65%まで 改善し 通常の文章生成能力も改善したという形になりました 下の図が生成例で 次の計算をしてください 707+398イコールという入力に対し オリジナルモデル では謎の行動が生成されてしまうのに対し MIの方では正しい 答えを生成し 次の計算も合っていることがわかります また 数字の取り扱いが良くなるという現象も起きました した出力例に見られるように オリジナルモデルは 文章の 丸の後に年月日を生成してしまうという問題があったのに 対し Mを生かしたものについては そういったことはほとんど 起こらなくなるという現象が起きました 多少技術的ギャップがあるのですが この種の 現象を利用すると 個人情報の削除などのモデル 制御に応用可能だろうと考えています 最後に 文章自体のクオリティについて も見ておきたいと思います 肌感としては全体と全体的に精度が上がった印象で 上のオリジナルの 出力では少しちぐはぐな印象を抱く文章であるのに対し M OEの出力はこなれたものとなっています それでは次に この実験がどのように行われたかを見るために Metaによるブランチとリミックスと 私の提案したフリーズの ブランチトレーニングのアルゴリズムを見てみましょう ブラントリーミックスのオリジナルの アルゴリズムは次のようなものです まず左にあるトランスフォーマーベースの シードモデルを一つ固定します これは フルスクラッチで行いたい場合には トランスは トランスフォーマーモデルの学習をそうでない場合には らⅢなどのオープンモデルを用いてもよいです このようにシードモデルを固定した後 次はN個の データでそれをファインチューニングします そしてN個のトランスフォーマーモデルが得られ たら その重みを用いてもいいよ構成します まずMOEのエキスパートとしては トランスフォーマー ブロックの中のMOいいよN個配置し アテンションと LMヘッドの部分については対応するNこのトランスフォーマーの 部分の平均値を用いて 作っています そして最後に ルーターを初期化する ことで 一つのMOEが得られます その後にこのMOUを追加で学習することで 最終的なMを得ることができます この手法はGoogleのスタートアップサイクリングなどを抑えて 現在最も精度でいる手法の一つとして知られているのですが 私はある直感からファインチューニング時にアテンションそうフリーズ した方が良いだろうと考え 検証実験を行いました その結果が下の図で 本図はロスをプロットしたものですが 上から順番にヘッドをフリーズしたものオリジナルのB TXアテンションとヘッドをフリーズしたもの電車のみを フリーズしたものとなり 見事に予想と一致しました この結果から BTXを行うときは アテンションそうフリーズした ファインチューニングを行ったPleaseBTXが 一番良い手法と考え 先ほどの事前検証では この手法を用いることにしました だって理想的な計算環境 あるいは大きな計算環境においては このやり方で良いのですが 今回の環境においては 8.×2や8Video×4のMOの学習は メモリ制約から 学習ができなくなってしまいます その部分を突破する工夫として Mixture ofLawRAGという手法を用いました この図はよくあるミクスチャーエキスパートの図ですが pdxを行う際に ここにエキスパートとしてドラが 配置された状況を考えてみましょう オレンジの四角がシードモデルで それ 以外の資格がローラーとなります この状況では 一つのエキスパートが8+1イコール 9Billionで それが四つあるとすると 36Billionとなります しかし少し考えると このオレンジの四角は全く同じものが 保存されているということに気づくと思います そしてもしオレンジの四角を一度だけ保存する ことで 同等の構造を作ることができれば 大きく メモリを節約することができるわけです 実際にそれは実行可能で それがこの 図に示された構造となります この構造においては シードモデルの8Billion プラスローラー4Billionイコール12Billion しかメモリー消費しない一方で 一つ前のモデルと 全く同じ入出力を入出力を持つ 音が数学的に保証できます 我々はこの構造を用いることで メモリを節約し MIの学習を完成させることができました さてそろそろお時間が迫っていますので まとめに入りたいと思います お話した一つ目は 我々のチームでは 研究と開発を同時に行う形での 研究開発を行ったということそして成果物として 二つのMOUに 関する新しい手法を発見したということ三つ目として 発見した手法を 与えられた環境で実行するために ミクスチャーず ミクチャを愚弄 らずを用いて実行したということそして四つ目は これらの技術を 用いて 既存の日本語モデルを改良し 3桁の足し算や文章生成能力を アップさせることができたということです最後になってしまいましたが NEDOの膨大な書類を書き 冒頭していただいた松尾先生および 大変な運営作業を行っていただいた松尾岩沢拳の皆様 そして私の 無茶なプランを実装していただいたチームの方々に感謝の意を示して 本請願報告を終えようと思います 皆様ご清聴ありがとうございました ありがとうございます 3枚3および3枚3チームの方もこちら小山内さんはいらっしゃい ませ3枚3チームの方は会場にいらっしゃいますしSlack 上に斉田さん含めいらっしゃるのでもしコメントや質問 あればそちらにお願いいたします では皆様各チームと発表大変お疲れさまでした発表ですね結構 直前に実はお願いさせていただいたんですが皆さんギリギリまで 資料をかなりあの熱量を持って作り込んでくださっていて 本当に このプロジェクトに対して真摯に向き合ってくださったんだなって いったところが伝わって胸が熱くなった次第です 本当に皆さんお疲れ様でした そして発表ありがとうございます ありがとうございます ではここから評価基準の説明とあとは待ちに待った 結果発表に移りたいと思います それでは評価結果の評価基準の説明の方を 小島さんお願いできますでしょうか? はい皆様お疲れ様です松尾岩沢拳の小島です7チームの皆さんの 発表を聞かせてもらいまして本当に素晴らしい結果が出たなと 思いますこれからコンペの評価指標の話とあとは結果の発表 も行きたいと思いますが皆さん他の成果がそのまま数字として 出たような形になってるかなと思います はい まずはコンペ大変お疲れ様でしたということで 強さ県側の開発支援チーム一同ですねこの期間中 精一杯サポートさせていただきました ここに記載した名前が開発支援チームのメンバーになるんですけど 本日も一部のメンバーが今日ここに来てくれてますせっかくです ので 今日来てくれてる開発支援チームのメンバーの 方立っていただけますかね はいこちらですね主に評価チームの原田くん 山際さん 山崎さん谷口くん来てもらってますぜひ懇親会 等でも交流していただければと思います はい評価チーム はい ではここからちょっと本題にはい 入っていきたいと思います まずコンペの評価指標ですね コンペ開始のときはですね全体像は まだお見せしてませんでしたこちらのスライドはコンペ開始のときに 皆さんに共有したスライドを再掲してるんですけれどもちょっと文字 文字が小さくて 何を書いていったかというと評価軸まぜ全部公開 してなくてですね 年中見リーダーボードネオンのベンチマーク 具体的にはLLMJPMRという一文と形式のタスク分とあとJM Tベンチという文章生成形式のタスクこちらを評価書の一部として 使いますということだけ宣言させてもらってました それ以外のヒントとしては できるだけ汎用的な能力を持つLLM 開発を意識してくださいということだけお伝えしてました あとは下側にルールとして案も一点記載したんですが経産省 側からの指示で以下の学習データを含めないように学習して くださいという少し厳しめのルールもあったかと思います皆様 こちら遵守していただいて誠にありがとうございます はい コンペを終了しまして評価書をですね このように決定いたし ましたネズミリーダーボードNEOは 予定で計画していた 通りそのまま使わせていただきますこちらは日本語LLMの デファクトのベンチマークということです 追加の評価指標ですねこのようにさせてもらいましたArcM LUtruth普及日のグランデ減らすワーク後イライザタスク 100というタスクをですね今回追加費用として選定させてもらい ました最初の五つは一文形式の選択問題のタスクになっております これ選定理由としてはグローバルな英語LLMのデファクトベンチマーク だというところですもちろんこれ以外にも有名なベンチマーク もたくさんあるんですけれどもいろいろな都合でこちらの五つと いうふうにさせていただきました 具体的にはGPT3フォーラム末Geminiとテクニカルレポートを 見ていただければ これらのタスクでの評価結果等がいろいろと 掲載されているかと思います我々はですね 英語のデータ数これらの 英語データセットを訳して評価指標を作成しました あとちなみになんですけどビッグベンジハードと呼ばれる結構 難しい目のタスク群があるんですけどもそれも当初計画には 入れてたんですが 今回のコンペのタスクとしては少し適当 では的適当ではないかなということでベンピックベンチマーク ハードは今回除外させてもらったという形になります これらの評価書を和訳したわけなんですけど もう少し詳しく 説明すると MLUとトランスする9AA以外はオリジナルの 映画で セットから各評価指標ごとに100サンプルランダムに ピックアップしてGoogleTranslateAPIで 自動翻訳した後にその和訳を全てですね人でのチェックと 修正を施して作成いたしました あと一番下の行にあるイライザタスク100ですねこちらは 文章生成系のタスクになってますJMTベンチと同じくですね GPT-4による段階評価を行うタスクになってます イライザタスク100は日本語LLMにおける長文生成の 代表的ベンチマークの一つということでこちらを追加しよう しようとして採用させてもらったという次第です はい これらの証貸を使って計算評価結果を出しました評価用の式ですけど こちらになります総合得点ですね はねずみリーダーボードね 追加評価指標の平均値として算出させてもらってます ネズミリーダーボードNEOの数値はですね既存と同じ評価式をそのまま 使わせてもらってます追加の評価指標に関して言うと先ほどの五つの 選択問題のタスクプラスアルファでLLMJPMR4ショップって 書いてあるんですけどこちらはネズミリーダーボードの中にある例 LLMJPMRを0ショットではなくて4ショットでの評価をさせて もらってそれも追加の特典として させてもらってます平均値とあとは 他RISE100ですねこちらとの平均値を出して追加資料の性能と いうふうにさせてもらってます 一点選択問題の場合0ショットだとLLMの回答フォーマットの くせに性能が影響を受けやすくなるので追加資料に関しては ヒューショットで評価をさせてもらっております はい このような評価式を使ってですね各チームの提出していただいた LLMの評価を行いましたこちらが結果になってますがランキングの チームの部分はまだマスキングさせてもらってます この後ランキングの結果を発表させていただきますまずは 全体の特定の傾向をですね説明させていただきます 全チームですねハイレベルの結果を叩き出してもらってます特に ですねネズミリーダーボードねの列を見ていただきたいんですが 上位の2チームはスワロー13Billionインストラクターを 上回る精度を達成するという気非常に高いですね制度スクラッチ 学習で達成できたのかなと思っております 追加出資評価資本の結果か列見ていただくとわかるんですがね 準備リーダーボードNEOとほとんど同じ傾向ランキングに なってます確か4位って多いだけちょっと入れ入れ替わった ぐらいだったと思うんですけど それ以外はネズミリーダーボードと 全く同じランキング順番になっております そういうわけなので総合得点もですねほとんどネズミリーダーボードと 同じランキングという結果になったかと思います はい こちらが全体の傾向ですねここからですねいよいよお待ちかねのランキング 発表に移らせていただきたいと思いますはい お願いしますでは 白石にバトンタッチさせていただきまして結果発表どきどきの結果 発表に移りたいと思いますまず3位21の順番で発表させていただき ましてその後に全体のランキングマスキングされていた部分を公開を させていただきます後ほど表彰もさせていただきますのでこの時点 では前に出てきていただかなくても大丈夫です それでは皆さん 盛り上げる準備はいいですか 大戸川とか言ってくださいね はいありがとうございます では最初に3位の受賞者から発注書チームから 発表させていただきます サインは チーム天元突破の皆さんですおめでとうございます もしよければちょっとその場でチーム天元突破の 皆さんご起立とかっていただけますか あとが手挙げていただいたりできると あの辺ですかねありがとうございます おめでとうございます では続きまして2のチームの発表です トニーのチームは チームビジネスの皆さんですおめでとうございます チームビジネスの皆さんどちらにいらっしゃいますかね あのあたりですねありがとうございます では 時々の優勝チームの発表でございます 流行る優勝チームは チームたぬきの皆さんです おめでとうございます チームたぬきの皆さんはどちらにいらっしゃいますかねあのあたりですね おめでとうございますと3位から1発表させていただきました 改めて 皆さん大きな拍手をお願いいたします では全チームの結果を投影させていただきまして コジマから少し解説をさせていただきます 小島さんいいですかねとして はい 解説というほどでもないんですけど先ほどのあの結果のチームのところ 念チーム表示させてもらいましたこのような結果になっております 皆さん本当に非常にハイレベルな戦いを繰り広げてくれたかなと 思ってまして正直内心ですねコンペが始めるときは発表会で提出 ししてもらうチームは多分一 二チームぐらいになるんじゃない かなぐらいの ほとんど脱落するんじゃないかと思ってたんですけど 最後まで皆さん粘り強く頑張ってもらってこういう高い得点を 皆さん出していただけたのかなと思います 順位に関わらず皆さん胸を張ってこの結果を誇って いただければいいんじゃないかなと思います はい皆様大変お疲れ様でした私からは以上です ありがとうございます それではここから表彰の方に移らせていただきます お名前を言われた方は前に出てきてください 松尾先生前に来ていただけますでしょうか?それでは最初にチーム 天元突破のチームリーダー尾崎大成さん前の方にお願いいたします チーム代表して尾崎さんの方に表彰状を受け取っていただくんですが よし よければチームの皆さんもあの前に出てきていただいて 一緒に記念写真撮影いただけると嬉しいです すいませんMM はいはいでは 読み上げますGENIAC松尾研LLM開発コンペティション 第3位チーム天元突破リーダー尾崎大成殿駅チームはGGENIAC 松尾研LLM開発コンペティションにおいてチーム一丸となって 開発に取り組み当初の成績を収められました よってここに称します2024年6月 1日松江高を行ってございます ます おめでとうございますそれでは皆さんで記念写真の撮影をしたいと 思いますこちらで撮影させていただくので そうですねとか別 すごいライトまで持ってきていただいてありがとうございます それではチーム電源突破の皆様改めておめでとうございました どうぞご着席ください続きまして はい どうぞそうですね もしよければ一言いただけるとすいません3位と いう結果をいただけて大変嬉しいです それよりもハルシネーション低減したいっていう目標を掲げて それに準ずる結果を出せたのがとても嬉しかったのとあとここに いる超優秀な皆さんと知り合えたのは とても嬉しかったです し それがこういう結果になったのも とてもとても嬉しかったです 今日オンラインの向こう側のチーム大崎のメンバーも多分喜んで くれてると思うので はい今後ともこっちも大崎に限らず この GENIACの場で繋がった皆さんと仕事なり緊急なり開発なり できればとても嬉しい声だなと思います 今回は本当にありがとうございました ありがとうございます どうぞご着席ください それでは続きましてチームビジネスの皆様前にお願いいたします はい読み上げますGENIAC松尾研LLM神戸 氏LLM開発コンペティション第2チームビジネスリーダー 川越潤人の以下同文です おめでとうございます おめでとうございます 最初にコメントいただけますか そうですね正直悔しいというのが一番の気持ちですけれども ここまで2という結果を得られたのはここにいる皆さんの おかげかなというふうに思っております 今回こういった形で皆さんと関わることができたのが大変よかったなと 思っております今後もかかることできればいいかなと思っております ので どうぞよろしくお願いいたします はい おはようございますではお写真を撮影 させていただけたらと思います ありがとうございますご着席ください それでは続きましてチームタヌキの優勝チームの 皆様前の方にお越しお願いいたします ふうん 読み上げます GENIAC松尾研LLM開発コンペティション優勝 チームたぬきリーダー畠山感度の以下同文なります おめでとうございます おめでとうございます それでは コメントをお願いいたしますはい まず2点ありまして 一点目は見ての通りあんまり現地 参加者が少ないんですけど今皆様フィールズに向けて 家で準備されてますので 頑張ってるところです あとは正式なチームメンバーじゃないけどすごく参加してくれてる 方とか言って そういう方も結構オンラインで見ていただいてます 2点目は一応スケジュールとかも実は確認していて どうやら8月 15日ぐらいがGPUの提供期間が終了で本がどうやら全部丸潰れ そうだというようなことに気づきましてなのでぜひお盆も含めてこれから 一緒にやっていただける方いたらよろしくお願いします ありがとうございました ありがとうございますもう既に準備を進めてるメンバーが いらっしゃるということでさすがですね ありがとうございます では 写真撮影の方お願いいたします ありがとうございます どうぞご着席ください すいませんちょっと狸チームの方もう1回戻ってきていただいて 実は優勝チームにはトロフィーをご準備しておりましたすっかり 忘れておりましてお渡しをさせていただきます こちらで出していただいた方がいいかもしれないですね ちょっと特注でですね松尾研GENIACLLM開発コンペティションと いうあの盾を作らせていただきました こちらぜひ先生からお渡しお願いいたします ありがとうございます本当におめでとうございます そしてフェーズ2の開発も応援しております またですね今回本当は優勝チーム23位という表彰の予定だったん ですが各チームメンバー各チーム メンバーがですねそれぞれ学業で あったりだとか 本業がある傍ら本当によく頑張ってくださった ので 何とかメンバーを表彰してあげられないものかとチームリーダーの 方から熱いご要望をいただきまして 各チームよりMVPを選出 いただきました本当に悩みながら選出いただいたんですけれども 本日お越しいただけてない方もいらっしゃいますが 会場にいらっしゃる 方はぜひ 前の方に出てきてください 予備ちょっと見づらいですかねちょっとお名前呼び掛けさせていただきます TeamGENIACから白石仁生様と堀江慧さん そしてチーム ビジネスから西島泰さん國翔太さん チーム甲から山内龍太郎さん ウェルトンリアムさんそしてチームたぬきから林幹太さん そして これはIDですかねPは武さん そしてチーム天元突破からは染谷 みなみさん 詩央塩屋宏明さんとTeamZOOからと藤本一成さん チーム熊から宮沢智也さん 加藤潤さん こちらの方々がMVPと して選出されております 会場にいらっしゃる方で賞状を受け取れるよという 方は前の方に出てきていただけますでしょうか? それでは最初白石さん こちらお名前挙げさせていただいてる中で来ていらっしゃら ない方もいらっしゃるのでいらっしゃる中で堀井さんから 最初にアナウンス表彰状を与えさせていただきます はいでは読み上げますGENIAC松尾研LLMコンペティション MVPTeamGENIAC堀江英里紫藤慧殿記念はGENIAC 松尾研LLMCompositionにおいて 自発的 かつ意欲的に開発に取り組み チーム開発を牽引したことを ここに使用します 今後も日本のLLM開発の一翼を担い 更なる活躍をされることを 期待します2024年6月1日松戸高お願いおめでとうございます 写真はまとめて皆さんでお取りさせていただきまっ たらと思いますその場で残りいただけてください では西島さんですねはい西島泰殿以下 同文なりますおめでとうござい はい國翔太殿以下同文なりますおめでとうございます はい 山路さんですね はい山口龍太郎殿 以下同文なります おめでとうございます はいベルト病む度の以下同文なりますおめでとうございます はい林幹太殿以下同文なりますおめでとうございます はい染谷南殿以下同文になります おめでとうございます はい宮沢や宮沢智也殿以下同文になります おめでとうございます はい加藤潤殿以下同文になります伊藤ございます ありがとうございますそれでは皆さんでお写真撮れれ ばと思いですので松尾先生を囲む形で成立いただいても よろしいでしょうか?ありがとうございます ありがとうございますご着席ください それではこのまま松尾先生の方から 総評をいただきたくおね思います よろしくお願いいたします はい皆さんお疲れ様でした優勝したチーム狸皆さんおめでとうございます 上位入賞されたチームそれから今回全チームがですねきちんと 最終的な成績提出できたということで素晴らしいという ふうに思いますまた MVP取った皆さんもですね おめでとうございます 本当に短い間でしたけれども 大変素晴らしい内容だったと思います し 相当大変なことがですね あったんじゃないかと思いますけれども よくよくですねここまでやっていただいたというふうに思っています 今日の発表もですね見ていて私非常に楽しかったですすごく勉強に なりましたし なんていうか面白いですね やっぱり何て言うかですかね上位入賞されたチームは やっぱり 最初から最後まで かなり何て言うか 上手にやっておら れたっていう感じで やっぱりその期間が短い中で最初突っ走っ ちゃって なかなか後戻りできないのでていう中ですごく ですね 上手にやられていたなと 特にチームタヌキはですねしこさ 施行回数が多分一番多かった っていうのはですね本当に作戦勝ちっていうかですね いうところ もあるし本当に素晴らしい内容だったと思います やっぱりこれだけのですね短い期間でも相当皆さんレベルアップ してると思いますし こういったことをですねベースにさらにどんどん いろんないろんな機会を見つけてですね活躍していただければと 思いますこれから第2フェーズっていうことでですね チームたぬきが ですね 進んでいくわけですけれども その他のチームの皆さん もですねいろんな機会ありますのでぜひ活躍していただければと 思ってます一つにはですね 第2フェーズいろんな形で力を貸して いただく場面があると思いますので ぜひですね 協力していただき たいというのが一つです それから松尾研の中でですね こういうふうにLLMの開発者を どんどん増やしていきたいと思ってましてLLMの講義もするよと いゆの予定にしてます去年やりましたけどもそれをですねさらに パワーアップしようと思ってますのでそちらにもですねぜひもう 開発経験があるということでご協力いただければというふうに 思いますそれから松尾研の中でもですねいろんなプロジェクトを 走っておりますので ぜひ興味ある方はですね そちらにもさ 参加いただければというふうに思ってます それから まだいろいろと未確定なところがあるんですけども 先日ですね 私がAI戦略会議の中で生成AIこういうふうに 活躍活用したらいいんじゃないかというのをですね 少しハナ してですね私のペーパーが出てるんですけどもその中でですね 今日東南アジアのLLMの話も一部参照していただいたと 思いますけれども 実はあの中のですねプロジェクトがいくつか 実際に動きつつあるものもあります 特に医療LLMなんかはですね 実際にやっていく可能性がかなり 高いと思ってましてそういったところでもですね 活躍してもらう 場が今後出てきますので かなり近いうちにですね 出てきますので ちょっと悔しかったからですもう1回か開発してみたいと今度は ですね もっとうまくできるんじゃないかというふうに思ってる方は ぜひ参加いただければと思ってますそれから東南アジアのLLMとかですね それからロボットロボティクスファンデーションみたいなものとかですね そういった辺りもですね 今後どんどん広げていきたいというふうに 思ってますので ぜひですね 今後もそういったプロジェクトにですね 参加していただければというふうに思っていますということでこれから もですね ぜひよろしくお願いしますということでここまでですね 本当にお疲れ様でした ありがとうございました また先生ありがとうございました それでは今後のアナウンスに移らせていただきたく思います最初に 島さんですかねはい ありがとうございます川崎さんにお願いいたします 皆さん改めて本当にお疲れ様でしたGENIACのプロジェクト 今年の1月ぐらいですかねから5週始めて もう6月に入るっていうところ でもあっという間なあっという間に5時間が過ぎたなっていうところ でも皆さん本当にお疲れ様でしたっていうところと当初結構なんか 規模が200名ぐらいの規模感なので ちょっといろいろ問題と か炎上とかあるんじゃないかって心配してたんですが皆さんの コミットメントとリーダーのリーダーシップによって無事フェーズ 1を終わることができました改めてありがとうございます ありがとうございましたお疲れさまです はい ここからですねフェーズ2に本も早速本日から計算リソースも提供 して開始していくわけなんですけれどもちょっと今後の流れっていうところを いくつかお話できればというふうに思っております まずですね自己アセスメントについてこちらの皆さん最初プロジェクトに 応募いただくときにアンケートだったりとかフォーム入力いただいた かと思いますが それをちょっと実際プロジェクトをやって あの開発を経験してみてどうだったかっていうところのアセスを させていただきたいと思いますのでぜひ皆さん全員必須で回答を お願いいたします おそらくもうメール飛んでますかねはいと 皆さんの メールアドレスにメール届いていると思いますが思います のでちょっとぜひ回答をお願いいたします あとですねちょっと前回最初の応募フォームのときよりいくつか項目を 追加しております後ほど説明するフェーズ2においての編入の質問 項目だったりとか入っていますので ぜひぜひまた編入希望される 方だったりとか いらっしゃったら回答お願いいたします はいフェーズ2について事前にですね各チームのリーダーから もし自分のチームがフェーズ2に移った場合どのぐらいの 方々を どんな方々を欲しいから編入いただきたいかっていうところを 事前にお伺いしております そのほ本日の皆さんに回答いただく事後のアセスメントを各チームの リーダーたぬきち畠山さんに共有させていただいて チーム内で 支援審査をしていただきます6月5日までが期限となっております ので6月6日以降にフェーズ2に編入いただける方を決定通知させて いただければと思いますのでこのような形です進めていきます条件と してはこのような形になっておりました 人数はちょっと今回はまだここには表記していないんですけども募集 枠としてはこのような三つですかねポイントとあとスキル要件でこのような 方々を求めていらっしゃるとのことなので ちょっとそこにマッチ するような回答っていうところをお待ちしております はいフェーズ2もここから主にチームたぬきに関するお話に なるのかなと思いますがフェーズ始まっていきたいと思う 始まっていきます早速からも早速本日からも始まっていますが ちょっとここについて小島さんから補足説明をいただけれ ばと思いですので よろしくお願いします フェーズ2始まりますということですいません先ほどの コンペの結果について一点評価の詳細に関してはまた 後日ですねネット上に公開させていただきますのでそちらは また別途見ていただければと思います フェイス始まりますということで一応スケジュール状況からですね フェーズ2土師まります8月の8日木曜日までをフェーズ2と させていただいてます最後の8月18から15日までGPU期間 まだあるんですがそこは生理の期間ということで予備施設予備 日として今確保させてもらってるという形です ルールなんですけどセンスあるコンペではないのであんまりルールとか 気にしていただく必要ないんですけど基本的にはフェーズ1で定めた ルール集をもう一度見ていただいてそれに沿うような形で活動して いただければいただければと思いますただしGCP本番環境の全 21のですねフェーズ2では優勝チーム使っていただいて大丈夫で 最大限活用していただいて良いモデルを開発してくださいあくまで 参考としてですモデルで50ミリオンパラメータ相当の計算資源と 見積もってますが50ミリをパラメータという言葉にとらわれずに 開発しているいて大丈夫です はい本日既にですね優勝チームメンバーのアカウントには21年 度に対するジョブ実行権限を付与付与していますって書いてあるん ですが ちょっとまだ作業が完了してなくてですね夕方の6時 ぐらいには権限付与完了してると思いますので適宜ちょっとチェック いただければと思います共有ディスクですけどフェーズ2専用の ストレージ自由というものを用意しました ご利用いただければと思いますただ今まで使っていた 共有ディスクをそのまま引き続き拡張して使いたい可能性 もあるかなと思いますがその場合はご一報いただけれ ばと思います調整できますのでご連絡ください はい はい フェイスに関しての連絡はこれで以上になります皆さんが 優勝チーム頑張ってくださいはい ありがとうございます はいちょっといくつかの事務的なお話をさせてください今日本日残念 ながら負けてしまってしまったフェーズ1で負けてしまったチームの 方々ションのの整理だったりとか今後後ほど説明しますけどもコミュニティの ペーパーの発掘というイベントをやっておりますがそちらの方で発表を もうちょっと詳しくお話お願いできればなというふうに思っていますと いうのと あと前の方で記事公開しておりますがそこらそれらの追加 記事だったりとか実際プロジェクトの振り返りでトライアンドエラー したことだったりとか 詳細の記事をアップロードいただければと いうふうに思ってますご協力よろしくお願いします本日中でお願い したいところとしてはディスク容量10TBまでに圧縮各チームですね お願いできればと思いますというのと明日中ですね 開発したモデルの HUGフェイスアップロードこれはパブリックでお願いしたいっていうところと 最終コード最終版のコードをゲットGitHubにアップロード するあとデータの集め方のデータの提出方法に関してちょっと今調整 しているんですが ひとまずは取得元とライセンス契約のまとめと いうところをお願いできればなと思います6月9日日曜日にコンペで 作成したデータセットの提出準備というところをお願いできればなと 思っておりますのでどうぞよろしくお願いいたします はい ではちょっとここからなんですけども 改めてもう皆さん 入っていただいてるコミュニティのメンバーだと思ってるんです けども今回昨年講座を立ち上げて そこの修了生がこのGENIACの 開発メンバーになられてSlackのスペースもコミュニティも どんどん大きくなったっていうところで改めて松尾研LLMコミュニティと して今活動しておりますコミュニティ目コミュニティに関しては もうかなりオープンになっていて誰でも入って入れて様々なアクティビティ だったり学びができる場所っていうところを目指しておりますGENIACの プロジェクトもそうですし今後さらにここのサイクルを早めていき たいなというふうに思ってますのでぜひ皆さんも引き続きこのコミュニティに 参加して様々な活動協力ともに一緒に作っていければなというふうに 思ってますので どうぞよろしくお願いします 一応の経緯をお伝えしておくと2000去年の9月にLM講座を タッチ立ち上げて2000人入ったそっからGENIACが始まって 2500で様々なペーパー&発掘だったりとか初心者向けのLLM 講座のイベントだったりとかを経て3000人4000人と 今 4500ぐらいですかねできてるっていうような状況なので ちょっと このサイクルをどんどんさらに大きくしていきたいなと思ってます ので ぜひ皆さんよろしくお願いします 松田先生がおっしゃってた講座今年のLLM講座2024 一応9月の第1週から開講予定になっておりますので ぜひ 皆さんもまたこちらご参加いただければと思います はい 先ほどお伝えしたようなところで様々なイベントを外部発信して 外から興味を持ってして 興味を持っていただいた方がマジコミュニティに 参加して参加した人がまた何か発信してっていうこのサイクルっていうのを どんどん大きくできればなと思ってます はいイベントの紹介ですがLLMに関する論文の発表だったりと か実装をするイベントっていうのを毎週開催しておりますこちらの 発表者も募集しておりますので ぜひ皆さんよろしくお願いします あとこちらは初心者賞学者がLLM人材になるためのロードマップを コミュニティ作ったんですけどもそちらに基づいて何て言うん すかね人次の世代のLLM人材を育成するっていうイベントも 立ち上げてますので ぜひプロフェッショナルの皆さんには講師 だったりとか 様々な知見を教える側として参加いただければと 思いますのでよろしくお願いします はい あとこちらもそうですね 9月に開催する講座 後ほど 資料を提供しますが下の方に事前登録も始まっております のでぜひ応募いただければと思います はい あとですねちょっと企業キックオフのときに松田先生から企業 についてもお話あったと思うんですがちょっとこちらの企業支援 も松尾研としてはやっております担当のもちょっと参加できなかった ので 代わりにお話させていただくと松尾研の中にMacという 企業を支援するコミュニティが別にあります 今回のプロジェクトを経て社内起業だったりとか ご自身で起業 されたいというような思いが芽生えた方ももしかしたらいらっしゃる かなと思っておりますので もしそこに興味がある方に関しては ぜひこちら入っていただければと思います もし希望される方は先ほどお送りしているアセスの中にこの企業の に関して興味があるっていうような項目があるので そちらを入力 いただければというふうに思ってます一応原則学生だけになって いるんですがGENIACの場合です特別に何か社会人にも一部 開放する予定の計画もあるとのことなので ちょっとそこは社会 人の方もぜひぜひ申し込みいただければと思います はい 僕は挨拶は私にとってはい ありがとうございます ちょっと最後の部分だけ白石の方で受け取って説明させて いただきます松尾岩沢拳でですね20名の研究員を公募すると いうアナウンスを先週出させていただきました こちら先週開催された 人工知能学会でも結構大きな反響をいただきまして 松尾研 では知能を作るという目標を掲げて世界モデル例えば先生モデルの 研究であったりだとかロボティクスの領域もちろんLLMで あったりの実証研究部例インスパイアーとインテリジェンスの 研究までかなり幅広く研究を進めております こうしたアカデミアの領域にですね関心のあるあの方で あったりだとかぜひご応募をお待ちしておりますというところで ちょっと口を挟ませていただきました また 松尾研ですね本当にいろんな活動を推進しておりまして先ほど 申し上げた研究者 学生の方であったりだとか あとはあのデータサイエンティストとか 講義を運営する方社会人の方ですね であったりポスドクポジションを 探し中の博士課程の方であったり 松尾研の社会実装のインターンに 興味がある方であったり 結構幅広く機会を提供できているかなと いうふうに思うので もしご関心あればぜひぜひ講師がいらっしゃる 方はお話できたらなというふうに思いますし オンラインでご参加の 方もLLMのSlackのコミュニティの方で適宜情報を流させて いただきますので そちらご覧いただければと思います ではちょっとたくさんアナウンスしてしまいましたがフェーズ2 へのチーム編入から始まり 勉強会であったり 企業の選択肢で あったり 松尾研でのキャリアであったりインターンであったり いろんな機会を準備しておりますので ぜひ引き続き皆様と様々な 形で松尾研とご縁が持てると嬉しいなと思っております それではZoomでご参加の方はここまでとなります 本日ご参加いただきありがとうございました 引き続きよろしくお願いいたします

00:00:00 – オープニング 東京大学 松尾・岩澤研究室 広報・コミュニティMgr 白石 萌莉
00:02:18 – GENIAC/松尾研LLM開発PJの紹介
00:06:05 – 各チーム報告1 チームJINIAC リーダー 中村 仁
00:14:06 – 各チーム報告2 チームKuma リーダー 熊谷 壮一郎
00:25:25 – 各チーム報告3 チーム甲(きのえ) リーダー 朏島 和香那
00:36:43 – 各チーム報告4 チームビジネス リーダー 小川 雅貴
00:47:19 – 各チーム報告5 チーム天元突破 リーダー 尾崎 大晟
00:58:22 – 各チーム報告6 チームたぬき リーダー 畠山 歓
01:08:40 – 各チーム報告7 チームZoo リーダー 三内 顕義(録画収録)
01:18:43 – 評価基準の説明 東京大学 松尾・岩澤研究室 特任研究員 小島 武
01:28:06 – LLM開発プロジェクト結果発表 広報・コミュニティMgr 白石 萌莉
01:30:57 – 入賞チーム/各チームMVPの表彰 東京大学 松尾・岩澤研究室 教授 松尾 豊
01:45:49 – 総評 東京大学 松尾・岩澤研究室 教授 松尾 豊
01:50:16 – 今後のアナウンス 松尾・岩澤研究室 GENIAC PM 川崎 竜一
02:01:58 – 松尾・岩澤研の研究員公募について 松尾・岩澤研究室 広報・コミュニティMgr 白石 萌莉

—-
概要
本プロジェクトは、当研究室が提供する講座の修了生および一般公募によって集まった有志の開発者のメンバーが500億パラメータサイズの大規模言語モデル開発を進めるものです。
また、開発された大規模言語モデル(LLM)の公開のみならず、開発過程の公開、そしてこれらの成果を社会全体で共有することを通じ、日本全体のLLM開発の技術レベル向上と社会実装の加速を目指します。

今回の結果発表会では、総勢200名の開発メンバーのうち、約70名弱のメンバーがオフラインで参加。
各チームリーダーから開発成果の報告や、研究開発支援グループのリーダー小島武によるコンペ評価基準の説明の後、各チームのコンペ結果の発表・評価指標に基づく詳細なスコア、順位公表を行いました。また、松尾教授による表彰や総評を行いました。

—-

本プロジェクトの開発の様子をSlack のコミュニティでご覧いただけます。
また、6月からは優勝チーム(畠山チーム)を中心に、開発が第2フェースに入ります。
本コミュニティでは様々な方々(未経験、初級、中級など)を対象にしたセミナーやハンズオンイベント等を積極的に開催していくので、是非コミュニティに参加ください。

松尾研コミュニティへの参加はこちら
https://linktr.ee/matsuolab_community
—–
文字起こし(字幕)ツール提供: Rimo
https://rimo.app/about/voice

1 Comment

  1. TanukiのモデルはGemmaやLLama2レベルを日本でも作れることは証明できたんだから、国は国会図書館の情報とか開放しお金持ちの皆さんはもっとお金出してほしいね

Leave A Reply