松尾研 GENIAC LLM開発プロジェクト第1フェーズ結果発表会 2024.06.01 @ 東京大学福武ホール

はいそれでは皆さんお時間になりましたので始めさせていただきたいと思います皆さん本日はお忙しい中松尾研LLM開発プロジェクトの結果発表会にお越しいただき本当にありがとうございます本日は東京大学の福武ホールにて実施している結果発表会の様子をオンラインで会場から生配信もしておりますオンラインの方もご参加いただきありがとうございます音声届いておりますでしょうか？大丈夫ですかねはいありがとうございます会場で直接ご参加いただいている方もオンラインでご参加いただいている方も一体となって盛り上げていけたらなと思いますので本日どうぞよろしくお願いいたしますなお本結果発表会の様子はSNSに掲載いただいても問題ございませんと松尾研アンダーバーGENIACのハッシュタグでぜひTwitterXなどでつぶやきくださいまた本発表中に松尾研のLLMコミュニティの Slack上で質問も受け付けております詳細はZoomのチャット欄そしてSlackでのご案内をご覧ください申し遅れましたが本日司会は松尾研で広報を担当しております白石が担当させていただきますどうぞよろしくお願いいたしますありがとうございますでは本日の流れをご説明いたします今日は各チームの発表の後コジマから評価基準の説明そして皆さん楽しみにされているであろう結果発表に移りたいと思いますその後松尾教授によると表彰式笹山がささやかながら開催をさせていただきましてその後総評そして今後のアナウンスという形に移れたらなと思います表彰式オンラインでご参加いただいている方はちょっと参加いただけずに恐縮なんですが会場にお越しいただいている方でお名前を言われた方はぜひ前に出てきていただけたらなと思いますのでご協力のほどよろしくお願いいたします最後に懇親会も実施させていただきますオンラインの配信は懇親会前までと今後のアナウンスの部分までとなりますのでそちらご了承ください本日長丁場となりますがどうぞよろしくお願いいたします最初に改めて今回の結果発表会初めてご参加される方もいらっしゃるかなと思いますので本プロジェクトの概要等結果発表会の位置づけについてご説明をいたしますこの度松尾研は経済産業省並びにネットが開始する国内の生成 AIの開発力を強化するためのプロジェクト人役におきまして基盤モデル開発に必要な計算資源の提供支援を受け 500億パラメータサイズの公開型基盤モデル開発に取り組んでいます GENIACにおける松尾研としての取り組みは有志の開発者のメンバーここにいる皆様ですねが500名 500億パラメータサイズの大規模言語モデル開発を進めるというものですチームメンバーは提供する松尾研が提供する講座の修了生および一般の公募によって構成されていますまた本プロジェクトでは開発されたLLMの公開のみならず開発過程の公開そしてこれらの成果を社会全社会全体で共有することを通じ日本全体のLLM開発の技術レベルの向上と社会実装の加速を目指しています本プロジェクトの第1フェーズにおいてはチームにわかれまして複数の研究テーマを設定し探索を行い知見を共有しながら試行錯誤することで実用的かつ効率的な手法を模索していきましたそしてこの結果発表の後第2フェーズにおきましては最優秀に選ばれた1チームが500億パラメータサイズの LLM開発に取り組むことを予定しています本日はこちらの第1フェーズにおける各チームの取り組み発表と結果発表会という位置付けとなります今年3月にですね同じ会場福武ホールで開発のキックオフを実施させていただきましてこの数ヶ月間皆さん本当に盛り上がって開発に取り組んでいただきました 3月のキックオフの際に松尾教授からはこんなスライドが提示されてコメントをいただきましたこのプロジェクトの中で試行錯誤しながら重要であるノウハウを共有することで良いモデルを作り開発経験を積んでもらいたいまたこのプロジェクトを通してより多くのLLM開発者を生み出し参加者の皆さんが様々なところで活躍してもらいたいそんなコメントをもらっています皆さんご記憶にはございますでしょうか？もちろん一番の関心事項は結果発表自分のチームどうだったかなっていったところかなというふうに思うんですけれどもぜひ他チームの活動内容も聞いていただきまして今後の活躍の糧にしていただけますと幸いですそれではここから各チームの発表の発表に移らせていただきます各チームの発表時間は10分終了時間の2分前にベルを 1回終了時にベルを2回鳴らさせていただきますそれではトップバッターとチームGENIACの中村さんお願いいたしますはいありがとうございます人脈チームリーダーの大阪大学修士1年中村仁ですどうぞよろしくお願いいたします目次はご覧の通りです最初にチームの紹介です我々のチームは様々なバックグラウンドを持った方々によって構成されていますこれを可視化するために学生アカデミーや民間行政経理と分けて可視化しました我々のチームはリーダーサブリーダー開発リーダーメンバーで構成されています特にご活躍いただいたメンバーのご紹介ですご覧の皆様の強い貢献により開発が進展しました最後にメンバーの皆様です多大なるご協力をいただきました次にチーム構成についてです我々はボトムアップを基調としマネジメントチームがサポートを行いましたチームミーティング等を通じて未綿密な連絡を行いました事前学習事後学習のフェーズでは会議を打つ会議を追加し迅速な対応と調整規制を行いました多少の調整はありましたが最後までボトムアップを貫きました私達の目標は公立高品質な日本語データセットを構築し知識点を見据えたデータセットに工夫を行うことでした特に日本語の特性を最大限に生かした生成モデルの構築とLLM人材の育成に注力しました開発ステップはこちらの通りです後ほどご覧いただけると幸いです次に学習corpus構築です事前学習のために収集加工したデータについてご説明します学習データ100ミリオン日本語データ 100Billionを準備しました特に国会議事録など高品質な日本語データの学習に重点を置きました事後学習用データについてです合成データ省庁会見データなど多様なタスクに対応するためのデータを収集し加工しました遠くない座の構築についてです LLMJPと遠くないザバージョン2を参考にフルフルフルスクラッチで構築しました頻出する固有名詞の分割を防ぐための工夫を行いモデルの性能を最大限に生かすことを引き出すことができました次にモデル構造です我々のチームではDPCFMいいモデルを採用しましたこのモデルはエキスパートの増加やりウェイティング構造の改良により学習効率を大幅に向上させています GPTGPTやミックスとRAGも試しましたが学習効率やスケール化の観点から最終的にもうモデルを採用しました次に事前学習事後学習です事前学習では学習学習順序に工夫を凝らしタスクの質を失礼しましたデータの質を最大限に引き出すように努めました本番環境でのエラー対応についてです型エラーやデータせデータセット前処理の失敗などが盛んなどの問題が発生しましたが適切な対処対処を講じ学習を継続させました事前学習の結果データセット分割の影響により様々なロスが観測されました過学習を行っていないことも確認することができました次に事後学習についてです SFTではLLMJPSFTを使用し指示応答形式にあるにある程度掻痒に映画なりましたが自動翻訳的な出力や文章の一貫性に課題が残りました DPPを実施した結果学習自動翻訳的な出力を深め含む含まれており日本語のせい正確性向上は未達成でしたさらに多くのデータを使用して再度BPOを実施したところ改善が見られたためデータ量が不足していたと考えられますデータセットの学習順序についても実験を行いましたが正式採用は断念しました次にモデル評価です LLMJP威張るのスコアはSTSFT単独時からDP王子工事まで実施後に大きな変化は確認されませんでした一方MTベンチのスコアは SFTP単独時からDP 実行時実施時には若干の向上が見られました我々は心理英語学習させたモデルの構築を行いました学習が不十分でしたがモデル音楽もデータを増やすことで対応できると考えていますそのためインディゴは日本語と近い文法構造を持つため日本語データセットの他に役立つと考えていますアジア圏には日本語と類似した文法を持つ言語が多く将来的にはこれらの言語に応用可能なモデルを構築することが可能であると考えております次最後に開発を終えてです開発全体を通じた総括としてLLM開発の大変さやGPU環境の重要さを理解しましたまた多様なメンバーをメンバーが参加することで技術的な発揮発展だけではなくコミュニティの形成が進みましたフェーズ番号はナレッジのまとめやデータセットの公開を考えています最後にチームの皆様松尾岩沢研究室を始めとした皆様に感謝申し上げます以上で人脈プロ人脈チームのPhaseOne発表を終わりますご清聴ありがとうございました中村さんありがとうございましたありがとうございますご質問がある方そしてコメントがある方は LLMのチャンネルの方Slackの方にお願いいたしますそれでは続きましてチーム熊の熊谷さんチームをお願いいたしますそれではチーム熊の発表をさせていただきたいと思いますまずチーム紹介からいきたいと思いますこちらの31名のメンバーで開発を行いました特に頑張ってくれた人として富谷宮沢さんが遠く内在セーフティのところ特に頑張ってくれた加藤潤さんが銀フェイス変換のところを特に頑張ってくれました太田進さんがアスクルMやデータの整備のところを特に頑張ってくれましたチーム内の組織図なんですけど事前学習開始まではデータチームが遠くない山の学習事典学習データの準備モデルチームが学習コードの作成モデルの学習評価チームが事後学習データの準備と所学習方法の調査で事前学習を開始した後はモデルチームがやることがなくなったのでデータチームと評価チームに統合してデータチームと評価チームにわかれて開発を行いましたそれでは学習コーパス構築の説明に入りたいと思いますまず事前学習用データなんですけど僕たちのチームは前処理コストの低いデータセットを優先的に採用しました学習後半のデータセットが性能に良い影響を与えるという観点から後半に良質なデータセットを学習させるようにしましたまず前半の事前学習のデータは英語データがスリムパジャマで日本語データがカルチュアXのデータになってます処理方法としましては英語と日本語を混合してシャッフルさせた状態で学習させましたこちらカルチュアXがデータの説明に既にZアップされてると記載されていたためデータ部処理をせずに学習しました学習の方法なんですけど本当はパッキング処理を行うべきだったんですけどちょっと羽バックでのデータでpaddingやケースです切り捨てがされる状態で学習をしました事前学習の後半の事前学習ではこちらはのデータと国会議事堂や判例だったり雪青空文庫ライブドアのコーパスのデータから学習データを作りました処理方法としましては後述するアスクLLMによるフィルタリング処理を行ったのとDAP処理とこれまた交流するパッキング処理を行いました反省点としましてはZAP処理とパッキング処理は1回目のデータに対しても行うべきだったと思っております次ちょっと少LLMについて太田さんに説明させてもらいますはい東京工科大学で非常勤をしている太田といいますですね少LLMというのは今年の2月にDeepMindから発表された論文で紹介されている手法でまず目的の方がですね LLMの主に事前学習データを既存の代理LLMと既存な既にあるLLMを使ってスコア付けをしてそのスコア上位から高いものを取ってくるということで高品質なデータのみで学習することで学習のデータ効率と計算効率も上がるということが言われていて例えば8割のデータを事前学習データを削減してもフルでやったときと同程度の性能が出るということが論文では紹介されていますそれ方法はちょっと今日時間があまりないので右側の方にあるんですけれど事前学習データの一つを一つ取り出してきてシャープの中に入れてこのデータが有用であるかということをLLMに判定させてポイントなのがイエスとノーで答えさせてイエスの生成確率をスコアとするという部分がこの論文ではかなりポイントとなる部分でこれは結構重要でかなり小さな3B4ぐらいのモデルでも十分スコア付けができてその結果チームで10名の方にアノテーションしていただいて実際に1人スコアをつけたとそれとあそこLLMの相関係数が0 .53で性の高い相関が出たということなのでちょっと下流タスクの精度はわからないんですけれど人間にかなり近いスコアが出せるというところまでは確認できたということです成果としてはPythonのモジュールとか実際のデータセットも既に12個ぐらい公開しているという状態です以上ですありがとうございます次学習データのパッキング処理なんですけどベストフィットパッキングっていう論文に書かれてるような処理を実装して行いましたこちらは文章の区切れをちょっとアルゴリズムでうまく判定して普通に連携させるよりも効率的に学習できるようにな処理になっておりますデータの削減された法律なんですけど青枠のところに書かれているように判例データとか国会議事堂データとかが短文で短いデータが多かったのでこちらの処理を行うことで3割程度に圧縮されて学習時間が削減されました次遠くない図について説明していてはい宮沢と申します遠くないぞについてはこのような形で構築を行いました LLMJPトークないTheというライブラリを使って日本語コーパス英語コーパスと算数系のコーパスとプログラム corpusからそれぞれ5位を獲得してマージして一つの 5位にしてからユニーgのスコアを再推定して遠くない座を構築するという流れで行っています語彙サイズは約5万6000円でこちらは山系のモデルで継続学習で日本語モデルを作るという世の中のよく出ているモデルの方で大体合意サイズが4万から5万ぐらいだったっていうところと今回事前学習に含める日本語のデータ量っていうのがかなり多いので日本語のテキストっていうのがひらがなだったりカタカナだったり漢字っていうかなり種類が多いっていうところを踏まえて 4万から5万より少し大きめのサイズにしました言語の割合としては大体英語と日本語が6対4程度になるようにしていてこれは事前学習する予定だったコーパスの大体の比率がこのくらいだったのでそれに合わせたような形になりますアルゴリズムとしては代表的なものBPという2gあると思うんですが今回LLMJP遠くないTheが元々unigを想定した作りになっていたので輸入車を選択したというところと先行研究でも日本語ではなくヨーロッパ圏の言語なんですけど英語とヨーロッパ現ヨーロッパ圏の言語に関する多言語モデルを作ったときに BP よりもユニーgの方が下流タスクの精度が高かったというところなので今回このアルゴリズムを選択しました空車点としては日本語は形態素解析の事前処理を入れたというところだったり数字を1桁区切りにして声を設定したりあとはシンプルに日本語のテキスト像から5位を獲得するとかなりカタカナ語が多かったり一般的に使われる言葉っていうのがあんまり入ってきてくれなかったので日本語の常用漢字一覧だったり引き隣だったりっていうところから一般的に使われる言葉だったり1名交互表現定型表現などを5位行為の中に追加するような処理を行いましたあとは標準コードだとt5遠くない座がベースになっていたんですけれどもこの後お話するんですが私達ミックスとられるスペースになっていたので元々のミックスとらるのモデルで使われているラマ島区内Theだったり今回事前学習だったり事後学習に使うライブラリも遠くない前提のものが多かったのでそれをそこに変換してな形になりますありがとうございます実はモデルの構造について説明したいと思います自分たちはミストラルベースの萌乃構造を採用しましたこれはドロップレースも多いという萌のトークンドロップを対策した構造になってまして並列化はMP4DP6で行いましたこちらの構造はエキスパートがそれぞれのGPUに分割されて配置されるような形になってます学習方法としましては構造のモデルを最初から学習するというような形をとりましたモデルの構造決定までの経緯なんですけど最初はPixel7×8Bを学習しようと思っていましたただ学習ができたのですが3 ノードでは事前学習するのに十分な計算速度にほど遠かったのでこちらの採用を見送りましたサイズを小さくした萌が Llama2ベースの電通のモデル化最初にLlama2ベースの点数モデルを学習してその後これを駅すぱあと食事にしても学習するかの候補が挙がったんですけど一番最後はやりたかったんですけどリソース的に残念をしてサイズを小さくした萌えを採用しましたジェット萌という論文が程度のサイズで同程度のH100の時間で8Billionと同じ程度の精度だったのでこちらを参考に学習しましたサイズが小さくなったことで並列化の方は急遽代わりRAGフェイスのコードの修正作業が発生したんですけどそちらをメンバーに対応していただきましたこちらが事前学習の結果となります2回に分けて事前学習を行ってますロススパイクなどはなくてあとも論文などでデンソーよりも高い学習率がいいというような話が書かれていたのでちょっと比較的高めの1.0掛ける10から 10のマイナス3乗まで学習率を上げてます左側が1回目の事前学習のときのロス大体1.998 ぐらいになりました右側が後半の事前学習継続して学習のロスで大体1.78ぐらいになりました 55学習はおよそ3万件のデータで自己学習を行いましたこちらがモデルの評価の結果になりますFTに入れるデータによって出力がかなり変わっていましたマルチ他のデータは MTベンチの結果の向上にシングル他のデータは LLM ジェイPRの結果の向上に寄与していましたこちらメンバーの開発に対する感想になります以上で事務熊谷の発表を終了しますありがとうございましたでは続きましてチーム甲と配島さんチームお願いいたしますはいヨーク大学の配島と申します私からはチームチーム昨日発表させていただきますよろしくお願いいたしますまずチーム紹介なんですけれどもメンバーの全体像ということで総勢29 名で大体属性はこんな感じで半分ぐらいが社会人半分ぐらいが学生といった構成になってました稼働時間っていうのもほとんどの方が20時間未満の稼働時間というところで大体1日3時間弱かけられるっていう方ですねなのでキャッチアップの時間とかも考えるとやっぱりみんなで手分けして作業を行うことが重要なプロジェクトでしたこちら一部抜粋なんですけれども本当に多様なバックグラウンドの方々が参加してくださっていました組織図はこのような形になってまして他チームと学習チーム大きく二つに分けてますそれらをにまたがるような課題とかを解決する全体統括チームというものも置かせていただきました私達のチームではのボトムアップ型開発というのを掲げさせていただいておりまして特徴としては例えばその学習チームの方ではメンバーの方々自らがプロジェクトの例えばモデルですとかっていうのを発生考えてプロジェクトチームを立ち上げてチーム化していくサブチーム化していくといった動きをしていました他チームの学習チームの兼任の方とかも数名いらっしゃり全体統括チームに入ってくださる方とかもいらっしゃるっていうところでこのチーム間の連携というのをとっていくというようなの組織構造になっておりましたこれからデータに関することですとかモデルに関すること担当のチームリーダーの方々からご説明させていただきますよろしくお願いしますはい続きましてデータの方について説明させていただきますまずデータのを集めるにあたってLLMのコンセプトを決めます日本語を学習するということなんで俳句短歌が読めたらいいだろうっていうのとあと傾聴力のあるモデルにしたいということで逆算的にモデルをデータを集めていきました事前学習データとしては2本500ミリオンと高度20ミリを使っています日本語としてはこれらのデータを使ってコードはこういうコードを抽出して使っています事後学習データは既存OSSデータを活用しつつ独自作成した高難易度のタスクデータを合わせています事前学習データセットの方なんですけどまず基本戦略として計算リソースを日本語と行動に集中しましたフェーズ1で訓練可能なトークン数というのは200日4から300 ミリオンが限界と試算されていたのでされていましたし10ミリオン程度のモデルでは知識転移は起きないんじゃないかということだったので日本語が多少少なかったとしてもそれを複数回回すことで200 日を回そうという戦略でやっていきました日本日に日本語データ100ビデオの方なんですけどベースとしては公開されてるMCforオスカーなどの大規模データセットでこれは基本的には他文章の圧縮率基準のフィルターRAGでフィルタリングしてあと単語とかのフィルターをやっています何がやりたかったかというと単語を羅列とか同じ文章の繰り返しみたいなものを削るっていうのが一番最初あと広告を割と削りました他の内容はあまり厳しく検閲せずにそのまま突っ込んでいます全データ投資重複状況というのをやっていますそれに加えて高品質なデータとしてWikipediaと青空文庫を使っていてこれら一つのサンプルが長いので前後が少しかぶるように先端5ぐらいですスプリットして投入するということをしていますまたこれらのデータに関してはモデルがどこから来ているかドメインを認識できるように先頭にメタデータを付与するみたいなことをやっていますそれにプラス今回配布単価を読みたいということなのでモデルにその日本語の音ですね漢字かな交じり分でデータを与えられるわけですけど本当はその音を知らないと合意事項が読めないのでこれを教えるためにちょっとした人口データを加えています具体的には漢字かな交じり分からひらがなとか読みとか文節分けといった日本語の中学生の国語タスクみたいなものをやるためのデータってのを作っています 2+20ミリオンコードデータを加えてましてこれは GitHub由来のコードからライセンス問題のないものを抽出して突っ込んでいます内訳はこんな感じで日本語のコメントとかを含むものは全部導入しているという感じです事後学習の方では基本方針としては質の高いデータの方を質を優先して量を集めるということをやっていますどういうのが質がいいかっていうと形式がしっかりしてるその文体とか文章構造がしっかりしていてタスクとか内容が網羅的であってちゃんと論理的なアウトプットができるようなこういうデータを作ろうということですいかんせん量を集めるのが難しいのでここは既存既存のOSデータを積極的に活用しつつ事後的なフィルタリングとか修正で品質を上げていますできたものは4万件ぐらいのデータができていてこんな感じのものになってますあと俳句を読ませたいということなので俳句短歌データも使って作っているんですけどこれは今回の時学習ではちょっと使う余裕がなかったので今後再学習したものを公開できればなと考えているところです遠くない図のところなんですけど語彙数5万5000語のものができています日本語語彙数が4万語でコードの語彙数が1万5000 語です作るときは日本語コード別々で作った後でマージしています重複を加味した上でマージさせていますはいとりあえずデータと遠くない図に関しては以上ですはい次にモデル構造についてお話させていただきます僕らのチームはミストラルの9ミリオンを採用しましたベースはメガトロンディープスピードの実装に対してはサイドウィンドウアテンションだったり元の論文とはちょっと違うですけどローリングバッファキャッシュの代わりにページたテンションでのキャッシュの手法だったりを採用して組み込んだ形になりますモデル構造決定までの経緯なんですけど僕らのチームは事前学習をフェーズが入ってなるべく早く進めたい早く始めたいっていうようなモチベーションがあったのでミックスとあれだったり球宴だクエンだったりミストラルの三つのモデルを実は用意してましたただ実際フェーズ1に入ってモデルが簡単に乗ってスムーズに開始できるのはどこかってなったときに MICストレート 9円がかなり難しいなという結論に陥ったのでミストラルになったというような経緯になります事前学習についてです事前学習時にあったことですけどモデルが乗らない結構どこのチームもあったと思うんですけどモデルが乗らなかったりFLOPSが出なかったりでかなり苦労したところもあって特にうちのチームでは7が故障していたために2ノードで学習を行うことになったりその後 3ノードになったときの対応だったりとその辺かなり苦労しました結果的に学習に関してはロススパイクは起こらなかったです次次続いて事後学習について説明させていただきますまずロープ問題ということでロータリーポジションエンベディングがメガトロンディープスピードトランスフォーマーぜ互換性がなくてちょっと形が違ういたっていうところで推論結果が0がちょっと違うくて恐縮なんですけど夏目漱石はとなると楽天市場と関係のないことを言ってたんですけども直した後は日本語ちゃんとした日本語で答えるようになったという感じです学習手法の検討としては事前学習の段階ではフルパラメーターの予定だったんですけども推論結果の実際やって学習してみると推論結果の日本語がやはりちょっと崩れていたりしていたのでローラーや道路といった他の手法をやると数十件のデータかつ数分の学習で十分学ぶことができました実際のデータ作成データ収集については実際学習を回すとやっぱ質問あるいは悪いデータや足りないデータというのが明らかになっていたので最終日まで学習をしては推論結果を検証してそしてそれをもとにデータを改善するというサイクルを回し続けました特にデータの改善についてはメンバーの方がたくさんの方にご協力いただいて何とか改善ができたことによってMTベンチでは最初1点4点台が3.5点台というふうに上がっていきましたはいこのような開発の経緯を得まして最終的にモデル評価というところではいいくつかそういったモデルが出てくるわけなんですけれどもその中からどういった基準で選択するかというところでチーム内で話し合いましてLLMジェイPRとMTベンチをもとにしたリーダーボードのスコアを基準としつつも汎用性の高いモデルっていうのを最終的に選びたいというところでMTベンツの方をより重視するというような選択をしました結果的に選んだモデルなんですけれども大体各指標のスコアはLLMJP0とMTベンチこのような形になってましてこの星マークのところこれこちら横軸がLLM JP0で縦がMTベンチでこの辺の部分はいつも一方に強みがあってこの辺は精製能力が高めでといった数になっているんですけれどもこれ有名どころですね結構出てますねGPT-4とか出てる中でこの辺がイライザの7Bとかなんですけど私達のモデルはこれっていうような形になってますMTベンチのそのスコアの詳細のところを見ますとここのXトラクション情報抽出のタスクのところで強みのあるモデルができたというところでおそらくこの点は私が観測している中だと全チームの中でも一番なんじゃないかなというふうに考えてますちょっとここはなぜこうなってるのかってちょっといくつか仮説は出てるんですけれどもちょっとまだチーム内でも正確な答えが出ていないところではありますはい開発を終えてなんですがいろいろと学んだことはすごく多くて理解すべきことも多いですしデータセット主導に使用する自動にしよう何かしらコストがかかってくる中でより多くのデータを集めることが難しかったことあとは他の開発者開発者さんで阿部さんとかにも御協力いただいて勉強会させていただいたりストックマークさんにご質問させていただいたということで他の開発者の方々との交流が非常に重要な開発でしたなので最初にLLM開発1人にならずという言葉をこれ実は全体統括チームのリーダーの宗光野さんの言葉なんですけれども本当にそうだったなということを実感したプロジェクトでした私達のチームを支えてくださった皆様心より感謝申し上げますご清聴ありがとうございましたありがとうございましたチーム甲の皆さんでしたありがとうございます APEXも入れていただいてますねはいそれでは次はチームビジネスの川越市チームの皆様よろしくお願いいたします栃木ビジネスの川越しですそれで発表を始めていきますよろしくお願いいたしますまず初めにチーム紹介というところなんですけれども私達はビジネス用途の方針で精度の高いモデルを開発することでコンペの優勝も目指しました学生社会人どちらも所属しておりますが主に社会人の多いチームとなっております次にチームの組織図なんですけれども今回人数が28名以上ということでチームメンバーを三つのチームに分割いたしましたそしてそれぞれのサブチームにわかれて作業を実施いたしました次に学習コーパスの構築というところに対して説明させていただきます今回英語講座で学習後日本語で学習するという継続事前学習の方針を得ておりましたそのため英語行動日本語の三つのセットを取得いたしましたということを高度のデータセットに関しましては前処理済みの綺麗な既存データを採用いたしまして日本語に関しましては既存のデータをデータセットに関し加えて例えば国会議事録ですとか白書また法律ですとか有価証券報告書といったようなビジネス系のデータを Webクリッピングで取得いたしましたこういったデータセットに対して次に前処理を行ったんですけれども英語と行動に関しては綺麗ということでしたので日本語にのみ前処理を実施いたしました実施内容といたしましてはこちら右側にありますようにテキストに対して赤色のパラグラフレベルで行う前処理と青色のA.0で終わるような一部レベルで行う前処理に分けてセルを行いましたその前処理はこちらに書かれているように行ったんですけれどもその後にですね三橋による重複処理を実行いたしましたこちらの右端による重力処理ではですねパラメーターとしてNgの文字数ですとか KHといったものがございますがそちらですねどちらも大きくするほど精度が良く重複分を取り除くことができるということがわかりましたしかしながらメモリですとか計算量が大きくなるためそのあたりも鑑みて私達のチームでは10gKコール 4を基本として重複処理を実施いたしましたそしてジューク処理まで行ってせデータセットを用いて遠くないずというところを行いましたこちらは日本語英語コードそれぞれで仙台スピースのNgで学習を行ってから合意をマージするということを行いました日本語に関しましてはめかぶで事前分割後に遠くない処理を実施いたしました右のところに圧縮率とこちら引きのデータと有価証券報告書等の電通データで算出算出したものになるんですけれども LLMJPの宮内座では1.51という圧縮率に対し私達の東京アジアでは1.6と圧縮率が高くなっておりますこの結果からビジネス系の単語が短い遠くで扱われると推論速度の向上が期待できるというふうに考えられます次に事後学習用の自作データというところに関して説明させていただきます私達のチームでは言語理解ですとか数学的推論要約などLLMに必要とされる能力を17のタスクに分解いたしましてそれぞれのタスクに対応したプロンプトを作成しミックスとなる8画22Billion使用してデータセットを大量に生成いたしましたさらに生成したテキストに対して LLMによる品質の判定ですとか自動修正また目視による修正を行い綺麗なファインチューニングのデータを大量に作成いたしました次にモデル講座に関して説明させていただきます今回私達は多くの企業で検証済みの江良モデルを採用し RAGⅢ同様グループアテンションを導入いたしました学習期間と計算資源の最適化またLlama2のパラメータ等を参考に最終的にこちらの12.3 ミリをパラメータサイズで決定いたしましたこちらのモデルのパラメータ決定するに当たりまして計算資源の最適化が結構関わってきましたそちらに関して説明させていただきます今回TFLOPSを上げるために様々な試行錯誤を実施いたしましたそこで得られた知見としてしましては精検数lengthを小さくしてアクティベーションチェックポイントをプレゼンすることで速度を向上するといったところまたモデルパラメータを最適に分割できるように MPPを調整することが重要であるといったところですこちらのPPを調整するというところに関して少し細かく進めさせていただきます下の図がPP6MPコール1でディープスピードによるモデル分割された際の結果となっております左から二つ目のA列がですね 10ミリをやめた分割した場合の結果そしてその右側にありますのが12 Billionで分化した結果となっております今回ですねPコール6ですので六つに分割されているんですけれども PP0が一番左上左ですね JB4ですとPP0が2億ミリオンパラメーターに対してP5が1Billionパラメーターというところで入力部分と出力部分でかなりパラメータのわかれ方が異なっているということがわかりましたこのようにバランスが悪いというところでPP0がボトルネックなってる一方で PP5月に地上隊というようなところで TATFLOPSとしては240といったようにかなり下がっているといった結果となっております一方で12Billionではかなり均等に分けることができまして大体400TFLOPSほどレッドで出ているといった結果となっております私達のチームは社会人が多くですね土日での開発活動が主なため5月17日金曜日に学習が可能となるようにボトルネック部分であるフィードコアネットワークの大きさを調整してパラメータサイズを12.3秒に決定いたしました次に事前学習自己学習というところに関して説明させていただきますまず事前学習ですが私達のチームでは英語行動10対1の割合で95Billion学習後日本語英語行動10対1 対1の割合でWeb一般知識報告書法律企業数学の順で85 秒学習させましたドメイン変更時にロスが増加するですとか途中でいくつかスパイクが発生したんですけれども自宅に関し出力に関しては特に問題はございませんでしたしかしながらハッキングフェスへの変換というところで少し苦労いたしましてまず止め方のディープスピードでは萩フェイスへの思いの変化Llama2コードですとか MPPが人以上のものをサポートしてもらうしておりませんでしたので閉館へ変換スクリプトを構築いたしましたまたディープスピードのステージごとにもチェックポイント構造は異なっておりましたのでそれぞれ準備いたしましたそのおかげで事前学習後の戻り変化問題なく実施することができましたまた遠くない座の返還というところで標準工場の標準コードの thave方式でセンテンスピースモデルを返還いたしますとこちらの左下のようにスペシャルトークンが分割されてしまうといった問題点がございましたそのためLLMJPの変換方式を参考といたしましてブラインド区内TheFirst方式を採用いたしましたこれによりトークの合図が正しく変換することができました次に自己学習というところなんですけれども今回既存のデータセット 100万件を事前学習済みモデルに対してセーフティを行いましてその後自作データセット3万件をFTいたしましたその後試行錯誤過程で作成した他のモデルも合わせて三つのモデルで進化的モデルマージを実施しさらに精度を向上させました次にモデル評価というところなんですけれども今回SFPによる学習ではデータセットを増やすほど精度が向上いたしました例えばこちらの図にありますように事前学習済みモデルではJRさんのアベレージが0.029なんですけれども 100万件でSFP行いますと約0.363というふうにいう形でかなり上昇しておりますその100万件のFTしたモデルに対して自作でセットを用いて学習を行いさらに精度を向上させました BPOは実施したんですけれども繰り返し分が増えるなどの精度低下を確認いたしましたので不採用といたしましたそして先ほど説明ご説明させていただきいただきましたように精度の高い三つのモデルを用いて進化的モデルマージを実施いたしましたこちら結果としてはジェイ明日が少し下がりましてもJMTベンチが上がるという結果となったんですけれども平均値が高かったのでこちらの次モデルは最終的に提出いたしました最後に開発大手というところなんですけども今回開発センターを通じてとも今までご説明させていただいたような知見をいろいろと得ることができましたしかしながら今回ですねビジネス適用の有効性までは確認することができなかったため今後このようなところに関して確認できればなというふうに思っておりますこちらで発表は以上になりますご清聴ありがとうございましたありがとうございましたそれでは続きましてチーム天元突破の尾崎さんチームお願いいたしますそれではチーム天元突破の発表していきますよろしくお願いしますキックオフのときにですね天元突破って何ですかって言って全然通じなかったんで何かこういう空色デイズでChatGPTがつぶやいた画像だけ載せたんであとは皆さん推論いただいたらいいかなと思いますはいでは私のチームとしてはLLMの春新書の提言を目指しましたここにある論文の通りですねハルシネーションの原因というのは主に加算階層ありましてそのうちの一つがですね不完全なデータソースです従って事前学習データの品質が非常に重要ですなので元々のデータからクリーニングフィルタリングにフレージングいろいろあると思うんですけれどもそういったのを通して高品質な学習corpusにするということがすごく大事でした参考資料としてこういったところ参考にさせていただきましたチーム紹介なんですけれども遅ればせながらなんですが大阪公立大学大学院今修士1年って書いてるんすけどごめんなさい 2年になりました尾崎ですよろしくお願いしますそれ以外にもメンバーの皆さんや今回てんちむ天元突破ではサテライトコアメンバーという形でより能力の高い方々をにですね発言権をできるだけ持っていただきたいということでこういった方々に役職を与えることになりましたチームの組織図としてはこのような形になっていてちょっとずれてるんであれなんですけどコレクションとキュレーションとモデルトークライザーの3チームを大きく分けてコアメンバーがサブチームのリーダーをそれぞれ務めるというような形になりましたリーダーとサテライトコアメンバーともろもろみんながチーム全体を支えるという形ですねそれ以外にもサポートチームという形で文献資料を整理したりとかチームの状況をセーブしたりというような役割を持ってもらうチームを作りましたでは学習corpusの構築なんですけれどもデータコレクションについてはLLMの開発で利用歴あったりとか著名なデータセットを中心に選択しまして日本語英語数学コードバス2E2というかこの四つを主に集めましたデータキュレーションが最も基本的なところなんですけれども右側にあるようなパイプラインでキュレーションを行いました主にLLMJPやスワローで実施されているフィルタリングをしてましてほうじ茶というテキスト処理ライブラリがあるんですけれどもこれを改良したフィルタリングコード等々でフィルタリングを行ってですね全体として低品質なテキスト全約4割をフィルタリングするに至りました量は少ないんですけれどもLLMりフレージング実施しています最終的に上がった事前学習データセットこのような形になっています事後学習についてなんですけども事後学習のデータセットは基本的に既存のSSプラスちょっとオリジナリティのあるデータという形で集めています合計約10万件程度ですかね東北のいざに関してなんですけれども標準コードに準拠しておりましてセンテンスピース遠くない座で日コードそれぞれでブラウザを作成しまして最終的にマージするというようなことになりました語彙数なんですけれども約5万ぐらいになっていてLPが日本語で2を超えているっていうことで非常に遠くない山にはなったんではないかなというふうには思いますモデル構造についてなんですけれども Llama2アーキテクチャを採用しました非常にオーソドックスな方だと思うんですけれどもこの載せている論文にあるようになかなか良いアーキテクチャと総合ベースでなかなかいいアーキテクチャということになりました長いコンテキストの埋め込み精度が向上しているらしいです諸パラメータはもうこんな感じで文献とそれからライブラリ等の実装事例に基づいてモデルチームに選んでいただきました最終的には11Billion程度のモデルが出来上がりましたミストラルIMO今検討したんですけれども実装難易度とスケジュールの観点から今回は断念するということになりましたが今発表あったように MEを採用するチームもあってそういった知見が集まったら非常に良いことだったなと思いますでは事前学習なんですけれども先ほど紹介した事前学習のデータセットを全部で4ステージに分けて心をカリキュラム学習と呼ぶのかどうかわからないんですけれどもこういった形で学習しましたユニークだったのは日本語メインのコーパスをステージ1に持ってきたということですにできるだけ日本語日本語のを作りたかったっていうちょっと漠然とした理由はあるんですけれどもここが一つユニークな点だったかなと思います約180ミリオンをですね20日間かけて学習しまして最終的にはさらに付近で学習終了することになりましたマシントラブル以外にですね3回ほど学習がストップすることあったんですけれども特段大きなロススパイクもなくですね非常に順調にルンダンではないかなとは思いますステージ四つあると先ほど申し上げたんですけれどもそのステージの間でのスパイが起こるだろうなという想定は元々していたんですけれどもこうやって画像にすると何か大きく出てるみたいなんですけれどもかなりさっきの画像を見ていて思い出しいただいてわかる通り結構軽微なもので割とすぐその後降りていったんでそんなに心配することはなかったかなというところです事後学習についてなんですけれどもFTによるフルパラメータのファインチューニングに最終的になりました実験でですねローラだったりとか振るパラメータのSFT+DBOだったりRPOONFちゅうんですかねとかもいろいろ試したんですけれどもそれぞれ事後学習に関しては最終的なモデル評価と同時に行っていたのでそういった面でスコアで FTによるフルフルパラメータTuningに勝てなかったっていうところで断念するに至りましたモデルの評価についてです最終的に提出させていただいたモデルについては上に書いてあるようなスコアになっていますそこが近いモデルとしてはスワローの13Billionの指示インストラクションとRSFが終わってるモデルと大体似たような形になったかなというところです次事後学習データですね最終的にこれでいこうみたいなのができ上がってから大体6区6回ぐらいいろんなデータセットで試しましたなんかどれが行ってどれが駄目みたいなのでパズルゲーム的なところがあったかなというような最終的な感覚があります最後なんですけれども元々チーム天元突破としてはハルシネーションを低減したいというところで非常に真実性の高いモデルを作りたいなと考えていましたそこでですねちょっと全然コンペとは関係ないところでメンバーの方がですねJトゥルース触れJTS9Aを算出いただいて最終的になかなかいいモデルが出来上がってんじゃないっていうことで評価することができました JTS9AっていうのはLLM真実性信頼性安全性を図るためのベンチマークなんですけれども上に書いてあるような形の問題が何個が入ってるというようなデータセットになりますこの表のモデルと比較してもですねなかなか数値になっていますGPT3.5Turboのロバートのところを見てほしいんですけどバターで評価を行った際のところの数値を見てほしいんですけども大体似たような水準になっているしそれ以外にもですね著名な日本語LLMに比べてもなかなか良いスコアになっていて高い真実性を持っているなというふうに評価できるかなと思います最後に開発を終えてなんですけれども率直に非常に悔しいコンペになりましたいろんなことが本来なら持ってきたと思うんですけれども私の経験不足とかマネジメント不足もあってなかなかできることが全部できないっていうような形で皆さんにもチームのメンバーにも悔しい思いをさせたんではないかなと反省していますこのLLM開発はですねスケジュールと人的リソースとの戦いを多分今後もどんなプロジェクトでもやっていくんだろうなと想像するんですけれども団体戦だというところであとは脳内で棒危ないそうなりましたの曲が流れると嬉しいなと思ったんですけれどもなんで皆さんも多分もっと協力しないといけないのかなというところですアウトプットとして出てきたそのキュレーションの効果と日本語から事前学習を始めたってアウトプットというかユニークなところですねユニークなところがですね結構いい形で現れたっていうところは率直に嬉しかったですちょっとJAさE2つい昨日まで行ってたんですけれどもそのときにも日本語から事前学習やったモデルをGENIACでやったんですよみたいな話を振られて振られてというかそういう話を知ってる方がいらっしゃって開発としてですねモデルに自己紹介を求めたときに始まったときにはですねさすがに鳥肌が立ったんでなかなか面白いモデルができたんじゃないかなというところがあります今後なんですけれどもこのような小規模LLMのあり方はどういうやり方がいいのかなというのがよく考えさせられました単純な汎用性を勝負しても意味ないんだろうなというところはあるんですけれどもそういったところでどう今後やるのかなというのはすごい悩ましいところですもう一点今回ユニークな点としてディベートデータを使っていましたディベートデータを事後学習で使ったんですけれどもあんまり効果を検証できなかったのが残念なところです本来であればこれはフェニックスの本来なら書いてあるんで後で見てほしいんですけれども事前学習のデータにディベートデータがあればいいなというのが最初の考え方だったのでそういったモデルが最終的にできればもっとよかったのになというところですが今後の研究の種になりそうですはい以上でチームターゲット発表ありますありがとうございましたはいありがとうございましたおります皆さんSlackの方でも少しずつコメントをいただいておりますが発表資料もSlackのチャンネルの方に流させていただいているのでそちらもご確認の上気になったところあればどんどんコメントいただけますと幸いですはいそれでは続きましてチームたぬき畠山チームお願いいたしますはいご紹介ありがとうございますチームたぬきのリーダーの畠山と申しますと結構詳しいことをいろいろ書いてたんですけどスペースなくなっちゃったので詳細についてはSlackに貼ってある技術詳細をAPEX ご覧ください最初に自己紹介と行きたいところだったんですけどわかりやすいところからポイントをご説明します何ができたかといいますと割と限られたリソースの中で結構性能の高いモデルができたなと思ってます先週に提出したバージョンがJMTベンチで4.6でその後もちょっとBPOとかできなかったので細々と検討していて今4 .9点ぐらいです今そこで林さんが今も計算してるみたいですそれ4点9点とかそれがどれぐらいかというとこちら見ていただくとわかるんですけど 10ミリオンぐらいの規模のモデルでいけば一応トップクラスの成績になってます成績はトップクラスであるのに対して事前学習に費やしたトークン数というのが300ミリオンぐらいになってます他のモデルは大体その10倍ぐらいアメリカの大きい会社が作ったものに載ってるので日本みたいにそれなりにお金はちょっとあるけどアメリカには敵わないようなところが新しくモデルを作ろうと思ったときにどういうことができるかといういろいろ試行錯誤の成果が一つ出たかなと思ってますはいチームメンバーとしては私は東工大で教員をしている畠山と申します実は専門が化け学であんまりトランスフォーマーのこともわかってませんなのでわかんないなりにスケールアップトランスフォーマーと思いながらやってるような感じです他のチームの方々は真面目なバックグラウンドの方々がたくさんいるのでそういう方からいろいろ教えてもらいながらやってます加えてチームの正式メンバーじゃない方なんかも含めて結構スタートアップの方が多くてこういう機会を通してより今後大金持ちになってもらいたいなと思ってますそうですねチームの構成は割とオーソドックスなので割愛します corpusとかそこら辺は基本的に基礎に忠実にやりました何をしたかというとまず可能な限り大量のデータを集めましたコンクールなんかも大量に大量というかが可能な範囲で集めてきてその上で汚いデータをできる限り抜きましたやっぱりあのインターネット上のデータって大体商用サイトで似たような言い回しすごくたくさんあるのでそれをかなり確率的なフィルタリングとか教師あり学習なんかで抜いていますそれでできるだけ密度の高いデータセットを作りました英語については英語の論文とかWikipediaとかコードを学習させて普通のそこら辺のインターネットのデータは今回は全部バッサリ捨てることにしましたファンTuningデータも結構頑張って集めましたやっぱりあんまり良いデータセットないなということが最初わかってきたのでからくりで働いて除去東大助教やっている片上さんにいろいろ指示を仰ぎながら推し作り方を教えてもらいながらみんなでデータセットを作りました当時高校生だった周さんがこちらのようなすごい非常におしゃれなWeb サイトなんかも作ってくれましたただそれでも意外とデータが集まらないなということに気づいたので次は半自動でデータを作ることにしましたこれは4月ぐらいにミストラルっていう結構性能いいモデルが出てきたので Googleのスプレッドシートに質問を打ってあげると回答が結構レスポンス良く出てくるとこれをみんな見ながらとか部分的に修正しながらデータセット数百件ぐらい作りましたそれでも足りないなと思ったので今度全自動で100万件ぐらいデータを作ることにしました今ポイントとしてはあんまり10ミリオンぐらいのモデルって賢くないのでもうあらゆる人類とのやり取りというのを事前に学習させたいというそういう思いで作りましたそうですね遠くないず関連は雨風では高地が木下とかそれぐらいのことであんまり詳しいことはやってないですモデル設計についてはこれも割と競うに忠実に定番の玉系のアーキテクチャを使いましたFLOPS数には結構こだわってって言ってGPTベースよりなぜか良かったので生を使ったという経緯もありますモデルサイズは10日よりちょっと小さめにしてできるだけたくさん試行錯誤の回数をあのする機会を増やしたいなと思ったりしてやりました実際の事前学習のついてなんですけど結構たくさんいろいろ条件が降りました多分250回ぐらいの学習コードスタートしたかなと思いますFLOPSも他のチームも高い方いましたけど450 TFLOPSぐらいで多分この規模でいけば割と最高クラスになるかなと思ってますそうするとやっぱり単位時間あたりにたくさんのデータを学習することができますそういうおかげで300ミリオントークン近く学習することができましたやっぱりモデルの基礎力というのが何よりも重要だなということを触っているうちにわかってきたのでもっと学習させたかったんですけど 300ぐらいを学習させました事後学習は126万件のデータでやって多分国産モデルとしてはこういう取り組みはまだあんまりないんじゃないかなと思いますさらに人工知能真面目にやってる方から多分怒られるんですけどハウスハルシネーションを含むデータも大量に大量に学習しましたそれなぜかというと自動生成のデータは結構たくさんハルシネーションが入ってるからです結果どうだったかというと先ほどご紹介した通りそんなに悪くない成績だったかなというふうに思います人工合成データを学習するようなモデルも方は許せんみたいな感じのことをおっしゃる方もいるんですけど今回試した限りにおいてはそんなに悪くなかったかなという感じでしたまずコントロール実験としてルールベースでハルシネーション系の情報を抜いた日本の情報とか時系列のものを抜いたものを一緒に学習させた100万件のやつとあと抜かないやつで比較してみると JMTベンチではバリエーション入ってた方がいろんなデータがあるので学習の能力が高かったということになりますそれに加えてスターとか Jコモンセンス能力見てみるとハルシネーションのデータ入っててもそんなにというかやった範囲では悪いことはなかったので結果オーライという感じという理解をしてますただとりあえずユーザーインターフェースとしては一番重要な指示に対してちゃんと言うことを聞くということの能力は上げられたのでようかなと思ってますはい学習の最後開発を終えてあと何分ぐらいですかはいか 3分なんか早くしてたんで最後ゆっくり話します開発やっててすごく思ったことは知識を詰め込むそうというのが結構つらいなということでこの情報化社会においてインターネットから遮断されたスタンドアローンの能力を競うことにどれほどの意味があるんだろうかということを常々思いまして教育面においてはそういうことをすごく言われてるんですけどまだ現在のベンチマークはやっぱりスタンドアローンのことをやっているなというふうに思いましたなのでやっぱり次に目指すべきことは情報をちゃんと使いこなせるモデルを作ろうということかなと思ってます私も別に都道府県の場所全然まだわかってないんですけどちゃんと検索エンジンを使えば生活ができますそれと同じように多分AIもわかんないことはインターネットで調べたりとかあとは計算苦手だったらツールを使うみたいなところでまずは与えられた情報を正確に処理してつつ使いこなせるモデルを使えばある程度社会実装には近づくんじゃないかなというふうに思ってますもちろん知識を詰め込んだりすること大切なんですけどオープンなところで開発しても定期的にアップデートしていかないとそもそもどんどん時代遅れになっちゃうのでそれもやっぱりしんどいということで今後もしやるとすると与えられた情報を正確に処理してジェーソンを出すとかツールを使ってみるとかあとはやっぱり汎用人工知能という意味ではやっぱエージェント化できに最終的に呼び出して動かせるものとかがいいかなと思ってますあとお金でいくとやっぱり伝票を高速で安く読み取れるCRとかを作れれば結構世の中の人がやや喜ぶんじゃないかなみたいなことをやってます加えて性格で知識としては正確じゃないけれどもこういう論理的なことというのは合成データで結構勝負しやすい領域なのである程度環境整ってきているかなというところですこういう人工知能じゃない人たちがやるエンドユーザー視点でフットワーク軽く開発するということには一定の意味があるんじゃないかなというふうに思っている次第ですはいありがとうございましたありがとうございましたチームたぬきの発表でしたありがとうございますでは続きましてたくさんアプレンティス入れていただいてますね続きましてTeams三昧3チームの発表になります本日ちょっとお越しいただくことが叶わなかったので録画で発表ご用意いただいておりますこちら投影させていただきます本日はよろしくお願いします京都大学理学部特定准教授で Teamsのリーダーをしております三内秋吉です突然なんですが研究開発ということはありますよねこの言葉は研究と開発が何らかの意味で近いあるいは同時にできるという音から生まれた言葉なんですが少なくとも私の周りで研究と開発が同時に行われている事例を見たことがないんですね他方で世界に目を向けてみると OpenAIやGoogleは内部に研究のフロンティアよりも先へ行く技術を持ちそれをもとに最先端のモデルを開発しているわけですなので我々も研究と開発の距離を縮めるあるいは同時に行うといった経験が必要だろうと思い研究と開発を同時に行う研究開発を行いましたさて前置きが長くなってしまいましたが結果はといいますと研究としては歴史エキスパートに関する三つの新しい手法を試しそのうち二つは既存地方と比べて良い結果を得ることができましたモデルについては通常のMOEと比べ25%程度少ないパラメータ数で 5%程度低いロスを達成しまたMEの学習アルゴリズムにつきましては PBXと呼ばれる既存の手法に対し 1.5倍から 2倍程度が宿主学習速度が向上するという結果を得ましたまた開発の方は残念ながらロススパイクが発生してしまい未完成な形での提出になってしまいましたので本日は事前検証で行った結果を中心にお話させいただきたいと思います実験方法としましては FBTXとUPTXを改善した手法を用いて日本語の学習モデルの学習済みのトランスフォーマーモデルをME化しました結果としましては 3桁の足し算の正答率が0%から65%まで改善し通常の文章生成能力も改善したという形になりました下の図が生成例で次の計算をしてください 707+398イコールという入力に対しオリジナルモデルでは謎の行動が生成されてしまうのに対し MIの方では正しい答えを生成し次の計算も合っていることがわかりますまた数字の取り扱いが良くなるという現象も起きましたした出力例に見られるようにオリジナルモデルは文章の丸の後に年月日を生成してしまうという問題があったのに対し Mを生かしたものについてはそういったことはほとんど起こらなくなるという現象が起きました多少技術的ギャップがあるのですがこの種の現象を利用すると個人情報の削除などのモデル制御に応用可能だろうと考えています最後に文章自体のクオリティについても見ておきたいと思います肌感としては全体と全体的に精度が上がった印象で上のオリジナルの出力では少しちぐはぐな印象を抱く文章であるのに対し M OEの出力はこなれたものとなっていますそれでは次にこの実験がどのように行われたかを見るために Metaによるブランチとリミックスと私の提案したフリーズのブランチトレーニングのアルゴリズムを見てみましょうブラントリーミックスのオリジナルのアルゴリズムは次のようなものですまず左にあるトランスフォーマーベースのシードモデルを一つ固定しますこれはフルスクラッチで行いたい場合にはトランスはトランスフォーマーモデルの学習をそうでない場合にはらⅢなどのオープンモデルを用いてもよいですこのようにシードモデルを固定した後次はN個のデータでそれをファインチューニングしますそしてN個のトランスフォーマーモデルが得られたらその重みを用いてもいいよ構成しますまずMOEのエキスパートとしてはトランスフォーマーブロックの中のMOいいよN個配置しアテンションと LMヘッドの部分については対応するNこのトランスフォーマーの部分の平均値を用いて作っていますそして最後にルーターを初期化することで一つのMOEが得られますその後にこのMOUを追加で学習することで最終的なMを得ることができますこの手法はGoogleのスタートアップサイクリングなどを抑えて現在最も精度でいる手法の一つとして知られているのですが私はある直感からファインチューニング時にアテンションそうフリーズした方が良いだろうと考え検証実験を行いましたその結果が下の図で本図はロスをプロットしたものですが上から順番にヘッドをフリーズしたものオリジナルのB TXアテンションとヘッドをフリーズしたもの電車のみをフリーズしたものとなり見事に予想と一致しましたこの結果から BTXを行うときはアテンションそうフリーズしたファインチューニングを行ったPleaseBTXが一番良い手法と考え先ほどの事前検証ではこの手法を用いることにしましただって理想的な計算環境あるいは大きな計算環境においてはこのやり方で良いのですが今回の環境においては 8.×2や8Video×4のMOの学習はメモリ制約から学習ができなくなってしまいますその部分を突破する工夫として Mixture ofLawRAGという手法を用いましたこの図はよくあるミクスチャーエキスパートの図ですが pdxを行う際にここにエキスパートとしてドラが配置された状況を考えてみましょうオレンジの四角がシードモデルでそれ以外の資格がローラーとなりますこの状況では一つのエキスパートが8+1イコール 9Billionでそれが四つあるとすると 36Billionとなりますしかし少し考えるとこのオレンジの四角は全く同じものが保存されているということに気づくと思いますそしてもしオレンジの四角を一度だけ保存することで同等の構造を作ることができれば大きくメモリを節約することができるわけです実際にそれは実行可能でそれがこの図に示された構造となりますこの構造においてはシードモデルの8Billion プラスローラー4Billionイコール12Billion しかメモリー消費しない一方で一つ前のモデルと全く同じ入出力を入出力を持つ音が数学的に保証できます我々はこの構造を用いることでメモリを節約し MIの学習を完成させることができましたさてそろそろお時間が迫っていますのでまとめに入りたいと思いますお話した一つ目は我々のチームでは研究と開発を同時に行う形での研究開発を行ったということそして成果物として二つのMOUに関する新しい手法を発見したということ三つ目として発見した手法を与えられた環境で実行するためにミクスチャーずミクチャを愚弄らずを用いて実行したということそして四つ目はこれらの技術を用いて既存の日本語モデルを改良し 3桁の足し算や文章生成能力をアップさせることができたということです最後になってしまいましたが NEDOの膨大な書類を書き冒頭していただいた松尾先生および大変な運営作業を行っていただいた松尾岩沢拳の皆様そして私の無茶なプランを実装していただいたチームの方々に感謝の意を示して本請願報告を終えようと思います皆様ご清聴ありがとうございましたありがとうございます 3枚3および3枚3チームの方もこちら小山内さんはいらっしゃいませ3枚3チームの方は会場にいらっしゃいますしSlack 上に斉田さん含めいらっしゃるのでもしコメントや質問あればそちらにお願いいたしますでは皆様各チームと発表大変お疲れさまでした発表ですね結構直前に実はお願いさせていただいたんですが皆さんギリギリまで資料をかなりあの熱量を持って作り込んでくださっていて本当にこのプロジェクトに対して真摯に向き合ってくださったんだなっていったところが伝わって胸が熱くなった次第です本当に皆さんお疲れ様でしたそして発表ありがとうございますありがとうございますではここから評価基準の説明とあとは待ちに待った結果発表に移りたいと思いますそれでは評価結果の評価基準の説明の方を小島さんお願いできますでしょうか？はい皆様お疲れ様です松尾岩沢拳の小島です7チームの皆さんの発表を聞かせてもらいまして本当に素晴らしい結果が出たなと思いますこれからコンペの評価指標の話とあとは結果の発表も行きたいと思いますが皆さん他の成果がそのまま数字として出たような形になってるかなと思いますはいまずはコンペ大変お疲れ様でしたということで強さ県側の開発支援チーム一同ですねこの期間中精一杯サポートさせていただきましたここに記載した名前が開発支援チームのメンバーになるんですけど本日も一部のメンバーが今日ここに来てくれてますせっかくですので今日来てくれてる開発支援チームのメンバーの方立っていただけますかねはいこちらですね主に評価チームの原田くん山際さん山崎さん谷口くん来てもらってますぜひ懇親会等でも交流していただければと思いますはい評価チームはいではここからちょっと本題にはい入っていきたいと思いますまずコンペの評価指標ですねコンペ開始のときはですね全体像はまだお見せしてませんでしたこちらのスライドはコンペ開始のときに皆さんに共有したスライドを再掲してるんですけれどもちょっと文字文字が小さくて何を書いていったかというと評価軸まぜ全部公開してなくてですね年中見リーダーボードネオンのベンチマーク具体的にはLLMJPMRという一文と形式のタスク分とあとJM Tベンチという文章生成形式のタスクこちらを評価書の一部として使いますということだけ宣言させてもらってましたそれ以外のヒントとしてはできるだけ汎用的な能力を持つLLM 開発を意識してくださいということだけお伝えしてましたあとは下側にルールとして案も一点記載したんですが経産省側からの指示で以下の学習データを含めないように学習してくださいという少し厳しめのルールもあったかと思います皆様こちら遵守していただいて誠にありがとうございますはいコンペを終了しまして評価書をですねこのように決定いたしましたネズミリーダーボードNEOは予定で計画していた通りそのまま使わせていただきますこちらは日本語LLMのデファクトのベンチマークということです追加の評価指標ですねこのようにさせてもらいましたArcM LUtruth普及日のグランデ減らすワーク後イライザタスク 100というタスクをですね今回追加費用として選定させてもらいました最初の五つは一文形式の選択問題のタスクになっておりますこれ選定理由としてはグローバルな英語LLMのデファクトベンチマークだというところですもちろんこれ以外にも有名なベンチマークもたくさんあるんですけれどもいろいろな都合でこちらの五つというふうにさせていただきました具体的にはGPT3フォーラム末Geminiとテクニカルレポートを見ていただければこれらのタスクでの評価結果等がいろいろと掲載されているかと思います我々はですね英語のデータ数これらの英語データセットを訳して評価指標を作成しましたあとちなみになんですけどビッグベンジハードと呼ばれる結構難しい目のタスク群があるんですけどもそれも当初計画には入れてたんですが今回のコンペのタスクとしては少し適当では的適当ではないかなということでベンピックベンチマークハードは今回除外させてもらったという形になりますこれらの評価書を和訳したわけなんですけどもう少し詳しく説明すると MLUとトランスする9AA以外はオリジナルの映画でセットから各評価指標ごとに100サンプルランダムにピックアップしてGoogleTranslateAPIで自動翻訳した後にその和訳を全てですね人でのチェックと修正を施して作成いたしましたあと一番下の行にあるイライザタスク100ですねこちらは文章生成系のタスクになってますJMTベンチと同じくですね GPT-4による段階評価を行うタスクになってますイライザタスク100は日本語LLMにおける長文生成の代表的ベンチマークの一つということでこちらを追加しようしようとして採用させてもらったという次第ですはいこれらの証貸を使って計算評価結果を出しました評価用の式ですけどこちらになります総合得点ですねはねずみリーダーボードね追加評価指標の平均値として算出させてもらってますネズミリーダーボードNEOの数値はですね既存と同じ評価式をそのまま使わせてもらってます追加の評価指標に関して言うと先ほどの五つの選択問題のタスクプラスアルファでLLMJPMR4ショップって書いてあるんですけどこちらはネズミリーダーボードの中にある例 LLMJPMRを0ショットではなくて4ショットでの評価をさせてもらってそれも追加の特典としてさせてもらってます平均値とあとは他RISE100ですねこちらとの平均値を出して追加資料の性能というふうにさせてもらってます一点選択問題の場合0ショットだとLLMの回答フォーマットのくせに性能が影響を受けやすくなるので追加資料に関してはヒューショットで評価をさせてもらっておりますはいこのような評価式を使ってですね各チームの提出していただいた LLMの評価を行いましたこちらが結果になってますがランキングのチームの部分はまだマスキングさせてもらってますこの後ランキングの結果を発表させていただきますまずは全体の特定の傾向をですね説明させていただきます全チームですねハイレベルの結果を叩き出してもらってます特にですねネズミリーダーボードねの列を見ていただきたいんですが上位の2チームはスワロー13Billionインストラクターを上回る精度を達成するという気非常に高いですね制度スクラッチ学習で達成できたのかなと思っております追加出資評価資本の結果か列見ていただくとわかるんですがね準備リーダーボードNEOとほとんど同じ傾向ランキングになってます確か4位って多いだけちょっと入れ入れ替わったぐらいだったと思うんですけどそれ以外はネズミリーダーボードと全く同じランキング順番になっておりますそういうわけなので総合得点もですねほとんどネズミリーダーボードと同じランキングという結果になったかと思いますはいこちらが全体の傾向ですねここからですねいよいよお待ちかねのランキング発表に移らせていただきたいと思いますはいお願いしますでは白石にバトンタッチさせていただきまして結果発表どきどきの結果発表に移りたいと思いますまず3位21の順番で発表させていただきましてその後に全体のランキングマスキングされていた部分を公開をさせていただきます後ほど表彰もさせていただきますのでこの時点では前に出てきていただかなくても大丈夫ですそれでは皆さん盛り上げる準備はいいですか大戸川とか言ってくださいねはいありがとうございますでは最初に3位の受賞者から発注書チームから発表させていただきますサインはチーム天元突破の皆さんですおめでとうございますもしよければちょっとその場でチーム天元突破の皆さんご起立とかっていただけますかあとが手挙げていただいたりできるとあの辺ですかねありがとうございますおめでとうございますでは続きまして2のチームの発表ですトニーのチームはチームビジネスの皆さんですおめでとうございますチームビジネスの皆さんどちらにいらっしゃいますかねあのあたりですねありがとうございますでは時々の優勝チームの発表でございます流行る優勝チームはチームたぬきの皆さんですおめでとうございますチームたぬきの皆さんはどちらにいらっしゃいますかねあのあたりですねおめでとうございますと3位から1発表させていただきました改めて皆さん大きな拍手をお願いいたしますでは全チームの結果を投影させていただきましてコジマから少し解説をさせていただきます小島さんいいですかねとしてはい解説というほどでもないんですけど先ほどのあの結果のチームのところ念チーム表示させてもらいましたこのような結果になっております皆さん本当に非常にハイレベルな戦いを繰り広げてくれたかなと思ってまして正直内心ですねコンペが始めるときは発表会で提出ししてもらうチームは多分一二チームぐらいになるんじゃないかなぐらいのほとんど脱落するんじゃないかと思ってたんですけど最後まで皆さん粘り強く頑張ってもらってこういう高い得点を皆さん出していただけたのかなと思います順位に関わらず皆さん胸を張ってこの結果を誇っていただければいいんじゃないかなと思いますはい皆様大変お疲れ様でした私からは以上ですありがとうございますそれではここから表彰の方に移らせていただきますお名前を言われた方は前に出てきてください松尾先生前に来ていただけますでしょうか？それでは最初にチーム天元突破のチームリーダー尾崎大成さん前の方にお願いいたしますチーム代表して尾崎さんの方に表彰状を受け取っていただくんですがよしよければチームの皆さんもあの前に出てきていただいて一緒に記念写真撮影いただけると嬉しいですすいませんMM はいはいでは読み上げますGENIAC松尾研LLM開発コンペティション第3位チーム天元突破リーダー尾崎大成殿駅チームはGGENIAC 松尾研LLM開発コンペティションにおいてチーム一丸となって開発に取り組み当初の成績を収められましたよってここに称します2024年6月 1日松江高を行ってございますますおめでとうございますそれでは皆さんで記念写真の撮影をしたいと思いますこちらで撮影させていただくのでそうですねとか別すごいライトまで持ってきていただいてありがとうございますそれではチーム電源突破の皆様改めておめでとうございましたどうぞご着席ください続きましてはいどうぞそうですねもしよければ一言いただけるとすいません3位という結果をいただけて大変嬉しいですそれよりもハルシネーション低減したいっていう目標を掲げてそれに準ずる結果を出せたのがとても嬉しかったのとあとここにいる超優秀な皆さんと知り合えたのはとても嬉しかったですしそれがこういう結果になったのもとてもとても嬉しかったです今日オンラインの向こう側のチーム大崎のメンバーも多分喜んでくれてると思うのではい今後ともこっちも大崎に限らずこの GENIACの場で繋がった皆さんと仕事なり緊急なり開発なりできればとても嬉しい声だなと思います今回は本当にありがとうございましたありがとうございますどうぞご着席くださいそれでは続きましてチームビジネスの皆様前にお願いいたしますはい読み上げますGENIAC松尾研LLM神戸氏LLM開発コンペティション第2チームビジネスリーダー川越潤人の以下同文ですおめでとうございますおめでとうございます最初にコメントいただけますかそうですね正直悔しいというのが一番の気持ちですけれどもここまで2という結果を得られたのはここにいる皆さんのおかげかなというふうに思っております今回こういった形で皆さんと関わることができたのが大変よかったなと思っております今後もかかることできればいいかなと思っておりますのでどうぞよろしくお願いいたしますはいおはようございますではお写真を撮影させていただけたらと思いますありがとうございますご着席くださいそれでは続きましてチームタヌキの優勝チームの皆様前の方にお越しお願いいたしますふうん読み上げます GENIAC松尾研LLM開発コンペティション優勝チームたぬきリーダー畠山感度の以下同文なりますおめでとうございますおめでとうございますそれではコメントをお願いいたしますはいまず2点ありまして一点目は見ての通りあんまり現地参加者が少ないんですけど今皆様フィールズに向けて家で準備されてますので頑張ってるところですあとは正式なチームメンバーじゃないけどすごく参加してくれてる方とか言ってそういう方も結構オンラインで見ていただいてます 2点目は一応スケジュールとかも実は確認していてどうやら8月 15日ぐらいがGPUの提供期間が終了で本がどうやら全部丸潰れそうだというようなことに気づきましてなのでぜひお盆も含めてこれから一緒にやっていただける方いたらよろしくお願いしますありがとうございましたありがとうございますもう既に準備を進めてるメンバーがいらっしゃるということでさすがですねありがとうございますでは写真撮影の方お願いいたしますありがとうございますどうぞご着席くださいすいませんちょっと狸チームの方もう1回戻ってきていただいて実は優勝チームにはトロフィーをご準備しておりましたすっかり忘れておりましてお渡しをさせていただきますこちらで出していただいた方がいいかもしれないですねちょっと特注でですね松尾研GENIACLLM開発コンペティションというあの盾を作らせていただきましたこちらぜひ先生からお渡しお願いいたしますありがとうございます本当におめでとうございますそしてフェーズ2の開発も応援しておりますまたですね今回本当は優勝チーム23位という表彰の予定だったんですが各チームメンバー各チームメンバーがですねそれぞれ学業であったりだとか本業がある傍ら本当によく頑張ってくださったので何とかメンバーを表彰してあげられないものかとチームリーダーの方から熱いご要望をいただきまして各チームよりMVPを選出いただきました本当に悩みながら選出いただいたんですけれども本日お越しいただけてない方もいらっしゃいますが会場にいらっしゃる方はぜひ前の方に出てきてください予備ちょっと見づらいですかねちょっとお名前呼び掛けさせていただきます TeamGENIACから白石仁生様と堀江慧さんそしてチームビジネスから西島泰さん國翔太さんチーム甲から山内龍太郎さんウェルトンリアムさんそしてチームたぬきから林幹太さんそしてこれはIDですかねPは武さんそしてチーム天元突破からは染谷みなみさん詩央塩屋宏明さんとTeamZOOからと藤本一成さんチーム熊から宮沢智也さん加藤潤さんこちらの方々がMVPとして選出されております会場にいらっしゃる方で賞状を受け取れるよという方は前の方に出てきていただけますでしょうか？それでは最初白石さんこちらお名前挙げさせていただいてる中で来ていらっしゃらない方もいらっしゃるのでいらっしゃる中で堀井さんから最初にアナウンス表彰状を与えさせていただきますはいでは読み上げますGENIAC松尾研LLMコンペティション MVPTeamGENIAC堀江英里紫藤慧殿記念はGENIAC 松尾研LLMCompositionにおいて自発的かつ意欲的に開発に取り組みチーム開発を牽引したことをここに使用します今後も日本のLLM開発の一翼を担い更なる活躍をされることを期待します2024年6月1日松戸高お願いおめでとうございます写真はまとめて皆さんでお取りさせていただきまったらと思いますその場で残りいただけてくださいでは西島さんですねはい西島泰殿以下同文なりますおめでとうございはい國翔太殿以下同文なりますおめでとうございますはい山路さんですねはい山口龍太郎殿以下同文なりますおめでとうございますはいベルト病む度の以下同文なりますおめでとうございますはい林幹太殿以下同文なりますおめでとうございますはい染谷南殿以下同文になりますおめでとうございますはい宮沢や宮沢智也殿以下同文になりますおめでとうございますはい加藤潤殿以下同文になります伊藤ございますありがとうございますそれでは皆さんでお写真撮れればと思いですので松尾先生を囲む形で成立いただいてもよろしいでしょうか？ありがとうございますありがとうございますご着席くださいそれではこのまま松尾先生の方から総評をいただきたくおね思いますよろしくお願いいたしますはい皆さんお疲れ様でした優勝したチーム狸皆さんおめでとうございます上位入賞されたチームそれから今回全チームがですねきちんと最終的な成績提出できたということで素晴らしいというふうに思いますまた MVP取った皆さんもですねおめでとうございます本当に短い間でしたけれども大変素晴らしい内容だったと思いますし相当大変なことがですねあったんじゃないかと思いますけれどもよくよくですねここまでやっていただいたというふうに思っています今日の発表もですね見ていて私非常に楽しかったですすごく勉強になりましたしなんていうか面白いですねやっぱり何て言うかですかね上位入賞されたチームはやっぱり最初から最後までかなり何て言うか上手にやっておられたっていう感じでやっぱりその期間が短い中で最初突っ走っちゃってなかなか後戻りできないのでていう中ですごくですね上手にやられていたなと特にチームタヌキはですねしこさ施行回数が多分一番多かったっていうのはですね本当に作戦勝ちっていうかですねいうところもあるし本当に素晴らしい内容だったと思いますやっぱりこれだけのですね短い期間でも相当皆さんレベルアップしてると思いますしこういったことをですねベースにさらにどんどんいろんないろんな機会を見つけてですね活躍していただければと思いますこれから第2フェーズっていうことでですねチームたぬきがですね進んでいくわけですけれどもその他のチームの皆さんもですねいろんな機会ありますのでぜひ活躍していただければと思ってます一つにはですね第2フェーズいろんな形で力を貸していただく場面があると思いますのでぜひですね協力していただきたいというのが一つですそれから松尾研の中でですねこういうふうにLLMの開発者をどんどん増やしていきたいと思ってましてLLMの講義もするよといゆの予定にしてます去年やりましたけどもそれをですねさらにパワーアップしようと思ってますのでそちらにもですねぜひもう開発経験があるということでご協力いただければというふうに思いますそれから松尾研の中でもですねいろんなプロジェクトを走っておりますのでぜひ興味ある方はですねそちらにもさ参加いただければというふうに思ってますそれからまだいろいろと未確定なところがあるんですけども先日ですね私がAI戦略会議の中で生成AIこういうふうに活躍活用したらいいんじゃないかというのをですね少しハナしてですね私のペーパーが出てるんですけどもその中でですね今日東南アジアのLLMの話も一部参照していただいたと思いますけれども実はあの中のですねプロジェクトがいくつか実際に動きつつあるものもあります特に医療LLMなんかはですね実際にやっていく可能性がかなり高いと思ってましてそういったところでもですね活躍してもらう場が今後出てきますのでかなり近いうちにですね出てきますのでちょっと悔しかったからですもう1回か開発してみたいと今度はですねもっとうまくできるんじゃないかというふうに思ってる方はぜひ参加いただければと思ってますそれから東南アジアのLLMとかですねそれからロボットロボティクスファンデーションみたいなものとかですねそういった辺りもですね今後どんどん広げていきたいというふうに思ってますのでぜひですね今後もそういったプロジェクトにですね参加していただければというふうに思っていますということでこれからもですねぜひよろしくお願いしますということでここまでですね本当にお疲れ様でしたありがとうございましたまた先生ありがとうございましたそれでは今後のアナウンスに移らせていただきたく思います最初に島さんですかねはいありがとうございます川崎さんにお願いいたします皆さん改めて本当にお疲れ様でしたGENIACのプロジェクト今年の1月ぐらいですかねから5週始めてもう6月に入るっていうところでもあっという間なあっという間に5時間が過ぎたなっていうところでも皆さん本当にお疲れ様でしたっていうところと当初結構なんか規模が200名ぐらいの規模感なのでちょっといろいろ問題とか炎上とかあるんじゃないかって心配してたんですが皆さんのコミットメントとリーダーのリーダーシップによって無事フェーズ 1を終わることができました改めてありがとうございますありがとうございましたお疲れさまですはいここからですねフェーズ2に本も早速本日から計算リソースも提供して開始していくわけなんですけれどもちょっと今後の流れっていうところをいくつかお話できればというふうに思っておりますまずですね自己アセスメントについてこちらの皆さん最初プロジェクトに応募いただくときにアンケートだったりとかフォーム入力いただいたかと思いますがそれをちょっと実際プロジェクトをやってあの開発を経験してみてどうだったかっていうところのアセスをさせていただきたいと思いますのでぜひ皆さん全員必須で回答をお願いいたしますおそらくもうメール飛んでますかねはいと皆さんのメールアドレスにメール届いていると思いますが思いますのでちょっとぜひ回答をお願いいたしますあとですねちょっと前回最初の応募フォームのときよりいくつか項目を追加しております後ほど説明するフェーズ2においての編入の質問項目だったりとか入っていますのでぜひぜひまた編入希望される方だったりとかいらっしゃったら回答お願いいたしますはいフェーズ2について事前にですね各チームのリーダーからもし自分のチームがフェーズ2に移った場合どのぐらいの方々をどんな方々を欲しいから編入いただきたいかっていうところを事前にお伺いしておりますそのほ本日の皆さんに回答いただく事後のアセスメントを各チームのリーダーたぬきち畠山さんに共有させていただいてチーム内で支援審査をしていただきます6月5日までが期限となっておりますので6月6日以降にフェーズ2に編入いただける方を決定通知させていただければと思いますのでこのような形です進めていきます条件としてはこのような形になっておりました人数はちょっと今回はまだここには表記していないんですけども募集枠としてはこのような三つですかねポイントとあとスキル要件でこのような方々を求めていらっしゃるとのことなのでちょっとそこにマッチするような回答っていうところをお待ちしておりますはいフェーズ2もここから主にチームたぬきに関するお話になるのかなと思いますがフェーズ始まっていきたいと思う始まっていきます早速からも早速本日からも始まっていますがちょっとここについて小島さんから補足説明をいただければと思いですのでよろしくお願いしますフェーズ2始まりますということですいません先ほどのコンペの結果について一点評価の詳細に関してはまた後日ですねネット上に公開させていただきますのでそちらはまた別途見ていただければと思いますフェイス始まりますということで一応スケジュール状況からですねフェーズ2土師まります8月の8日木曜日までをフェーズ2とさせていただいてます最後の8月18から15日までGPU期間まだあるんですがそこは生理の期間ということで予備施設予備日として今確保させてもらってるという形ですルールなんですけどセンスあるコンペではないのであんまりルールとか気にしていただく必要ないんですけど基本的にはフェーズ1で定めたルール集をもう一度見ていただいてそれに沿うような形で活動していただければいただければと思いますただしGCP本番環境の全 21のですねフェーズ2では優勝チーム使っていただいて大丈夫で最大限活用していただいて良いモデルを開発してくださいあくまで参考としてですモデルで50ミリオンパラメータ相当の計算資源と見積もってますが50ミリをパラメータという言葉にとらわれずに開発しているいて大丈夫ですはい本日既にですね優勝チームメンバーのアカウントには21年度に対するジョブ実行権限を付与付与していますって書いてあるんですがちょっとまだ作業が完了してなくてですね夕方の6時ぐらいには権限付与完了してると思いますので適宜ちょっとチェックいただければと思います共有ディスクですけどフェーズ2専用のストレージ自由というものを用意しましたご利用いただければと思いますただ今まで使っていた共有ディスクをそのまま引き続き拡張して使いたい可能性もあるかなと思いますがその場合はご一報いただければと思います調整できますのでご連絡くださいはいはいフェイスに関しての連絡はこれで以上になります皆さんが優勝チーム頑張ってくださいはいありがとうございますはいちょっといくつかの事務的なお話をさせてください今日本日残念ながら負けてしまってしまったフェーズ1で負けてしまったチームの方々ションのの整理だったりとか今後後ほど説明しますけどもコミュニティのペーパーの発掘というイベントをやっておりますがそちらの方で発表をもうちょっと詳しくお話お願いできればなというふうに思っていますというのとあと前の方で記事公開しておりますがそこらそれらの追加記事だったりとか実際プロジェクトの振り返りでトライアンドエラーしたことだったりとか詳細の記事をアップロードいただければというふうに思ってますご協力よろしくお願いします本日中でお願いしたいところとしてはディスク容量10TBまでに圧縮各チームですねお願いできればと思いますというのと明日中ですね開発したモデルの HUGフェイスアップロードこれはパブリックでお願いしたいっていうところと最終コード最終版のコードをゲットGitHubにアップロードするあとデータの集め方のデータの提出方法に関してちょっと今調整しているんですがひとまずは取得元とライセンス契約のまとめというところをお願いできればなと思います6月9日日曜日にコンペで作成したデータセットの提出準備というところをお願いできればなと思っておりますのでどうぞよろしくお願いいたしますはいではちょっとここからなんですけども改めてもう皆さん入っていただいてるコミュニティのメンバーだと思ってるんですけども今回昨年講座を立ち上げてそこの修了生がこのGENIACの開発メンバーになられてSlackのスペースもコミュニティもどんどん大きくなったっていうところで改めて松尾研LLMコミュニティとして今活動しておりますコミュニティ目コミュニティに関してはもうかなりオープンになっていて誰でも入って入れて様々なアクティビティだったり学びができる場所っていうところを目指しておりますGENIACのプロジェクトもそうですし今後さらにここのサイクルを早めていきたいなというふうに思ってますのでぜひ皆さんも引き続きこのコミュニティに参加して様々な活動協力ともに一緒に作っていければなというふうに思ってますのでどうぞよろしくお願いします一応の経緯をお伝えしておくと2000去年の9月にLM講座をタッチ立ち上げて2000人入ったそっからGENIACが始まって 2500で様々なペーパー&発掘だったりとか初心者向けのLLM 講座のイベントだったりとかを経て3000人4000人と今 4500ぐらいですかねできてるっていうような状況なのでちょっとこのサイクルをどんどんさらに大きくしていきたいなと思ってますのでぜひ皆さんよろしくお願いします松田先生がおっしゃってた講座今年のLLM講座2024 一応9月の第1週から開講予定になっておりますのでぜひ皆さんもまたこちらご参加いただければと思いますはい先ほどお伝えしたようなところで様々なイベントを外部発信して外から興味を持ってして興味を持っていただいた方がマジコミュニティに参加して参加した人がまた何か発信してっていうこのサイクルっていうのをどんどん大きくできればなと思ってますはいイベントの紹介ですがLLMに関する論文の発表だったりとか実装をするイベントっていうのを毎週開催しておりますこちらの発表者も募集しておりますのでぜひ皆さんよろしくお願いしますあとこちらは初心者賞学者がLLM人材になるためのロードマップをコミュニティ作ったんですけどもそちらに基づいて何て言うんすかね人次の世代のLLM人材を育成するっていうイベントも立ち上げてますのでぜひプロフェッショナルの皆さんには講師だったりとか様々な知見を教える側として参加いただければと思いますのでよろしくお願いしますはいあとこちらもそうですね 9月に開催する講座後ほど資料を提供しますが下の方に事前登録も始まっておりますのでぜひ応募いただければと思いますはいあとですねちょっと企業キックオフのときに松田先生から企業についてもお話あったと思うんですがちょっとこちらの企業支援も松尾研としてはやっております担当のもちょっと参加できなかったので代わりにお話させていただくと松尾研の中にMacという企業を支援するコミュニティが別にあります今回のプロジェクトを経て社内起業だったりとかご自身で起業されたいというような思いが芽生えた方ももしかしたらいらっしゃるかなと思っておりますのでもしそこに興味がある方に関してはぜひこちら入っていただければと思いますもし希望される方は先ほどお送りしているアセスの中にこの企業のに関して興味があるっていうような項目があるのでそちらを入力いただければというふうに思ってます一応原則学生だけになっているんですがGENIACの場合です特別に何か社会人にも一部開放する予定の計画もあるとのことなのでちょっとそこは社会人の方もぜひぜひ申し込みいただければと思いますはい僕は挨拶は私にとってはいありがとうございますちょっと最後の部分だけ白石の方で受け取って説明させていただきます松尾岩沢拳でですね20名の研究員を公募するというアナウンスを先週出させていただきましたこちら先週開催された人工知能学会でも結構大きな反響をいただきまして松尾研では知能を作るという目標を掲げて世界モデル例えば先生モデルの研究であったりだとかロボティクスの領域もちろんLLMであったりの実証研究部例インスパイアーとインテリジェンスの研究までかなり幅広く研究を進めておりますこうしたアカデミアの領域にですね関心のあるあの方であったりだとかぜひご応募をお待ちしておりますというところでちょっと口を挟ませていただきましたまた松尾研ですね本当にいろんな活動を推進しておりまして先ほど申し上げた研究者学生の方であったりだとかあとはあのデータサイエンティストとか講義を運営する方社会人の方ですねであったりポスドクポジションを探し中の博士課程の方であったり松尾研の社会実装のインターンに興味がある方であったり結構幅広く機会を提供できているかなというふうに思うのでもしご関心あればぜひぜひ講師がいらっしゃる方はお話できたらなというふうに思いますしオンラインでご参加の方もLLMのSlackのコミュニティの方で適宜情報を流させていただきますのでそちらご覧いただければと思いますではちょっとたくさんアナウンスしてしまいましたがフェーズ2 へのチーム編入から始まり勉強会であったり企業の選択肢であったり松尾研でのキャリアであったりインターンであったりいろんな機会を準備しておりますのでぜひ引き続き皆様と様々な形で松尾研とご縁が持てると嬉しいなと思っておりますそれではZoomでご参加の方はここまでとなります本日ご参加いただきありがとうございました引き続きよろしくお願いいたします

00:00:00 – オープニング東京大学松尾・岩澤研究室広報・コミュニティMgr 白石萌莉
00:02:18 – GENIAC／松尾研LLM開発PJの紹介
00:06:05 – 各チーム報告1 チームJINIAC リーダー中村仁
00:14:06 – 各チーム報告2 チームKuma リーダー熊谷壮一郎
00:25:25 – 各チーム報告3 チーム甲（きのえ）リーダー朏島和香那
00:36:43 – 各チーム報告4 チームビジネスリーダー小川雅貴
00:47:19 – 各チーム報告5 チーム天元突破リーダー尾崎大晟
00:58:22 – 各チーム報告6 チームたぬきリーダー畠山歓
01:08:40 – 各チーム報告7 チームZoo リーダー三内顕義（録画収録）
01:18:43 – 評価基準の説明東京大学松尾・岩澤研究室特任研究員小島武
01:28:06 – LLM開発プロジェクト結果発表広報・コミュニティMgr 白石萌莉
01:30:57 – 入賞チーム／各チームMVPの表彰東京大学松尾・岩澤研究室教授松尾豊
01:45:49 – 総評東京大学松尾・岩澤研究室教授松尾豊
01:50:16 – 今後のアナウンス松尾・岩澤研究室 GENIAC PM 川崎竜一
02:01:58 – 松尾・岩澤研の研究員公募について松尾・岩澤研究室広報・コミュニティMgr 白石萌莉

—-
概要
本プロジェクトは、当研究室が提供する講座の修了生および一般公募によって集まった有志の開発者のメンバーが500億パラメータサイズの大規模言語モデル開発を進めるものです。
また、開発された大規模言語モデル（LLM）の公開のみならず、開発過程の公開、そしてこれらの成果を社会全体で共有することを通じ、日本全体のLLM開発の技術レベル向上と社会実装の加速を目指します。

今回の結果発表会では、総勢200名の開発メンバーのうち、約70名弱のメンバーがオフラインで参加。
各チームリーダーから開発成果の報告や、研究開発支援グループのリーダー小島武によるコンペ評価基準の説明の後、各チームのコンペ結果の発表・評価指標に基づく詳細なスコア、順位公表を行いました。また、松尾教授による表彰や総評を行いました。

—-

本プロジェクトの開発の様子をSlack のコミュニティでご覧いただけます。
また、6月からは優勝チーム（畠山チーム）を中心に、開発が第2フェースに入ります。
本コミュニティでは様々な方々(未経験、初級、中級など)を対象にしたセミナーやハンズオンイベント等を積極的に開催していくので、是非コミュニティに参加ください。

松尾研コミュニティへの参加はこちら
https://linktr.ee/matsuolab_community
—–
文字起こし（字幕）ツール提供: Rimo
https://rimo.app/about/voice

松尾研 GENIAC LLM開発プロジェクト第1フェーズ結果発表会 2024.06.01 @ 東京大学福武ホール

1 Comment

Leave A Reply

松尾研 GENIAC LLM開発プロジェクト 第1フェーズ結果発表会 2024.06.01 @ 東京大学 福武ホール

1 Comment