
AIモデル「Llama 3.3 Swallow」、東京科学大などのチームが公開 日本語能力は「GPT-4oに迫る」
東京科学大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームは、大規模言語モデル(LLM)「Llama 3.3 Swallow」を開発したと発表した。
東京科学大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームは3月10日、大規模言語モデル(LLM)「Llama 3.3 Swallow」を開発したと発表した。米MetaのLLM「Llama 3.3」をベースに日本語の能力を強化したAIモデル。日本語理解・生成タスクでは、米OpenAIのLLM「GPT-4o」にも迫る性能を記録したとしている。
今回公開したAIモデルは2種で、ベースモデルの「Llama 3.3 Swallow 70B v0.4」と、指示学習済みの「Llama 3.3 Swallow 70B Instruct v0.4」。どちらもLlama 3.3ライセンスで、これに従いつつ、米GoogleのGemma利用規約の利用制限に抵触しない範囲(学習用合成データにGemma2を使っているため)で、研究や商用などで利用できる。
Llama 3.3 Swallow
https://swallow-llm.github.io/llama3.3-swallow.ja.html
Llama 3.3 Swallow 70B Instruct v0.4
https://huggingface.co/tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4
Llama 3.3 Swallow 70B v0.4
https://huggingface.co/tokyotech-llm/Llama-3.3-Swallow-70B-v0.4

