
カラクリ(東京都中央区)が、PCを自動で操作するAIエージェント「CUA」(Computer-Using Agent)向けの新しいAIモデル「KARAKURI VL」を開発したと発表しました。
このモデルは、日本語環境に特化しており、特に縦書きと横書きが混在する日本語の文字認識精度を向上させることを目的としています。デモ動画では、ユーザーが「Gmailを開いて、返品に関する最新のメールを探して返信文を作成してほしい」と指示すると、AIが自動でメールを作成する様子が確認できます。
CUAは、自然言語の指示に基づいてPCを操作するAIエージェントであり、これまでのCUA向けモデルはすべて海外企業によって開発されていました。
カラクリは、既存のモデルが英語環境を前提としているため、日本語での指示理解や操作実行に課題があったと指摘しています。そこで、カラクリは中国のAlibabaが開発した視覚言語モデル「Qwen2.5-VL」を基に、日本語に特化したKARAKURI VLを開発しました。
このモデルは、日本のカスタマーサポート業務の支援を想定しており、問い合わせに対して複数のシステムを操作し、マニュアルを参照して適切な回答を自動生成することが可能です。
カラクリは、KARAKURI VLの実用化に向けて、PC操作の安全対策や企業固有の業務パターンに沿った操作手順の学習に取り組む予定です。
KARAKURI VLの開発は、経済産業省とNEDO(新エネルギー・産業技術総合開発機構)による国内のAI開発支援プロジェクト「GENIAC」第2期の一環。
カラクリ、日本企業初のComputer-Using Agent「KARAKURI VL」 を公開 – コンピュータ操作を完全自動化できるAIエージェント
https://karakuri.ai/news/GENIAC

