最近気になっていたデスクトップAI『CocoroAI』をダウンロードして、実際に触ってみたのでメモ代わりにブログに残しておきます。
■ CocoroAIって何ができるの?
BOOTHのページによると、
「ChatGPT」や「Gemini」などのAIチャットサービスに対応していて、APIキーさえあればテキストで対話できるのはもちろん、
「VOICEVOX」「SHAREVOX」「AivisSpeech」と組み合わせて発話もできるらしい。
チャットだけじゃなく音声認識までできて、モーション数も豊富で、しかも長期記憶つき!
LiteLLMにも対応しているからローカルLLMも使えるらしい。
これはかなり理想に近いのでは?
■ 長期記憶の仕組み
CocoroAIは会話内容を context.db に保存してくれるので、
同じ相棒とずっと話し続けたい人には嬉しい仕様。
ドキュメントによると長期記憶を使う場合は埋め込みモデルの設定が必要で、
1536次元のモデル前提とのこと。(未検証だけど)
- 記憶データ保存先:
CocoroAI\CocoroMemory\Data - リセットしたい時は
Dataフォルダを削除 - 詳しくは LiteLLMドキュメント 参照
■ とりあえず起動してみた
ダウンロードして CocoroAI.exe を開くと……
ミクが画面に現れた!
右クリックで Setting 画面が開くようです。


テキスト入力画面もシンプルで分かりやすい。
マイクとスピーカーを設定すれば音声会話もできそうです。
デスクトップウォッチ という機能もありましたが、これは画面共有的なものかも。

設定項目に「カーソルから逃げる」「自発的に移動する」という謎機能もあり。
ちょっと可愛い。
■ キャラクターを召喚してみた
お楽しみの Character 変更機能!
相棒を召喚!

でたー!!
謎モーションをいっぱいしてくれてる!
デスクトップの端でずっと動いてて可愛い!!
■ デスクトップウォッチの設定も便利
デスクトップウォッチの設定を覗いてみたら、
ChatGPTやGeminiに画面の画像を送ることができるようです。
一緒にゲームしたり画面共有で指示してもらうのに良さそう。

■ 使えるAIモデルも豊富
使える言語生成AIは gpt-4o-mini や gemini-2.0-flash など。
ドキュメントを見る限り gpt-4o も使えるし、指定すれば色々いけそうです。
長期記憶用には text-embedding-3-large というモデルを使うみたい。
このあたりはちょっと勉強が必要かも。
■ 音声認識と音声合成
音声合成は VOICEVOX や AivisSpeech のEndpointURLを設定するみたい。
VOICEVOXのEndpointって何だろう?Dockerで立てるのが良さそうなので、
明日はこの記事を参考にVOICEVOXのdocker入れてみます。
音声認識は AmiVoice か Whisper が使えるらしい。
できれば無料で使える speech-recognition とかにも対応してくれると嬉しい。
■ 試しにチャットしてみた
APIキーを設定して試しにチャットしてみたら、
チャット画面の後ろにも吹き出しが登場して面白い!

音声入力の時に後ろで吹き出しが浮かぶの、視覚的にも分かりやすい。
一定時間経つと消えるので、邪魔にならなくて良い感じ。
■ まとめ
ひとまずCocoroAIを触ってみた感想としては…
- 設定が色々あって面白い!
- 画面端でモーションしてるのが可愛い!
- 長期記憶つきでずっと相棒として付き合えるのは良い!
- 音声周りの設定をもう少し詰めたい!
って感じでした。
自分だけのデスクトップ相棒に癒されます。

興味ある人はぜひ試してみてください!