【レビュー】CocoroAIを触ってみた！ChatGPTやGeminiと長期記憶つきで話せるデスクトップ相棒

最近気になっていたデスクトップAI『CocoroAI』をダウンロードして、実際に触ってみたのでメモ代わりにブログに残しておきます。

BOOTHのページによると、
「ChatGPT」や「Gemini」などのAIチャットサービスに対応していて、APIキーさえあればテキストで対話できるのはもちろん、
「VOICEVOX」「SHAREVOX」「AivisSpeech」と組み合わせて発話もできるらしい。

チャットだけじゃなく音声認識までできて、モーション数も豊富で、しかも長期記憶つき！
LiteLLMにも対応しているからローカルLLMも使えるらしい。
これはかなり理想に近いのでは？

CocoroAIは会話内容を context.db に保存してくれるので、
同じ相棒とずっと話し続けたい人には嬉しい仕様。

ドキュメントによると長期記憶を使う場合は埋め込みモデルの設定が必要で、
1536次元のモデル前提とのこと。（未検証だけど）

ダウンロードして CocoroAI.exe を開くと……

ミクが画面に現れた！

右クリックで Setting 画面が開くようです。

テキスト入力画面もシンプルで分かりやすい。
マイクとスピーカーを設定すれば音声会話もできそうです。
デスクトップウォッチ という機能もありましたが、これは画面共有的なものかも。

設定項目に「カーソルから逃げる」「自発的に移動する」という謎機能もあり。
ちょっと可愛い。

お楽しみの Character 変更機能！
相棒を召喚！

でたー！！
謎モーションをいっぱいしてくれてる！
デスクトップの端でずっと動いてて可愛い！！

デスクトップウォッチの設定を覗いてみたら、
ChatGPTやGeminiに画面の画像を送ることができるようです。
一緒にゲームしたり画面共有で指示してもらうのに良さそう。

使える言語生成AIは gpt-4o-mini や gemini-2.0-flash など。
ドキュメントを見る限り gpt-4o も使えるし、指定すれば色々いけそうです。

長期記憶用には text-embedding-3-large というモデルを使うみたい。
このあたりはちょっと勉強が必要かも。

音声合成は VOICEVOX や AivisSpeech のEndpointURLを設定するみたい。
VOICEVOXのEndpointって何だろう？Dockerで立てるのが良さそうなので、
明日はこの記事を参考にVOICEVOXのdocker入れてみます。

音声認識は AmiVoice か Whisper が使えるらしい。
できれば無料で使える speech-recognition とかにも対応してくれると嬉しい。

APIキーを設定して試しにチャットしてみたら、
チャット画面の後ろにも吹き出しが登場して面白い！

音声入力の時に後ろで吹き出しが浮かぶの、視覚的にも分かりやすい。
一定時間経つと消えるので、邪魔にならなくて良い感じ。

■ まとめ

ひとまずCocoroAIを触ってみた感想としては…

って感じでした。

自分だけのデスクトップ相棒に癒されます。

興味ある人はぜひ試してみてください！