会議などで録音していた内容をAIを使って文字起こしをする.
文字起こしをしたものは無駄な会話や間もあるため、ChatGPTのような大規模言語モデルに要約してもらう.
こういった機能を実装した.
録音データについては、会議のものでなくても大抵の場合は何でもいい.
打ち合わせでもいいし、講演でもいい. まずは用意する.
その録音データをWhisperという文字起こしのためのシステムに渡す.
Whisperはその文字起こしの質をsmallからlargeまで複数選ぶことができるが、
比較的質の低いsmallでも、あとで大規模言語モデルを通すことで精度の低さを補完できたりする.
文字起こししたデータは、そのまま大規模言語モデルに渡して要約してもらう.
なお、大規模言語モデルにChatGPTは利用しない.
ChatGPTはAPIで提供されているため、録音データに個人情報が含まれているとOpenAIにそれが送信されてしまうためだ.
ChatGPTはその革命的な機能ゆえにセキュリティ面があまり意識されていないように思える.
また、プロンプトインジェクションといって、脆弱性も抱えている.
そういったところも意識しながら実装を行う必要がある.