以前ここで、異なる社会や文明を比較する方法としてマハラノビス距離が使えるのではないか、と書いたことがあります。
最近仕事がらみで生成AIを色々調べています。その中で学習する文書をベクトル化する技術をEmbeddingと呼びますが、これが実にマハラノビス距離と深い関係があることを発見しました。
論より証拠で、Chat-GPT4に聞いてみた結果が以下です。
Q: 生成AIのEmbeddingは、マハラノビス距離と関連がありますか?
A: ChatGPT
はい、マハラノビス距離と生成AIのembeddingには関連があります。マハラノビス距離は、特徴空間において、データの分布を考慮して2つの点またはデータセット間の距離を測定する方法を提供します。生成モデルのembeddingは、高次元データを低次元空間にマッピングし、データ間の関係を捉える役割を果たします。
具体的には、生成モデルが学習する過程で、データの内部構造やデータ間の関係を学習し、これらの情報を低次元のembedding空間にエンコードします。マハラノビス距離を利用することで、この低次元空間においてデータ点間の相対的な距離をより適切に計算し、クラスタリングや異常検知、類似度計算など多くのタスクを効果的に行える可能性があります。マハラノビス距離は、特にデータの分布が正規である場合や共分散行列が利用可能な状況で有用です。
手作業で、様々な文明の多次元ベクトル空間を作りそのマハラノビス距離を求めるのは非常に手間がかかりますが、それこそ生成AIが使えるのではないかと期待しています。文系の学問もいまや大きく変わろうとしています。