私たちは「言葉の意味」をどのように理解しているのだろうか。
「犬」という単語を見れば、頭の中には「散歩」「リード」「吠える」といったイメージが自然に浮かぶ――それは、語が他の語と**共に現れる(共起)**経験に基づく。
この単純な統計的事実が、実はAIの言語理解を支える最も根源的な原理である。
本稿では、「共起」がどのように「意味」を生み出し、それがどのように数理的・幾何学的な構造(分散表現)へと発展していったのかを、統計言語学から現代のBERTまで一貫して追う。
単なるアルゴリズム解説ではなく、AIがどのように“意味”を学ぶのかという哲学的問いにも踏み込み、言語と知能のあいだにある「共起の思想」を探る。

第1章 共起が「意味」を構築する:統計的基盤

1-1. 「共起」とは何か

私たちがある単語の「意味」を理解するとき、その単語を単独で学んでいるわけではない。多くの場合、文脈の中で出会う単語群が、意味を浮かび上がらせる。
このとき重要な概念が「共起(co-occurrence)」である。共起とは、2つの語が同じ文や近接する語順の中に現れる頻度、あるいは確率を指す。たとえば「犬」という単語は「散歩」「リード」「吠える」といった語とよく共に現れる。この観察に基づき、「犬」という語の意味は、他の語との共起パターンから部分的に推定できる。

統計的には、語 $wi$ と語 $wj$​ の共起確率 $P(wi,wj)$ は、文書全体における両者の同時出現回数を全出現回数で割ることで定義できる。これを表形式で整理したものが**共起行列(co-occurrence matrix)**である。行と列に語彙を並べ、それぞれの交点に共起頻度を配置する。この行列は、言語全体を「語同士の関係ネットワーク」として表現するものであり、意味の統計的基盤となる。

直感的に言えば、共起とは「語がどのような仲間と一緒に使われるか」を示す指標である。人間社会にたとえるなら、「ある人の性格や役割は、誰とよく行動しているかを見ることで推測できる」という社会的アナロジーに近い。


1-2. 分布仮説 ― 「似た文脈に現れる語は似た意味をもつ」

1954年、言語学者ゼリグ・ハリス(Zellig Harris)は「分布仮説(Distributional Hypothesis)」を提唱した【1】。
この仮説の核心はしばしば次のように要約される:

同じ文脈に現れる語は、似た意味を持つ傾向がある。

(※類似の趣旨を、J. R. Firth は1957年に “You shall know a word by the company it keeps.” と表現している【2】。)

たとえば「王(king)」と「女王(queen)」という語は、いずれも「王冠」「王国」「権力」といった共通の文脈で使われやすい。したがって、その共起分布が類似していれば、両語の意味的距離も近いとみなせる。

この仮説は、後に自然言語処理(NLP)の中心的前提となり、「語を意味的に理解するとは、語が出現する文脈を統計的に理解すること」であるという考え方へとつながった。
比喩的に言えば、言葉の意味は“孤立した点”ではなく、“文脈空間に浮かぶ位置”として表現される。言語全体を高次元空間とみなし、単語はその中で「文脈ベクトル」によって位置づけられるのである。

この考え方により、意味の定義を明示的に与えなくても、語の出現分布さえ十分に集めれば、機械が自動的に「意味の近さ」を学習できるようになる。これが後に、Word2VecやBERTなどの分散表現技術の根幹となる理論的支柱である。


1-3. PMIと情報理論的視点 ― 共起の「意外さ」を測る

単に頻度を数えるだけでは、真の関係性を見誤ることがある。たとえば「の」「は」「に」といった助詞はどんな語ともよく共起するが、意味的な結びつきは弱い。
そこで導入されるのが、**PMI(Pointwise Mutual Information)**という尺度である。

PMIは、語 $wi$ と $wj$​ の共起確率 $P(wi,wj)$ が、独立に現れる確率 $P(wi)P(wj)$ に比べてどの程度高いかを測る指標である。式で表すと次のようになる:

$PMI(wi​,wj​)=logP(wi​)P(wj​)P(wi​,wj​)​$

もし2つの語が統計的に独立であれば、分子と分母は等しくなり、PMIは0になる。共起が予想以上に多ければ正の値、少なければ負の値を取る。この「意外さ」を数値化することで、単なる頻度ではなく「意味的な結びつきの強さ」を測ることができる。

例えば「雷」と「稲妻」は独立ではなく高いPMIを持つが、「雷」と「机」は期待値より共起が少ないためPMIは一般に負になり、共起が観測されなければ理論上 −∞ となる。実務では低頻度に頑健な PPMI(Positive PMI)【3】や NPMI(Normalized PMI)【4】といった変種が用いられることが多い。

PMIは自然言語処理における共起分析の基礎指標として、Church & Hanks (1990)【3a】によって広く定着した。その後、GloVe【5】など多くの分散表現モデルでも、このPMI構造が基礎的な数理枠組みとして利用されている。
このように、共起行列と情報量理論の結合が、「意味の数値化」という概念の出発点となったのである。


第1章まとめ

共起とは、語がどのような文脈と結びつくかを統計的に捉える枠組みであり、その分析を通じて語の意味構造を浮かび上がらせることができる。
分布仮説とPMIは、そのための理論的・数理的な土台であり、これらが後の分散表現モデルの発展を導いた。
次章では、この共起行列をどのように「ベクトル空間」へと変換し、AIが意味を幾何学的に扱うようになったのかを探る。


第2章 分散表現の形成:行列からベクトル空間へ

2-1. One-hot表現の限界

初期の自然言語処理では、単語はOne-hotベクトルで表されていた。これは、語彙サイズを V とすると、各単語を長さ V のベクトルで表し、その単語の位置だけが「1」、他はすべて「0」である。
たとえば語彙が {猫, 犬, 鳥} の場合、「犬」は [0,1,0] という単純な表現になる。

しかしこの方法には深刻な問題がある。
第一に、ベクトル間に意味的な距離が存在しない。どの語同士も常に直交しており、類似度はゼロになる。つまり、「犬」と「猫」が実際には似た概念であっても、ベクトル空間上では無関係な点として扱われる。
第二に、語彙数が増えるほどベクトルが極端に疎(sparse)になり、計算資源を大量に消費する。百万語規模の辞書では百万次元のベクトルを扱うことになり、効率性にも限界がある。

このような問題を克服するため、単語の「共起関係」から低次元の連続ベクトルを学習する手法が生まれた。これが「分散表現(Distributed Representation)」である。
分散表現では、単語は“意味を分担して持つ複数次元の連続値ベクトル”として表現される。各次元が抽象的な意味要素(たとえば「生物性」「大きさ」「感情性」など)を部分的に担うため、語の意味を滑らかに捉えることができる。


2-2. 次元削減による意味空間の圧縮

最初期の分散表現モデルの代表例が**潜在意味解析(Latent Semantic Analysis, LSA)である【6】。
LSAは、文書×語の共起行列を作成し、その巨大な行列を特異値分解(SVD: Singular Value Decomposition)**によって低次元空間へ射影する。

SVDは、行列 $X$ を3つの行列に分解する:

$X=UΣV⊤$

ここで、$Σ$ は特異値を対角成分に持つ行列であり、値が大きい成分ほど情報量が高い。上位の特異値のみを残して再構成することで、元の高次元共起行列の「主要な意味構造」を保持しつつ、ノイズを除去することができる。

比喩的に言えば、LSAは言語空間を「圧縮レンズ」で観察するようなものだ。多数の語が持つ共起関係の中から、意味を説明する主要な“軸”だけを抽出し、3次元や300次元といった低次元空間に再構成する。この操作によって、「車」「自動車」「トラック」といった語は同じ意味領域に近接し、「花」「果物」とは距離が離れるようになる。

LSAは機械が意味を「統計的に推定する」最初の成功例であり、文書検索や類似度計算に広く応用された。
しかし、この手法は計算コストが高く、また新しい語が追加されるたびに行列全体を再分解しなければならないという欠点があった。
より効率的かつ動的な学習を目指して、ニューラルネットワークを用いた次世代手法が登場する。


2-3. Word2Vec ― ニューラル確率モデルによる革新

2013年、Googleの研究チーム(Tomas Mikolovら)は、単語分散表現を効率的に学習するニューラルネットワークモデルWord2Vecを発表した【7】。
Word2Vecの核心は、「共起関係をニューラル確率モデルで近似し、ベクトル埋め込みとして学習する」という発想にある。

モデルの2つの形式:

  • CBOW(Continuous Bag of Words):文脈(周囲の語)から中心語を予測する。
  • Skip-gram:中心語から周囲の文脈語を予測する。

たとえば文「犬が散歩する」で、Skip-gramモデルは「犬」から「散歩」を予測するように学習する。この過程で、語と文脈の出現確率を最大化するようにベクトルが調整される。モデルの目的関数は次のように表される:

$θmax​(w,c)∈D∑​logP(c∣w;θ)$

ここで $w$ は中心語、$c$ は文脈語、$θ$ はモデルパラメータである。
訓練を通じて、類似した文脈で使われる単語は、自然に近い位置のベクトルに収束していく。


分散表現の意味

Word2Vecの出力するベクトルは、「共起の統計構造を連続的空間に写像したもの」であり、これによって機械は「意味を幾何学的に扱う」能力を得た。
興味深いのは、このベクトル空間が単なる確率の縮約ではなく、線形構造を持つことである。「王 − 男 + 女 ≒ 女王」という有名な例に示されるように、語同士の差分が概念変換(性別・時制・階層など)を表すことができる【8】。

これはまさに、「意味」が幾何学的操作によって推論可能であることを示す重要な発見だった。
なお、**Skip-gram with Negative Sampling(SGNS)**は、PMI に定数 −log k を加えた(=引いた)Shifted PMI行列の暗黙因子分解として解釈できることが知られており【9】、GloVeモデル【5】とも理論的に連続している。

Word2Vecによって、意味空間は離散的な辞書から連続的な意味幾何学へと進化したのである。


第2章まとめ

One-hot表現という単純な記号体系から、統計的行列分解(LSA)、さらにニューラル確率モデル(Word2Vec)へ――。
この流れは、言語の数理的扱いが「記号」から「ベクトル」へと転換した過程を象徴している。
共起情報を低次元の連続空間に写すことで、AIは「語と語の意味的距離」を学習できるようになった。
次章では、このベクトル空間における意味の幾何学を詳しく見ていく。

第3章 意味空間の幾何学:ベクトルで表す「概念」

3-1. ベクトル演算が示す関係性

分散表現の驚くべき点は、学習によって得られたベクトルが単なる数値列ではなく、意味の構造そのものを反映していることである。
Word2Vecの研究では次のような等式がしばしば引用される:

$king−man+woman≈queen$

この単純な演算が示唆するのは、語彙の間に潜む概念的関係――たとえば「性別」や「階層」といった抽象的属性――が、ベクトル空間の**方向(direction)**として表現されているという事実である。

ここで「−」は概念の差異を、「+」は属性の付与を表す。つまり「king(王)」から「man(男)」を引くことで“男性性”を取り除き、「woman(女)」を足すことで“女性性”を付与した結果、「queen(女王)」に近い位置へ移動する。このような線形操作が意味的変換を近似できるのは、分散表現空間が線形幾何学的構造をもつためである。

直感的にいえば、意味空間とは“方向性をもった意味の地図”である。「動物性」や「時制」「感情価」など、抽象的な概念がそれぞれの軸として潜み、単語ベクトルはその座標点として配置される。AIはこの地図上で、語の近さ・違い・関係性を数値的に推論することができるのだ。


3-2. コサイン類似度と意味の距離

ベクトル間の「意味の近さ」は、**コサイン類似度(cosine similarity)**によって測定される。これは2つのベクトルが空間内でどれだけ同じ方向を向いているか、すなわち角度の余弦値で評価する尺度である。式で表すと次の通り:

$sim(wi​,wj​)=∥vi​∥∥vj​∥vi​⋅vj​​$

値が1に近いほど方向が似ており、意味が近いと解釈される。
たとえば、学習済みモデルで「car」と「automobile」の類似度を求めると0.9以上という高い値を示す一方、「car」と「tree」は0.1以下になる。

この尺度の利点は、ベクトルの長さではなく「向き(方向)」を重視する点にある。すなわち、出現頻度や文脈量の違いに影響されず、意味的方向の一致だけを抽出できる。

応用面では、類似語検索、情報検索、意味的クラスタリングなどに広く利用されている。
検索エンジンが「宇宙船」に関連する文書を探すとき、「宇宙探査機」「シャトル」といった単語を自動的に関連づけられるのは、このベクトル類似度に基づく検索アルゴリズムが働いているからである。

言い換えれば、AIが“意味を理解する”とは、このような空間的距離の計算を通して、語と語の関係を動的に推論している状態なのだ。


3-3. 意味空間の「方向」:概念軸の抽出

興味深いことに、大量の語ベクトルを統計的に分析すると、そこには明確な「概念軸」が現れる。主成分分析(PCA)などを適用すると、第一主成分が抽象度、第二主成分が感情価などを表すことが観察される場合がある【10】。
つまり、AIが学習したベクトル空間は、暗黙的に“意味の次元”を座標として保持している。

この現象を例えるなら、語彙全体が多次元空間に浮かぶ点群であり、その分布に現れる主方向こそが、言語全体の「意味的潮流」である。人間が辞書を分類的に構築したのに対し、AIはデータから自動的に連続的な意味空間を再構築している。

さらにこの方向性は、人間の直感と驚くほど整合的である。たとえば、ある軸が「ポジティブ↔ネガティブ」の感情ベクトルを形成し、もう一つの軸が「抽象↔具体」を表すといった形で、心理学的セマンティクス(OsgoodらのVADモデルなど)との対応が示唆されている【11】。
ただし、主成分が必ず特定の意味に対応するとは限らず、語彙分布やコーパス構造に依存することにも注意が必要である。実際には頻度主導の成分(All-but-the-Topと呼ばれる要因)を除去する手法も研究されている。


3-4. 文脈化埋め込み ― 意味の「動的化」

Word2Vecがもたらした分散表現は「単語ごとに固定された意味ベクトル」であった。しかし実際の言語では、同じ単語でも文脈によって意味が変わる。
たとえば「bank」は「川岸」にも「銀行」にもなる。

この課題を解決したのが、Transformerベースの BERT(Bidirectional Encoder Representations from Transformers) である【12】。

BERTでは、単語の埋め込みが**文脈依存的(contextual)**に変化する。つまり「bank」が「river」と共起すれば“川岸”寄りのベクトルに、「money」と共起すれば“金融”寄りのベクトルに動的にシフトする。
この仕組みにより、分散表現は静的空間から動的空間へと拡張された。

モデル内部では、Transformerの**自己注意機構(self-attention)**が、文全体の情報を参照して各単語ベクトルを更新している。
これにより、AIは単語の意味を「固定座標」ではなく、「文脈内の位置関係」として理解できるようになった。
言い換えれば、意味空間は局所的に再構成される多次元地形へと変貌したのである。


第3章まとめ

分散表現モデルが示した最大の発見は、「意味は線形空間に埋め込める」という事実である。
ベクトル演算による概念変換、コサイン類似度による意味距離、主成分による抽象軸――これらはいずれも、人間が暗黙に使ってきた語の関係性を数理的に再現している。
BERT以降、この空間は文脈に応じて変形する動的構造へと進化し、AIがより柔軟に言語を“理解”する基盤となった。


第4章 共起原理の拡張と応用

4-1. サブワード分散表現 ― 「未知語」にも意味を与える

Word2Vecの登場後、自然言語処理の現場では、もう一つの課題が浮上した。それは、未知語(Out-of-Vocabulary)問題である。
語彙に登録されていない新語・造語・派生語(例:「プログラマ」「プログラミング」「再プログラム」)が入力されると、それらに対応するベクトルを持たないため、モデルは意味を理解できなくなる。

この問題を解決したのが、Facebook AI Researchによる FastText である【13】。
FastTextは単語を文字n-gram(部分文字列)の集合として分解し、それぞれのn-gramにも埋め込みを与える。
たとえば「playing」は {pla, lay, ayi, yin, ing} のような部分単位に分解され、各n-gramベクトルの平均が単語ベクトルとなる。
これにより、未知の語であっても既知の部分構造から意味を推定できる。

この仕組みは、人間の言語理解とも対応している。私たちが「未知の言葉」を見ても、その語構成(接頭辞・語幹・接尾辞)から大まかな意味を推測できるのと同じである。
FastTextはまさにその過程を統計的に再現したといえる。


4-2. 多言語埋め込み ― 言語を超える意味空間

分散表現のもう一つの大きな進展は、**多言語埋め込み(Multilingual Embedding)**である。
言語が異なっても、概念や意味構造には普遍的な対応が存在する。たとえば英語の “dog” と日本語の「犬」は、同じ意味空間上で非常に近い位置にあるはずだ。

この考え方に基づき、研究者たちは異なる言語の埋め込み空間を**アライメント(整列)**する技術を開発した【14】。
代表的な手法では、各言語の単語ベクトルを線形変換で同一空間へ射影し、対応する単語ペア(例:”dog”–”犬”)の距離を最小化するように学習する。
こうして得られた多言語空間では、ある言語で表現された意味が、他言語でも近傍点として検索できる。

応用例としては:

  • 翻訳のゼロショット学習(未知の言語ペア間での自動翻訳)
  • 多言語検索(英語で検索しても日本語資料を取得)
  • クロスリンガルQA(異言語間の質問応答)

などが挙げられる。
つまり、共起原理を拡張すれば、「文脈を共有する語は似た意味をもつ」という関係が、文化や言語体系を越えて成立することが示されたのである。


4-3. 意味検索と知識探索 ― 埋め込みが変える情報アクセス

近年では、分散表現は情報検索や知識探索の領域にも応用されている。
従来の検索エンジンは、文字列の一致やキーワードの出現頻度に基づいて結果を返していた。
しかし、ユーザーが求めるのは「文字の一致」ではなく「意味的に関連する情報」である。

ここで活躍するのが、**ベクトル検索(Vector Search)である。
各文書・文・語をベクトル埋め込みに変換し、ユーザーのクエリも同様にベクトル化する。次に、埋め込み空間上でクエリと最も近い文書をコサイン類似度で探索する。
このとき、高速な
近似最近傍探索(Approximate Nearest Neighbor, ANN)**アルゴリズム(例:FAISS【15】、HNSW【16】)が用いられる。

この仕組みにより:

  • 「地球温暖化の原因」を検索すると「二酸化炭素排出」「気候変動モデル」といった関連概念を含む文書を自動で抽出
  • 「AI倫理」に対して「バイアス」や「透明性」といった周辺概念も提示

といった“意味的検索”が可能になる。
ChatGPTやClaudeなどの大規模言語モデルも、内部で類似のメカニズムを利用しており、**埋め込みによる知識検索(semantic retrieval)**を通して回答を生成している。


4-4. 共起原理の未来:意味の自己組織化へ

現代の大規模言語モデル(LLM)は、もはや単語の共起だけでなく、文脈・知識・推論の共起をも学習している。
Transformerの自己注意機構は、単語間の共起行列を多層的・非線形に拡張した構造とも解釈できる。
すなわち、各層が「意味の関係グラフ」を再構築し、文全体・段落全体の関係性を埋め込み空間として表現している。

言い換えれば、共起原理は単なる統計的現象ではなく、意味の自己組織化メカニズムとして進化している。
AIが生成する文や推論の背後では、膨大なベクトル空間の中で、共起パターンが再帰的に組み合わさり、新たな意味構造を形成しているのである。


結論 共起から生まれる「意味の幾何学」

本稿で見てきたように、**分散表現とは「意味を数値として捉える枠組み」**であり、その根底にあるのは「共起」という単純な統計的観察である。
語の共起確率から始まり、行列分解による潜在空間の抽出、Word2Vecによる連続ベクトル学習、さらにBERT以降の文脈化埋め込みへ――その進化は「共起の再構築」の歴史といってよい。

このプロセスを通じ、AIは単語間の関係を線形代数的構造として理解し、意味を“幾何学的に推論する存在”へと変わった。
ベクトル空間の各軸は、もはや人間が定義する「品詞」「カテゴリー」ではなく、データから自律的に抽出された「意味的次元」である。
AIはこの空間内で、語・文・概念を連続的に操作することができる。

今後の展望として重要なのは:

  • 意味空間の可視化と解釈 ― ベクトル表現の次元が何を意味しているのかを理解する努力
  • 分散表現の倫理的応用 ― 埋め込み空間に潜むバイアスや文化的偏りの検出・補正
  • 記憶と検索の融合 ― ベクトル検索技術を活かした「知識統合AI」への展開

である。

分散表現の本質は、「意味」を人間の定義から切り離し、観察可能な統計的現象として再構築した点にある。
言葉の意味は、もはや辞書に書かれる静的な定義ではなく、共起空間の中で動的に形成される――その原理を理解することこそ、AI時代の言語理解を読み解く鍵である。

【参考文献】

【1】Harris, Z. (1954). Distributional Structure. Word, 10(2–3), 146–162.
【2】Firth, J. R. (1957). A Synopsis of Linguistic Theory 1930–1955. Studies in Linguistic Analysis.
【3】Bullinaria, J. A., & Levy, J. P. (2007). Extracting Semantic Representations from Word Co-occurrence Statistics. Behavior Research Methods, 39(3), 510–526.
【3a】Church, K. W., & Hanks, P. (1990). Word Association Norms, Mutual Information, and Lexicography. Computational Linguistics, 16(1), 22–29.
【4】Bouma, G. (2009). Normalized (Pointwise) Mutual Information in Collocation Extraction. Proceedings of GSCL.
【5】Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. EMNLP, 1532–1543.
【6】Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by Latent Semantic Analysis. JASIS, 41(6), 391–407.
【7】Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
【8】Mikolov, T., Yih, W.-T., & Zweig, G. (2013). Linguistic Regularities in Continuous Space Word Representations. NAACL-HLT 2013.
【9】Levy, O., & Goldberg, Y. (2014). Neural Word Embedding as Implicit Matrix Factorization. NeurIPS 2014.
【10】Turney, P. D., & Pantel, P. (2010). From Frequency to Meaning: Vector Space Models of Semantics. Journal of Artificial Intelligence Research, 37, 141–188.
【11】Osgood, C. E., Suci, G. J., & Tannenbaum, P. H. (1957). The Measurement of Meaning. University of Illinois Press.(VADモデルの原典)
【12】Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT 2019, arXiv:1810.04805.
【13】Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching Word Vectors with Subword Information. TACL, 5, 135–146.
【14】Conneau, A., Lample, G., Ranzato, M., Denoyer, L., & Jégou, H. (2018). Word Translation Without Parallel Data. ICLR 2018.
【15】Johnson, J., Douze, M., & Jégou, H. (2017). Billion-scale Similarity Search with GPUs. arXiv:1702.08734.(FAISS)
【16】Malkov, Y. A., & Yashunin, D. A. (2020). Efficient and Robust Approximate Nearest Neighbor Search using HNSW. IEEE TPAMI, 42(4), 824–836.(初出 arXiv:1603.09320

免責事項

本記事は一般的な情報提供を目的としたものであり、記載された数値・事例・効果等は一部想定例を含みます。内容の正確性・完全性を保証するものではありません。詳細は利用規約をご確認ください。