埋め込み API ガイド

概要

新モデル発売

text-embedding-3-small

text-embedding-3-large
特徴: 低コスト、優れた多言語パフォーマンス、制御可能な寸法

主なアプリケーションシナリオ

🔍 検索 (関連性によって並べ替え)

📊 クラスタリング (類似性グループ化)

👍推薦システム

⚠️異常検出

📈 多様性分析

🏷️テキスト分類

基本的な使い方

埋め込みベクトルを取得

「」パイソン
openaiインポートからOpenAI
クライアント = OpenAI(
Base_url="https://yossapi.com/v1",
api_key=キー
)

応答 = client.embeddings.create(
input="ここにテキスト文字列が入ります",
モデル = "テキスト埋め込み-3-small"
)

print(response.data[0].embedding)
「」

応答形式

{
  "オブジェクト": "リスト",
  「データ」: [
    {
      "オブジェクト": "埋め込み",
      「インデックス」: 0、
      「埋め込み」: [
        -0.006929283495992422、
        -0.005336422007530928、
        // ...その他の値
      ]、
    }
  ]、
  "モデル": "text-embedding-3-small",
  「使用法」: {
    "prompt_tokens": 5、
    "total_tokens": 5
  }
}
「」



## モデルの比較

|モデル | 1 ドルあたりのページ数 | MTEBの性能評価 |最大入力 |
|-----|--------------|--------------|----------|
|テキスト埋め込み-3-small | 62,500 | 62.3% | 8191 |
|テキスト埋め込み-3-large | 9,615 | 64.6% | 8191 |
|テキスト埋め込み-ada-002 | 12,500 | 61.0% | 8191 |

## 実際の応用例

### コメントデータの処理
「」パイソン
openaiインポートからOpenAI
クライアント = OpenAI(
    Base_url="https://yossapi.com/v1",
    api_key=キー
)

def get_embedding(text, model="text-embedding-3-small"):
   text = text.replace("\n", " ")
   return client.embeddings.create(input = [テキスト], model=モデル).data[0].embedding

# データフレームを処理する
df['ada_embedding'] = df.combined.apply(lambda x: get_embedding(x, model='text-embedding-3-small'))
df.to_csv('output/embedded_1k_reviews.csv'、index=False)

# 保存された埋め込みをロードする
パンダをPDとしてインポートする
numpyをnpとしてインポート

df = pd.read_csv('output/embedded_1k_reviews.csv')
df['ada_embedding'] = df.ada_embedding.apply(eval).apply(np.array)
「」



## 技術的な詳細

### 寸法の説明
- text-embedding-3-small: デフォルトの 1536 次元
- text-embedding-3-large: デフォルトの 3072 次元
- 寸法は寸法パラメータを通じて調整できます

### 注記
- 請求は入力されたトークンの数に基づいて行われます
- ページあたり約 800 トークン
- 全モデルの最大入力は 8191 トークンです

Python は埋め込みベクトル化を使用します

埋め込み API ガイド#

概要#

新モデル発売#

主なアプリケーションシナリオ#

基本的な使い方#

埋め込みベクトルを取得#