Векторные базы данных — Процесс векторизации данных

from sentence_transformers import SentenceTransformer

# Загрузка предобученной модели
model = SentenceTransformer('all-MiniLM-L6-v2')

# Векторизация списка предложений
sentences = [
    "Кошки спят большую часть дня",
    "Собаки любят гулять на улице",
    "Кошки охотятся на мелких грызунов"
]

# Получение эмбеддингов
embeddings = model.encode(sentences)

# embeddings.shape вернёт (3, 384) — три вектора размерностью 384
print(f"Размерность векторов: {embeddings.shape[1]}")

from sentence_transformers import SentenceTransformer

# Загрузка предобученной модели
model = SentenceTransformer('all-MiniLM-L6-v2')

# Векторизация списка предложений
sentences = [
    "Кошки спят большую часть дня",
    "Собаки любят гулять на улице",
    "Кошки охотятся на мелких грызунов"
]

# Получение эмбеддингов
embeddings = model.encode(sentences)

# embeddings.shape вернёт (3, 384) — три вектора размерностью 384
print(f"Размерность векторов: {embeddings.shape[1]}")

using Microsoft.ML;
using Microsoft.ML.Transforms;

var mlContext = new MLContext();
var pipeline = mlContext.Transforms.Text featurizeText(
    "Features", 
    "Text"
);

var data = mlContext.Data.LoadFromEnumerable(new[]
{
    new { Text = "Кошки спят большую часть дня" },
    new { Text = "Собаки любят гулять на улице" }
});

var model = pipeline.Fit(data);
var transformedData = model.Transform(data);

using Microsoft.ML;
using Microsoft.ML.Transforms;

var mlContext = new MLContext();
var pipeline = mlContext.Transforms.Text featurizeText(
    "Features", 
    "Text"
);

var data = mlContext.Data.LoadFromEnumerable(new[]
{
    new { Text = "Кошки спят большую часть дня" },
    new { Text = "Собаки любят гулять на улице" }
});

var model = pipeline.Fit(data);
var transformedData = model.Transform(data);

Встраивание в Docusaurus

В MDX статьи it-knowledge-base — компонент ExternalCodeEmbed:

<ExternalCodeEmbed
  example="python/nosql-812-001"
  title="Векторные базы данных — Процесс векторизации данных"
/>