LegalEmbed ⚖️

Modèle d'embeddings fine-tuné sur le droit français, à partir de paraphrase-multilingual-mpnet-base-v2 et du dataset louisbrulenaudet/legalkit (~53k articles de codes juridiques français).

Utilisation

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("IvanDVonga/LegalEmbed")

query = "Question juridique : Quelles sont les conditions de validité d'un contrat ?"
doc   = "Texte de loi : Pour qu'un contrat soit valable, il faut le consentement des parties."

embeddings = model.encode([query, doc], normalize_embeddings=True)
similarity = embeddings[0] @ embeddings[1]
print(f"Similarité : {similarity:.4f}")

Préfixes recommandés

Type de texte Préfixe
Question / requête "Question juridique : "
Article de loi / document "Texte de loi : "

Entraînement

  • Loss : MultipleNegativesRankingLoss (in-batch negatives)
  • Paires : (query, article) et (référence, article)
  • Epochs : 3 — LR : 2e-5 — Batch : 32
Downloads last month
61
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for IvanDVonga/LegalEmbed

Dataset used to train IvanDVonga/LegalEmbed