LegalEmbed ⚖️

Modèle d'embeddings fine-tuné sur le droit français, à partir de paraphrase-multilingual-mpnet-base-v2 et du dataset louisbrulenaudet/legalkit (~53k articles de codes juridiques français).

Utilisation

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("IvanDVonga/LegalEmbed")

query = "Question juridique : Quelles sont les conditions de validité d'un contrat ?"
doc   = "Texte de loi : Pour qu'un contrat soit valable, il faut le consentement des parties."

embeddings = model.encode([query, doc], normalize_embeddings=True)
similarity = embeddings[0] @ embeddings[1]
print(f"Similarité : {similarity:.4f}")

Préfixes recommandés

Type de texte	Préfixe
Question / requête	`"Question juridique : "`
Article de loi / document	`"Texte de loi : "`

Entraînement

Loss : MultipleNegativesRankingLoss (in-batch negatives)
Paires : (query, article) et (référence, article)
Epochs : 3 — LR : 2e-5 — Batch : 32

Downloads last month: 61

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for IvanDVonga/LegalEmbed

Base model

sentence-transformers/paraphrase-multilingual-mpnet-base-v2

Finetuned

(161)

this model

IvanDVonga
/

LegalEmbed

LegalEmbed ⚖️

Utilisation

Préfixes recommandés

Entraînement

Model tree for IvanDVonga/LegalEmbed

Dataset used to train IvanDVonga/LegalEmbed