SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-mpnet-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("l0rdkr0n0s/albanian-legal-sentence-transformer")
# Run inference
sentences = [
    'Me eshte caktuar avokati falas X Y dhe ajo nuk pranon te me mbroje falas mua? Si mund te veproj?',
    'Përshëndetje,\n\nDuhet të paraqiteni në Dhomën e Avokatisë të qytetit që e ka caktuar avokaten dhe të bëni kërkesë për ndryshimin e avokatit të caktuar kryesisht.\n\nFaleminderit.',
    '1    \nPërshëndetje,\n\nNë këtë rast, për aplikime mund të përdorni dhe vërtetimin e student që përmban informacionin e sipërcituar nga ju.\n\nKy vërtetim nuk është ekuivalent me diplomën, që do të thotë mund të ketë dhe institucione ose subjekte që mund të mos e pranojnë nëse nuk është diplomë, megjithatë kur të dorëzoni vërtetimin mund të bëni dhe specifikimet nga ana juaj se pse nuk e dispononi ende kartonin e diplomës.\n\nFaleminderit.\n\nJuristinOnline',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 354 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 354 samples:
    sentence_0 sentence_1 label
    type string string float
    details
    • min: 6 tokens
    • mean: 61.9 tokens
    • max: 128 tokens
    • min: 27 tokens
    • mean: 109.17 tokens
    • max: 128 tokens
    • min: 1.0
    • mean: 1.0
    • max: 1.0
  • Samples:
    sentence_0 sentence_1 label
    Përshëndetje! Përshëndetje,

    Çdo shtetas që paguan kontribut për sigurim shëndetësor, ose për të cilin paguan shteti, është i siguruar dhe përfiton nga skema e sigurimeve shëndetësore. Sigurimi i detyrueshëm financon paketat e shërbimeve të sigurimit të detyrueshëm, ku përfshihen. Rimbursimi i plotë ose i pjesshëm i barnave të Listës së Barnave të Rimbursueshme në varësi të kategorisë;

    Më konkretisht për barnat, personat e siguruar, ose nuk paguajnë fare ose kanë një pagesë të pjesshme që shkon deri në 50 % (për qind) të çmimit të barnave, por jo më shumë.

    Në rastin konkret mjekimet që përfshihen ne skemën e rimbursimit dhe për të cilat pacienti ka nevojë të vazhdueshme për to, nuk mund të hiqen nga rimbursimi, kur vazhdimisht ka qënë pjesë e skemës së rimburisimit si mjekim dhe nga konsultimi me mjeken ju mund t’i kërkoni arsyet pse nuk mund ta përfitojë përsëri me rimbursim të njëjtin mjekim. Ju mund të ankohemi pranë Fondin e Sigurimit të Detyrueshëm të Kujdesit Shëndetësorë.

    Ju faleminderit!
    1.0
    Pershendetje te nderuar, 1
    Pershendetje. Ne rastin tuaj nuk mund t’i drejtoheni gjykates per fitimin e pronesise me parashkrim fitues, pasi kjo padi dhe ky institut juridik zbatohen vetem per prona qe tashme ekzistojne juridikisht, pra per prona qe jane ne qarkullimin civil. Shtepia juaj nuk ekziston juridikisht, por vetem faktikisht dhe i vetmi proces ligjor qe mund ta perfshije si nje pasuri te njohur juridikisht, eshte procesi i legalizimit.

    Me ligjin e ri per agjencine shteterore te kadastres, ju keni te drejte qe te aplikoni tani per legalizimin e objektit.
    1.0
    Pershendetje, jetoj prej 60 vitesh ne nje banese shtepi private me oborr, te ndertuar ne vitin 1964. Nuk kam dokument pronesie, por vetem nje leje ndertimi te vitit 1964 te dhene ne emer te vellait tim. Kam aplikuar ne ASHK per fitimin e titullit te pronesise te objektit pa titull pronesie me truall funksional/oborrit ne perdorim, ne reference te Vkm nr. 827, datë 30.09.2020. Nga ASHK kerkohet dok qe verteton kalimin e pronesise nga vellai tek une (pasi leja e ndertimit eshte dhene ne emer te tij), edhe pse une kam 60 vite qe jetoj ne ate banese dhe banesa nuk ka konflikte pronesie sepse vellai ka marre pjesen e vet takuese. Gjithashtu kerkohet plansheta e viteve 1981-1991, e azhornuar ne vitin 1993, marre nga Arkivi Qendror Teknik i Ndertimit, i cili shprehet se zona e kerkuar eshte e parilevuar. Aktualisht kam vetem 1 plan rilevimi te bere nga topograf privat. Cfare dokumenti mund te me ndihmoje per te vertetuar qe jam banor i kesaj prone prej 60 vitesh dhe per te fituar titullin e p... Pershendetje. Referuar ligjit 118/2018 “Per kadastren” Ne nenin 30 te tij parashikon se Individët, familjet dhe personat juridikë privatë apo shtetërorë, që zotërojnë dokumente

    pronësie, por nuk kanë të përcaktuar në to sipërfaqen, duhet t’i paraqesin regjistruesit një kërkesë për

    regjistrim pronësie, e cila duhet të shoqërohet me:

    a) dokumentin e pronësisë;

    b) dokumentacionin hartografik për pasurinë, i cili miratohet nga ASHK-ja;

    c) deklaratën noteriale të pronarëve kufitarë, që vërtetojnë përmbajtjen e kërkesës për kufijtë e

    pasurisë që pretendohet të regjistrohet.

    Nëse deklarata noteriale nuk mund të sigurohet, apo ka mosmarrëveshje për kufirin e pasurive, ai

    përcaktohet nga ASHK-ja. Palët e interesuara kanë të drejtën e ankimit gjyqësor ndaj aktit të ASHK-së që

    përcakton kufirin. Pra nese ASHK refuzon kerkesen tuaj per regjistrimin e prones sepse ju nuk siguroni dot aktin noterial me vellain tuaj per kalimin e pronesise, atehere kunder vendimit te refuzimit qe ju jep ASHK...
    1.0
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 5
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.50.3
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.5.2
  • Datasets: 3.5.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
15
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for l0rdkr0n0s/albanian-legal-sentence-transformer

Dataset used to train l0rdkr0n0s/albanian-legal-sentence-transformer