basic-go/rut5-base-texificator-st1

Модель предназначена для нормализации исходного текста, содержащего математические сущности, выраженные в смеси полусловесных формулировок и/или различных математических языков разметки, в текст, приведенный в соответствие с правилами системы компьютерной вёрстки LaTeX для русского языка.

Использование

Пример ниже демонстрирует нормализацию:

from transformers import pipeline


normalizer = pipeline("text2text-generation", model="basic-go/rut5-base-texificator-st1")

inputs = ["неопределённый интеграл жи штрих от икс дэ икс равно жи от икс плюс цэ большое",
    r"f : RR^(2) -> RR^(3)"]
results = normalizer(inputs, max_length=128, do_sample=True, length_penalty=0.5, top_k=100, num_beams=7, early_stopping=True, repetition_penalty=2.5)

print(results)

# [{'generated_text': "\\(\\int g'(x)dx=g(x)+C\\)"}, {'generated_text': '\\(f : \\mathbb{R}^2 \\to \\mathbb{R}^3\\)'}]

Вместе с тем рекомендуется использовать модель в составе библиотеки Emma для актуальной пред- и постобработки данных.