# Features Module > ВАЖНО!!! README.md сгенерировано автоматически, поэтому может содержать неточности. Модуль для создания структурированного датасета из обработанных документов. Включает в себя функциональность для парсинга иерархической структуры документов, создания датасета и его векторизации. ## Основные компоненты ### HierarchyParser Класс для извлечения иерархической структуры из текста документа. Позволяет: - Парсить текстовый контент с учетом уровней вложенности - Парсить табличный контент - Создавать иерархическое представление документа ### DatasetCreator Класс для создания структурированного датасета из обработанных документов. Функциональность: - Обработка иерархической структуры текста и таблиц - Создание унифицированного представления данных - Интеграция с векторизатором для создания эмбеддингов ### DocumentsDataset Класс для хранения и управления данными датасета. Возможности: - Хранение структурированных данных документов - Векторизация текстов с помощью предоставленного векторизатора - Экспорт данных в pandas DataFrame - Сохранение датасета в pickle формате ## Структура данных Каждая строка датасета (`DatasetRow`) содержит следующие поля: - Index: уникальный идентификатор строки - Text: текстовое содержание - DocName: имя документа - Title: заголовок документа - DocNumber: номер документа - LevelParagraph: уровень параграфа - Pargaraph: номер параграфа - Duplicate: метка дубликата - PartLevel1, PartLevel2: уровни частей - Appendix: информация о приложении - Table: информация о таблице ## Использование ```python from components.embedding_extraction import EmbeddingExtractor from components.parser.features import DatasetCreator, DocumentsDataset # Инициализация создателя датасета vectorizer = EmbeddingExtractor() creator = DatasetCreator(vectorizer) # Создание датасета dataset = creator.create_dataset(parsed_xmls, hierarchies) # Векторизация текстов dataset.vectorize_with(vectorizer) # Экспорт в pandas DataFrame df = dataset.to_pandas() ``` ## Зависимости - numpy - pandas - компоненты для векторизации текста (EmbeddingExtractor)