Spaces:

adojode
/

event-data-extraction-playground

Running

event-data-extraction-playground / src /nlp /experimental /sumy_example.py

manaviel85370

add pages and all

da88570 2 months ago

2.47 kB

	# -- coding: utf-8 --

	from __future__ import absolute_import
	from __future__ import division, print_function, unicode_literals

	from sumy.parsers.html import HtmlParser
	from sumy.parsers.plaintext import PlaintextParser
	from sumy.nlp.tokenizers import Tokenizer
	from sumy.summarizers.lsa import LsaSummarizer as Summarizer
	from sumy.nlp.stemmers import Stemmer
	from sumy.utils import get_stop_words
	import nltk
	nltk.download('punkt_tab')


	LANGUAGE = "german"
	SENTENCES_COUNT = 10

	text = """Workshop Retrodigitalisierung ================================
	Thema: Digitalisierte Sammlungen präsentieren – Konzeptionierung, Darstellung und Vermittlung

	Der siebte Workshop Retrodigitalisierung findet am 20. und 21. März 2025 bei ZB MED – Informationszentrum Lebenswissenschaften in Köln statt. Er richtet sich an Praktiker:innen, die sich in Bibliotheken mit der Retrodigitalisierung befassen. Wie in den Vorjahren bietet der Workshop ein breites Spektrum an interessanten Vorträgen zur Praxis der Retrodigitalisierung. Dafür brauchen wir Sie und Ihre Einreichungen!

	Im Fokus des nächsten Workshops steht die zeitgemäße Präsentation digitalisierter Sammlungen. Das Programm widmet sich insbesondere den Themen Konzeptionierung, Darstellung und Vermittlung von digitalisierten Sammlungen und Beständen über die Präsentationsplattformen der Einrichtungen rund um die Nutzung von Digitalisaten.

	Der Call for Presentations läuft noch bis zum 18. Oktober 2024. Wir freuen uns auf Ihren Beitrag!

	Der Workshop Retrodigitalisierung wird gemeinsam von den drei deutschen Zentralen Fachbibliotheken TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften, ZB MED – Informationszentrum Lebenswissenschaften und ZBW – Leibniz-Informationszentrum Wirtschaft sowie der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz durchgeführt.

	Wann? 20. März bis 21. März 2025

	Wo? ZB MED in Köln"""
	if __name__ == "__main__":
	# url = "https://en.wikipedia.org/wiki/Automatic_summarization"
	# parser = HtmlParser.from_url(url, Tokenizer(LANGUAGE))
	# or for plain text files
	# parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))
	parser = PlaintextParser.from_string(text, Tokenizer(LANGUAGE))
	stemmer = Stemmer(LANGUAGE)

	summarizer = Summarizer(stemmer)
	summarizer.stop_words = get_stop_words(LANGUAGE)

	for sentence in summarizer(parser.document, SENTENCES_COUNT):
	print(sentence)