Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

Korpusar vid SPL

Vid institutionen finns ett antal korpusar som har sammanställts av institutionens medarbetare. Dessa kan användas av studenter och forskare vid institutionen. För att få tillgång till korpusen, kontakta resp. kontaktperson.

Afrikanska språk
Engelska
Franska
Nederländska
Svenska
Tyska

Afrikanska språk

Kagulu, ett Bantuspråk i Tanzania

Materialet består av 3 inspelningar, 3 annoterade texter, 3 foton och en ordlista. Data samlades in som en del av Malin Petzells doktorsavhandling. Kontaktperson: Malin Petzell

Somaliska

Den 28 oktober 2015 lades somaliskan till som ett av språken i korpusen Korp som drivs av Språkbanken vid Göteborgs universitet. Den somaliska korpusen är fritt tillgänglig för allmänheten på adress
http://spraakbanken.gu.se/korp/?mode=somali

Korpusens storlek den 20 februari 2017 är 4 miljoner ord. Det textmaterial som finns ingår utgörs av texter från somaliska skolböcker (8%), artiklar från somaliska Wikipedia (22%), nyhetsartiklar (21%), Bibeln (21%), parlamentsprotokoll och lagtext (18%), skönlitteratur (6%), samhällsinformation (2%) och språkvetenskap (2%).

Den digitala bearbetningen för inläggning av materialet i Språkbanken har utförts av Morgan Nilsson vid Institutionen för språk och litteraturer.

Kontaktperson för den somaliska korpusen: Morgan Nilsson.

Engelska

The English-Swedish Parallel Corpus (ESPC)

Beskrivning: Består av originaltexter och deras översättningar (engelska till svenska och svenska till engelska)
Storlek: 2,8 miljoner löpord
Kontaktperson: För åtkomst: Anna-Lena Fredriksson, espc@sprak.gu.se. Övriga frågor: Karin Aijmer

SWICLE

Beskrivning: Utgör svenska delen av International Corpus of Learner English (ICLE)
Källa: Uppsatser skrivna av avancerade inlärare av engelska
Kontaktperson: Karin Aijmer

SWE-LINDSEI

Beskrivning: Utgör svenska delen av Louvain International Database of Spoken English Interlanguage (LINDSEI)
Storlek: 50 samtal (ca 50 000 löpord)
Kontaktperson: Karin Aijmer

Franska

Corpus Parallèle Français Suédois (CPSF), 2,8 miljoner ord

Kontakt: Mårten Ramnäs

Publikationer:

  • Étude contrastive du verbe suédois 'få' dans un corpus parallèle suédois-français
    Mårten Ramnäs
  • Quelques constructions causatives en suédois, français et italien. Étude contrastive
    Mårten Ramnäs
  • Some remarks on the modal use of the Swedish verb få in a Swedish-French perspective
    Mårten Ramnäs
  • Une étude contrastive sur l'emploi modal du verbe suédois få
    Mårten Ramnäs
  • Om en svensk-fransk parallellkorpus. Nytta och tillämpningar
    Mårten Ramnäs, Pauli Kortteinen
  • Kausativa verb i svenskt-franskt och franskt-svenskt kontrastivt perspektiv
    Mårten Ramnäs
  • Att använda SAG - 29 uppsatser om Svenska Akademiens grammatik (MISS 33), Kapitel i bok 2000
    Mårten Ramnäs

Corpus Contrastif Suédois Français (CCSF), 2, 9 miljoner ord

Kontakt: Mårten Ramnäs

Publikationer:

  • Paraître och sembler - Två franska verb i fransk-svensk kontrastiv belysning
    Lars Lindvall, Mårten Ramnäs
  • Varsågoda: en Corpus Contrastif Suédois-Français
    Mårten Ramnäs

Corpus Langues Romanes Comparées (CLRC), 2,4 miljoner ord

Kontakt: Mårten Ramnäs

Publikationer:

  • Un nouveau corpus de textes alignés en série: Corpus Langues Romanes Comparées (CLRC) (forthcoming)
    Mårten Ramnäs

Nederländska

Digitaal Compilatiecorpus Historisch Nederlands (’Digital Kompilationskorpus Historiskt Nederländska’)

Korpusen är en balanserad samling av historiska originaltexter skrivna på nederländska mellan 1250 och 2000.
Storlek: 600 000 ord
Hemsida: http://www.eviecousse.be/compilationcorpus.htm
Kontaktperson: Evie Coussé

Publikationer:
Coussé, Evie (2010): Een digitaal compilatiecorpus historisch Nederlands. In: Lexikos 20: 123-142 [pdf]

Svenska

"Offside"-korpusen (fotbollsspråk)

Källa: Tio årgångar av tidskriften "Offside" 2000-2009
Storlek: 1 769 463 ord i löpande text
Annotering: (i) författare, (ii) titel och (iii) volym (inklusive år)
Kontaktperson: Gunnar Bergh

Tyska

IRC-korpus

Beskrivning: Loggfiler från tyska och svenska IRC-chattar 5-19 februari 2001
Storlek: Ca 1,9 miljoner löpord
Kontaktperson: Helena Nilsson

Tyskt talspråk i Sibirien (Ryssland)

Sibirentyska
Sibirientyska är nedtecknad talad tyska som talas idag av c:a 36 000 människor i regionen Krasnojarsk i Sibirien (Ryssland).
Ryska ord och alla verbformer har annoterats (ryska ord och hybrider står i parentes; böjda verbformer får attribut FINIT eller INFINIT). Sibirientyska ingår i ett samarbetsprojekt mellan Göteborgs universitet och Astafjev universitet i Krasnojarsk.
Antal tokens: 34 205
Antal meningar: 2 104

Sibirentyska kvinnor
Korpusen består av samtal med fyra kvinnor födda mellan 1927 och 1937 i sovjetiska Volgarepubliken. Deras modersmål är en tysk varietet som har talats i Ryssland sedan andra halvan av 1700-talet. Kvinnorna lever sedan Andra världskrigets slut i regionen Krasnojarsk. De berättar om sina liv och sin nuvarande vardag i deras byar.
Ryska ord och alla verbformer har annoterats. Ryska ord och hybrider står i [parentes], intervjuers tal står i {parentes}; böjda verbformer får attribut FINIT eller INFINIT. Mer information om forskningsprojektet se Syntax i kontakt.
Antal tokens: 16 208
Antal meningar: 1 788

Länk till Språkbanken: http://spraakbanken.gu.se/korp/?mode=siberian_german#/lang=sv

Länk till projektets hemsida:
http://sprak.gu.se/forskning/forskningsprojekt/internt-finansierade/syntax-in-contact

Tyska och ryska tv-nyheter

Källa: "Aktuelle Kamera" (DDR), "Tagesschau" (Västtyskland), "Novosti"(Sovjetunionen)
Datum: 1988-1991
Kontaktperson: Christiane Andersen

 

Sidansvarig: Anna-Lena Fredriksson|Sidan uppdaterades: 2018-09-06
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?