FormaasjeColleges en universiteiten

Wat is Corpus Taalkunde?

Krekt in pear desennia lyn te automate it taalkundich ûndersyk, wittenskippers koe allinne mar dreame fan. It wurk waard dien troch de hân, dan lûkt der in grut oantal studinten, is der in flinke kâns "achteleas" flaters, en vooral - alles dat naam in lange, lange tiid.

Mei de ûntwikkeling fan de kompjûter technology is wurden mooglik te fieren ûndersyk oan 'e oarder fan grutte flugger, en hjoed ien fan de meast kânsrike rjochtings yn' e stúdzje fan taal is in korpus taalkunde. Syn wichtichste eigenskip is it brûken fan grutte mannichten tekst ynformaasje, ynformaasje ta ien databank, op in bysûndere wize en neamde de markearre lichem.

Oant no ta, der binne in soad gebouwen makke mei ferskillende doelen op 'e grûn fan ferskate taalkundige materiaal spanning fan miljoenen nei tsientallen miljarden leksikaal ienheden. Dizze rjochting wurdt werkend as in kânsryk en tsjûget fan betsjutting foarútgong rjochting de applikaasje en ûndersyk doeleinen. Saakkundigen, ien of oare wize omgean mei natuerlike taal, it is rekommandearre om 'e kunde komme mei it lichem fan de teksten op syn minst op in basis nivo.

Skiednis fan corpus taalkunde

De foarming fan dy trend is it gefolch fan it ûntstean fan 'e Feriene Steaten by Brown lichem yn' e iere 60-er jierren fan de foarige ieu. De kolleksje bestiet ûnder oaren út de teksten fan alle 1 miljoen fan wurdfoarmen, en hjoed it lichem fan dit grutte soe hielendal uncompetitive. Dit is foar it grutste part te tankjen oan it tempo fan 'e ûntwikkeling fan' e kompjûter technology, en ek de groeiende easken foar nij ûndersyk middels.

Yn de jierren '90 korpus taalkunde ûntstienen yn in folsleine en selsstannige dissipline, in samling fan teksten binne opsteld en oanjûn foar tsientallen talen. Yn dizze perioade waard it makke, bygelyks, de Britske National Corpus 100 miljoen tokens.

Mei de ûntwikkeling fan dit gebiet fan 'e taalkunde, tekst dielen wurde hieltyd mear en mear (en berikke miljarden wurdboek ienheden), en de yndieling wurdt hieltyd mear ferskaat. Om datum, de Internet romte te finen kadavers skreaun en sprutsen taal, meartalich, en learen rjochte artistyk of akademyske literatuer, lykas ek in soad oare soarten.

Wat binne de húsfesting

Body types yn it lichem taalkunde meie wurde foarsjoen om ferskate redenen. Yntuityf, de basis foar de yndieling kin in tekst taal (Russysk, Dútsk), de tagong mode (iepen boarne, ticht, kommersjeel), it sjenre fan 'e boarne materiaal (fiksje, dokumintêre, akademysk, sjoernalistyk).

Ynteressante manier genereart materialen fan sprutsen taal. Sûnt it opsetlike opname fan sokke rede te meitsjen in keunstmjittige omjouwing foar de respondinten, en de dêrút materiaal koe net neamd wurde "spontane", moderne corpus taalkunde hat gien de oare wei. In frijwilliger is foarsjoen fan in mikrofoan, en oerdeis produsearre in ferslach fan alle petearen, wêryn it dielnimt. Minsken om, fansels, miskien net witte, dat yn 'e rin fan it deistich petear draacht by oan de ûntwikkeling fan de wittenskip.

Letter krigen record opslein yn de database en wurde begelaat troch printe tekst transkript type. Sa wurdt it mooglik opmaak nedich te meitsjen in mûnlinge deistige spraak wentebou.

application

Dêr't dat mooglik is it brûken fan taal, en faaks it brûken fan gebouwen teksten. Metoaden ta te passen de romp yn taalkunde kin wêze:

  • It meitsjen fan in programma fêststellen fan de kaai, wurdt in soad brûkt yn de polityk en it bedriuwslibben te hâlden spoar fan de positive en negative gefoeligens fan de kiezers en klanten, resp.
  • Ferbining ynformaasje systeem oan wurdboeken en oersetters te ferbetterjen harren prestaasje.
  • In ferskaat oan ûndersyk taken dy't bydrage oan it begripen fan 'e taal ienheid, de skiednis fan har ûntwikkeling en de foarsizzing fan de feroarings yn' e omkriten fan takomst.
  • Untwikkeling fan ynformaasje opheljen systemen basearre op 'e morfologyske, syntaktyske, semantyske en oare funksjes.
  • Optimalisearring fan de ferskillende taalkundige systemen en oaren.

Gebrûk fan gebouwen

ferlykbere resource interface mei in typyske sykmasine, en delhelje, skrasse de brûker te fieren in wurd of kombinaasje fan wurden te sykjen om de ynformaasje basis. Apart foarmje de eksakte query kin gebrûk meitsje fan de ferbettere ferzje, dat makket it mooglik om te finen tekstuele ynformaasje op omtrint alle talige kritearia.

sykje basis kin wêze:

  • lidmaatskip fan in bepaalde groep fan parten fan spraak;
  • grammatikale eigenskippen;
  • semantics;
  • stilistyske en emosjonele kleuren.

Jo kinne ek kombinearje sykjen kriteria foar in opienfolging fan wurden, bygelyks, te finen alle foarkommende fan it tiidwurd yn 'e notiid, earste persoan iental, dat komt nei it ferhâldingswurd "yn" en it haadwurd yn de akkusatyf gefal. De oplossing om sa'n ienfâldige taak duorret de brûker in pear sekonden en freget mar in pear mûs kliks yn de oantsjutte fjilden.

It proses fan it ta stân

It sykjen sels kin wurde útfierd op alle subcorpus en ien spesifyk keazen, ôfhinklik fan it ferlet yn it realisearjen fan in bepaald doel:

  1. De earste stap is om te bepalen hokker teksten foarmje de basis foar de saak. Foar praktyske doelen, it wurdt faak brûkt sjoernalistike, nijs ferhalen, online comments. It ûndersyk projekt is it brûken fan in grut ferskaat oan pakket typen, mar de tekst selektearre wêze neffens guon mienskiplike grûn.
  2. It resultearret kolleksje fan teksten ûnderwurpen wurde oan pretreatment, der is korreksje fan flaters, as ien, taret troch bibliografyske en ekstra-taalkundige beskriuwing fan 'e tekst.
  3. Is eliminated alle net-tekstuele ynformaasje: Wist de Grafiken, foto, tafels.
  4. Is in tarekkenjen fan de tokens, dat binne meastal spraak, foar fierdere ferwurking.
  5. Ta beslút, it droech morfologyske, syntactical en oare opskriften helle mearfâldichheid fan eleminten.

It resultaat fan alle transaksjes makke troch in syntaktyske struktuer mei ferdield dêryn in mearfâldichheid fan eleminten, elk wêrfan wurdt identifisearre part fan spraak, grammatikale en, yn guon gefallen, de semantyske attributen.

Swierrichheden yn it meitsjen fan gebouwen

It is fan belang om te begripen dat is net genôch om te setten tegearre in set fan wurden of sinnen foar it lichem. Oan 'e iene kant, in samling fan teksten moatte wêze balansearre, dat is, fertsjintwurdigje ferskillende typen fan teksten yn bepaalde proporsjes. Oan de oare - de ynhâld fan de omwâling moatte wurde spaced op in bysûndere manier.

It earste probleem wurdt oplost troch in oerienkomst: bygelyks, yn de kolleksje befettet 60% fan literêre teksten, 20% fan de dokumintêres, in beskate persintaazje wurdt jûn in skriftlike fertsjintwurdiging fan de sprutsen taal, wetjouwing, wittenskiplike wurken, ensfh perfekte resept yn lykwicht lea hjoed bestiet net ...

De twadde fraach, oangeande de ynhâld opmaak, oplosse útdaagjend. Der binne spesjale programma en algoritmen brûkt foar automatyske merken fan teksten, mar se wit net jouwe in perfekte resultaat, kin feroarsaakje disruptions en easkje hânmjittich dizzee. Kânsen en útdagings yn de omgong mei dit probleem wurde beskreaun yn detail yn in papieren V. P. Zaharova fan corpus taalkunde.

Tekst opmaak wurdt útfierd op ferskate nivo, dêr't wy list hjirûnder.

morfologyske Tagging

Fan skoalle, betinke wy dat yn 'e Russyske taal, binne der ferskillende dielen fan mieningsutering, en elk fan harren hat syn eigen skaaimerken. Bygelyks, it tiidwurd hat kategoryen fan bestimming en de tiid oan dêr't gjin haadwurd. in native speaker sûnder wifkjen minderet haadwurden en Conjugate tiidwurden, mar ta gelegenheid fan it lichem fan 100 miljoen. tokens hânwurk sil net wurkje. Alle needsaaklike operaasjes kinne útfiere de computer, lykwols, hjirfoar it moat wurde leard.

Morfologyske Tagging, de kompjûter moat "begripe" elk wurd as in beskate wurdsoarte hawwende beskate grammatikale funksjes. Sûnt it Russysk (en eltse oare taal) betsjinnet in oantal gewoane regels, is it mooglik om te bouwen in automatyske proseduere foar de morfologyske analyse, ynvestearjen yn 'e auto foar in oantal algoritmen. Mar der binne útsûnderingen op de regel, krekt as ferskate komplisearret faktoaren. Dêrtroch netto kompjûter analyze fan hjoed is fier fan ideaal, en sels 4% flater opsmyt in wearde fan 4 mln. Words op it lichem fan 100 miljoen. Units, nedich Manual dizzee.

Detaillearre boek beskriuwt it probleem Zaharova V. P. "Corpus Taalkunde".

syntaktyske annotation

Ferwurking of ûntleden - in proseduere dy't bepaalt de relaasje fan de wurden yn in sin. Mei help fan in set fan algoritmen is mooglik om te bepalen de tekst fan ûnderwerp, predikaat, oanfollingen, meardere bochten fan spraak. Útfine hokker wurden binne de wichtichste folchoarder, en dy't - ôfhinklike, kinne wy effektyf útpakt ynformaasje fan tekst en to learen de masine om nei oanlieding fan in sykopdracht fersyk allinnich de ynformaasje Interesting ús.

By the way, moderne sykmasines brûke dit te jaan út spesifike oantallen ynstee fan lange teksten yn reaksje op relevante fragen lykas "hoefolle calorieën yn in appel" of "de ôfstân fan Moskou nei Sint Petersburg." Lykwols, om te begripen sels de basis fan it proses beskreaun troch de needsaak om te rieplachtsjen de "Ynlieding ta it Corpus Taalkunde" of oare elemintêre tutorial.

rdfa opmaak

De semantyk fan it wurd - is, yn ienfâldige wurden, de betsjutting. Breed tapassing oanpak fan 'e semantyske analyze fan in wurd Attribution tags, as wjerspegeling syn dy't ta in set fan semantyske kategoryen en ûnderkategory. Sokke ynformaasje is weardefol foar it optimalisearjen fan algoritmen analysearje tekst toan, automatische summarization en oare taken metoaden fan corpus taalkunde.

Der binne in oantal "root" fan 'e beam, foar in abstrakt wurd mei in hiel breed semantyk. As in tûke fan de beam knopen wurde foarme, mei mear en mear spesifike leksikale eleminten. Bygelyks, it wurd "skepsel" meie wurde ferbûn mei sokke begripen as "minske" en "dier". It earste wurd sil trochgean te tûke út yn ferskillende beroppen, sibskip termen, nasjonaliteit, en de twade - op stannen en soarten bisten.

It brûken fan ynformaasje opheljen systemen

Areas of brûken fan corpus taalkunde cover ferskaat fjilden fan aktiviteit. Housings wurde brûkt foar de tarieding en de korreksje fan wurdboeken, meitsje Automated oersetting systemen, annotating, it opheljen fan feiten, it fêststellen fan 'e toan en oare tekst ferwurkjen.

Dêrneist sokke middels wurde aktyf brûkt yn 'e stúdzje fan' e wrâld talen en meganismen fan de oanpak fan de taal yn it algemien. Tagong ta grutte dielen fan pre-ree ynformaasje fasilitearret rapid en wiidweidige stúdzje fan de trends fan ûntwikkeling talen, en stabile formaasje neologismen spraak snelheid feroarje wearden leksikaal ienheden en oaren.

Sûnt it wurk mei sokke grutte hoemannichten gegevens freget automatisearring, hjoed is der tichtby ynteraksje tusken de kompjûter en corpus taalkunde.

Russian National Corpus

Dit gefal (ôfkoarte NKRYA) bestiet út in oantal subcorpus, wêrtroch it brûken fan in boarne foar in grut ferskaat oan taken.

De materialen yn de databank binne ferdield NKRYA:

  • oan publikaasjes yn de media 'jierren '90 en 2000s, sawol binnen- en bûtenlânske;
  • opname spraak;
  • aktsentologicheski markearre teksten (i.e., de tekens fan stress);
  • dialect spraak;
  • poëzy;
  • Materiaal mei syntaktyske en oare opskriften.

De ynformaasje systeem ek omfiemet Subcorpus mei parallelle oersettings fan wurken út Russysk yn it Ingelsk, Dútsk, Frânsk en in protte oare talen (en oarsom).

Ek yn de databank is der in diel fan histoaryske teksten, werom foar it skreaune speech yn it Russysk yn ferskillende perioaden fan syn ûntwikkeling. Der is ek in training lichem, dat kin nuttich foar bûtenlânske boargers yn behearskjen fan de Russyske taal.

Russian Nasjonale Corpus bestiet út 400 miljoen leksikale ienheden, en yn in protte manieren foarút fan in wichtich part fan 'e talen fan Europa lichems.

prospects

Feit yn it foardiel fan de erkenning fan dy trend is de beskikberheid fan kânsrike laboratoarium corpus taalkunde yn Russyske universiteiten, likegoed as frjemde. Mei it brûken fan en ûndersyk yn it ramt fan dizze ynformaasje en sykje middels meibringt de ûntjouwing fan bepaalde gebieten op it mêd fan hege Technologies, fraach-beäntwurdzjen fan systemen, mar it wurdt besprutsen boppe.

Fierdere ûntwikkeling fan de korpus taalkunde wurdt foarsein op alle nivo 's, fariearjend fan technysk en kwa útfiering fan nije algoritmen dy't optimalisearjen fan de prosessen fan sykjen en it ferwurkjen fan ynformaasje, steat stellen fan kompjûters, mear RAM, en ta de konsumint, omdat brûkers binne hieltyd mear manieren te brûken dit type boarne yn harren deistich libben en wurk.

in konklúzje

Yn 'e midden fan' e foarige ieu yn 2017 like fiere takomst, dêr't romteskippen reizgje troch it universum en robots dogge al it wurk foar de minsken. Yn feite, wittenskip is replete mei "wite flekken" en meitsjen wanhopich besykjen om te beänderjen de fragen fan it minskdom foar ieuwen fersteuren. Fragen funksjonearret fan taal hjir ynnimme in plak fan eare, en kabinet en kompjûtertaalkunde kinne helpe ús om te beänderjen se.

Ferwurkjen fan grutte gegevens sets kinne detect patroanen, earder ûntagonklik, foarsizze de ûntwikkeling fan spesifike taal funksjes te folgjen op de foarming fan wurden yn hast echte tiid.

Op in praktysk nivo, de globale ferbliuwplakken kinne sjoen wurde, bygelyks, as in potinsjele ynstrumint te beoardieljen it publyk stimming - it ynternet is in hieltyd fernijd deistige basis ferskate teksten makke troch echte brûkers: Dit opmerkingen en resinsjes en artikels, en in protte oare foarmen fan spraak.

Dêrneist wurke mei liven draacht by oan de ûntwikkeling fan deselde hardware, dy't belutsen by ynformaasje opheljen, wy binne bekend mei de tsjinst "Google" of "Yandex", machine oersetting, elektroanyske wurdboeken.

Wy kinne fol fertrouwen úthâlde dat it korpus taalkunde makket allinne de earste stappen, en yn 'e kommende tiid sil bloeie.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 fy.birmiss.com. Theme powered by WordPress.