Damezrandina, Colleges û zanîngehan
Corpus Linguistics çi ye?
Tenê çend sal berê ji bo nebin di lêkolîna zimanî, zanyar, bi tenê dikare ji xeyala. Di vê xebatê de bi dest hatiye kirin, ew hevpeyvînên a hejmareke mezin ji xwendekaran, e egera girîng sedema "careless" heye, û ya herî girîng - ev hemû dirêj, demeke dirêj girt.
Bi pêşketina teknolojiya kompîturê gengaz bûye ji bo lêkolînan li ser fermana mezintîya zûtir, û îro yek ji van dîrektîfan hêviyê herî di xebatê de ji zimanê a linguistics corpus e. taybetiya wê ya sereke bikaranîna mîqdarên mezin yên agahî text, agahî di nav HTMLê da yek, bi awayekî taybet e û bang li hemû bedena marked.
To date, in, gelek avahî tên afirandin bi armancên cuda li ser bingeha materyalên cuda zimanî Bahoz ji bi milyonan ji bo bi deh mîlyaran yekîneyên wushe heye. Bi vî alî ve weke hêviyê naskirin û nîşan dide pêşketinên mezin ber bi sepanê û lêkolîn armancên de. Pispor, yek rê an tilyakê din bi zimanê xwezayî, ku tê pêşniyarkirin ku tev bi bedena nivîsên qet nebe di asta bingehîn nas.
History of linguistics corpus
Pêkhatina vê meyla e ji ber ku di afirandinê ya Dewletên Yekbûyî li bedena Brown di destpêka salên 60-î yên sedsala borî. K'omekt'opkirina de, ji nivîsên li ser hemû 1 milyon ji awayên peyva, û îro vê bedena size dê bi temamî Jidervey. Ev e, bi giranî li pace yên pêşketinê ji teknolojiya kompîturê, herweha daxwazên zêde dibe ji bo çavkaniyên lêkolîn nû ji ber.
Di salên 90'an de linguistics corpus nav disiplînek full û serbixwe derketine holê, berhevoka nivîsên hatine îmze kirin û mohra xwe ji bo dehan yên zimanan. Di vê heyamê de ew hate afirandin, bo nimûne, li British National Corpus 100 milyon nîşanekan.
Bi pêşxistina vê herêmê yên zimannasî, cildên text tên bêhtir û bêhtir (û xwe bigihîne bi mîlyaran yekîneyên ferhenga), û latîniya ku diçe cihêreng bû. To date, space Internet dikare bê carcasses nivîsîn dîtin û ziman, pirzimanî, wêje û hunerî an jî akademîk-fêrbûna nêrîn, herweha gelek cureyên din tê axaftin.
xanîyan de ne kîjan in
cureyên Body li linguistics bedena dibe ku ji ber gelek sedeman hatiye piştrastkirin. Gohan, bingehê ji bo Dabeşandina nikare bibe zimanê text (Russian, German), ku moda têketina (çavkaniya vekirî, girtî, bazirganî), li genre yên maddî source (fiction, belge, akademîk, rojnamevaniyê).
rêyeke balkêş şêwey materyalên yên ziman tê axaftin. Ji ber ku qeyda bi zanebûn ji yên weha axaftina ko rewşeka sûnî ji bo beşdaran, û maddî yên ku nikaribû bê gotin "spontane", linguistics corpus modern bi awayekî din çûye. A dildar ku bi Elîyê stendine, û di nava rojê de berhem qeyda hemû sohbet, ku ew beşdar dibe. Gel li dora, bê guman, dibe ku nizanin, ku di dema sohbeta rojane dê têkarî bide pêşketina zanistî.
Paşê record profîlek di nav HTMLê da heye stand û bi destê çapkirin type transcript text çûn. Bi vî awayî, ew markup gengaz pêwîst ji bo ku xanî axaftina rojane ya devkî dibe.
sepanê
Ku îmkan hebe bikaranîna zimanê, û belkî bikaranîna avahiyên tekstên. Rêbaz serî li hull di zimannasiyê de dikarin bibin:
- Afirandina a bernameya diyarkirina key, bi germî li siyasî û bazirganî bi kar ji bo şopandina bersiva erênî û neyînî yên hilbijêran û mişterî, bi rêzê.
- Connection sîstema agahî ji ferhengên û wergêr ji bo zêdekirina performansa xwe.
- A zor ji erkên lêkolînê ku têgihîştina ji yekîneya zimanî de, di dîroka pêşveçûna û texmîna xwe ya guherandinên di demeke nêzîk de bibe alîkar.
- Development pergalên Goggle de agahî li ser bingeha peyvsazî, sîntaktîk de, semantîk û din taybetmendiyên.
- Optimization ya sîstemên cuda yên zimanî û yên din.
Use of avahiyên
virtual çavkaniyê binirxîne similar bi motora lêgerîn tîpîk, û rengvedaneke bikarhênerê bikevin peyv an jî kombînasyona words to search for base de agahiyên. Ji bilî avakirina query rastîn dikarin Versiyon ji pêşkeftîya, ku rê dide agahî metinî li hema hema ti pîvanên zimanî ji bo dîtina kar tînin.
base lêgerîn dikarin bibin:
- endametiya komeke taybetî yên parçeyên axaftina;
- taybetmendiyên rêzimanî;
- xwebêj;
- dejî û hest coloring.
Tu dikarî krîterên xwe yên lêgerînê êlêmêntên bo Bûyer bi gotinên, bo nimûne, ji bo dîtina hemû dubareyên peyvê yên di lêkerê de di dema niha de, kesê yekemîn a yekejimar, ku piştî preposition "li" û navdêrê di doza accusative tê. Çareseriya ji bo vê erkê danê digire user çend seconds û pêdivî bi tenê çend mişkê di warê diyarkirin.
Pêvajoya afirandina
The xwe search dikare li ser hemû subcorpus hatiye lidarxistin û yek bi taybetî hilbijartin, li gor pêdiviyên di pêkanîna armanceka taybetî:
- Gava yekem e ji bo danasîna ku tekstên bingehê ji bo doza avakirin. Ji bo armancên pratîk, ku gelek caran bi kar rojnamevaniyê, çîrokên nûçe, şîrove bike. Ev projeya lêkolîna bikaranîna ên cîhêreng cureyên pakêta e, lê nivîsa ku divê li gor hinek erdê hevbeş bên hilbijartin.
- K'omekt'opkirina di encamê ji tekstên rastî pretreatment, e correction şaşî heye, eger tu, ji aliyê description bibliographic û extra-zimanî yên di nivîsê de.
- Ma hemû agahiyên non-metinî holê: Paqij graphics, pictures, maseyên.
- E ku dabeşkirina nîşanekan, ku bi piranî ne axaftina, ji bo muamelekirina din.
- Di dawiyê de, ev pirhejmariya peyvsazî, syntactical û markên din dest ji hêmanên hatiye lidarxistin.
Di encama hemû danûstandinên bi belavkirin û tê de pirrengîyeke ji hêmanên, ku her beşek ji axaftina, rêzimanî diyarkirin û, di hinek rewşan de, ji taybetmendîyên (semantic) ji aliyê struktura sîntaktîk de.
Zehmetiyên Di afirandina avahiyên
Ev girîng e ku fêm bikin ev e ku têra xwe bîne cem hev set of words an hevokên ji bo bedena xwe ne. Li aliyekî, berhevoka nivîsên divê hevseng be, ku ev e, temsîla cureyên cuda yên tekstan di astên hin. Li ser yên din - naveroka kevane de, divê bi awayekî taybetî di bernameya.
Pirsgirêka yekem bi peymana çareserkirin: bo nimûne, di vê berhevokê de di nav de 60% ji nivîsên wêjeyî, 20% ji belgefîlm, beşek hin dayîn a temsîla nivîskî ya zimanê tê peyivîn, qanûnên, berhemên zanistî, û hwd., Îro temam recipe beden a hevseng tune ...
Li ser pirsa diduyan, ya di derbarê layout naverok, çareserkirina tengasiyê. in û bernameyên taybet û algorîtmayên bikaranîn ji bo Pîrozkirina otomatîk ji tekstên hene, lê ew jî di encama temam ne bidin, dikarin qutbûnên bibe û pêwîstî bi rework manual. Derfetên xwe û dijwarîyên li mijûlbûna bi vê pirsgirêkê bi berfirehî di rojnameya V. P. Zaharova zimannasiyê corpus ravekirin.
markup Text is de li gelek astan de, ku em ji lîsteya li jêr pêkanîn.
Zazakî peyvsazî
Ji dibistanê, em bînin bîra xwe ku bi zimanê Rûsî, ne cihên cuda yên axaftina li wir, û her yek ji wan, taybetiyên xwe bi xwe. Ji bo nimûne, di lêkerê de heye kategoriyên û meyl û dema ku tu noun. peyivdarekî zimanê zikmakî bê tirs û bêşiyan Rengdêr û Lêker conjugate, di heman demê de bi helkefta beden ji 100 milyon. nîşanekan kar manual xebata wê ne. Hemû operasyonên pêwîst dikarin komputera birêvebirin, lê belê, ji bo vê jî divê bê fêrkirin.
Zazakî peyvsazî, ku divê komputerê "fêm" her peyva ku hinek ji axaftina ku taybetmendiyên rêzimanî hin. Ji ber ku Russian (û tu zimanekî din) binasin hejmarek ji qaîdeyên nîzamî jî, pêkan e ji bo avakirina ûsila otomatîk ji bo analîza peyvsazî, veberhênana di erebeyê de ji bo hejmarek ji algorîtmayên. Lê belê, ne istisna bi serwerî, herweha faktorên cuda tevlihev hene. Di encama çalakiyê de, analîzên dibe net ji îro dûr e ji îdeal, û heta 4 error% semereya a value of 4 mln. Words li ser cesedê 100 milyon. Yekîneyên, pêwîst rework manual.
pirtûka fireh pirsgirêka Zaharova V. P. "Corpus Linguistics" de rave dike.
jêrenot sîntaktîk de
Parsing, an parsing - prosedureke ku têkiliya peyvên di hevokê kifş dike. Bikaranîna set of algorîtmayên ji bo destnîşankirina text ên mijarê, pêveber, additions, da dixne piralî yên axaftina gengaz e. Find out ku peyvên in de cihekê sereke, û ku - girêdayî, em bi bandor dikarin derxe agahî ji text û hîn makîne ji bo wê yekê li bersiva daxwaza lêgerîn tenê agahiyên balkêş me.
Di vê navê de, motorên lêgerînê yên modern bi kar tînin ev bidin hejmarên taybetî li şûna tekstên dirêj li bersiva pirsên têkildar yên wekî "çawa gelek kalorî li sêvê" an jî "ji dûr ve ji Moskowê ji bo St. Petersburg." Lê belê, ji bo fêm heta perjewendiya ya pêvajoya ji aliyê pêwîstiya serî li "Introduction to the Corpus Linguistics" an din tutorial bingehîn.
Cuneytewrares (semantic)
The xwebêj ji peyva - e, di warê sade, ku wate. nêzîkatiya berfireh ya bo semantic analysis of a tags peyva Attribution, rengê ku mensûbê xwe ji bo danîna hin kategorî semantîk û binkategorî hene. Agahiyeke wisa ji bo optîmîzekirin algorîtmayên analîz û awazek text, summarization otomatîk û karên din jî bi rêbazên zimannasiyê corpus bi qîmet e.
in a hejmara "root" ji dara, nûnerên an peyva razber bi xwebêj pir fireh hene. Wek şaxekî hucûma dara li ava bi, dihewînin, zêdetir û taybet zêdetir hêmanên sazí. Ji bo nimûne, peyva "heyberên" dikare were bi têgihên wek "mirovan" û "animal" re têkildar. Ew gotina ku pêşî dê berdewam bike û ji şaxa ji nav pîşeyên cuda, ji alî xizmatî, netew, û ya duyem jî - li ser çînên û cureyên heywanên.
Bikaranîna sîstemên Goggle de agahî
Herêmên yên bikaranîna linguistics corpus cover qadên cur bi cur ên activity. Malên bi ji bo amade û correction ferhengên bikaranîn, avakirina sîstemên werger xweber de, binxêzkirin, hercar facts, diyarker deng û din processing text.
Li gel vê, çavkaniyên wisa bi awayekî çalak di nava xebatê de yên zimanan û mekanîzmayên ji bo birêveçûna zimanê di giştî dinyayê tê bikaranîn. Access to cildên mezin yên agahî pre-amade asankariyê bo lêkolînê bi lez û berfireh a bêyûm yên zimanan pêşketina, û guhertina neologisms damezrandina stabîl speed axaftina bi nirxên yekîneyên néwanyanda û yên din.
Ji ber ku xebatên bi vî rengî mîqdarên mezin yên welat pêwîstî bi automation, îro ye interaction nêzîk di navbera dibe û corpus di warê hene.
Russian, weledzina,
Ev doz (kurtkirin NKRYA) de hejmarek ji subcorpus, rê dide bikaranîna çavkaniyên ji bo ên cîhêreng erkên.
Materyalên ku di nav HTMLê da heye bi dabeş NKRYA:
- ji weşanên di salên 90'î de û 2000an de di medyayê de ', hem navxweyî û derve;
- Qeydkirina axaftina;
- aktsentologicheski nîşankirin tekstên (i.e., daxa stress);
- axaftina zaravayê;
- helbest;
- Materyalên bi qaydeyên û markên din.
Sîstema agahî jî di nav de Subcorpus bi dikarî wergerên di paralel ji karên ji Russian nav English, German, French û gelek zimanên din jî (û tênegihiştina).
Jî di nav HTMLê da heye e beşekî ji tekstên dîrokî, him jî bi axaftina nivîsîn di Russian de di demên cuda de ji bo pêşketina wê heye. e jî bedena perwerde, ku dikare li pile bi zimanê Rûsî be ji bo welatiyên biyanî kêrhatî hene.
Russian, weledzina, ji zekata 400 milyon yekîneyên wushe, û bi gelek awayan, li pêşiya beşekî giring ên zimanên ku ji cenazeyên Ewropa.
perspektîvên
Rastiyê de di berjewendiya naskirina vê meyla hebûna soz laboratorê de linguistics corpus di zanîngehan de Russian, herweha ji derve ye. Bi bikaranîna û lêkolîn di çarçoveya vê agahî û lêgerîn çavkaniyên wateya pêşketina hin deverên di warê teknolojîyên bilind, sîstemên pirs-bersîv, di heman demê de ku li jor nîqaşkirin.
zêdetir pêşxistina zimannasiyê corpus li hemû astan de pêşbînî dike, çi ji teknîkî û di warê pêkanîna algorîtmayên nû ku optimize ji bo pêvajoya lêgerînê û muamelekirina agahdarîyên, hêz komputeran, RAM zêdetir, û ji bo xerîdaran de, ji ber ku bikarhênerên bi awayên bêtir û bêtir ji bo bikaranîna vê type of çavkaniyê di wan ya rojane jiyan û kar.
di encamê de
Di nîvê dawî ji sedsala di sala 2017 de xuya pêşeroja dûr, cihê ku spaceships bi rêya gerdûnê, geryan û robotan hemû xebatên ji bo gelê. Di rastiyê de, zanistî yê giştgîr û bi "deqên spî" û çêkirina hewldanên bêhêvî bersiva pirsan de ji mirovan re ji bo sedsalan aciz e. Pirs birêveçûna zimanê here dagirkirina cihê rûmetê, û kabîneya û computational linguistics dikare alîkariya me bike û ji wan re bêjin.
Processing ji komên datayan mezin dikarin qalibên durustî, berê nedikarîbû, pêşbînî pêşketina taybetmendiyên zimanê taybetî ji bo wan bişopîne damezrandina gotinên di dema hema hema rast.
Li ser asta pratîkî de, di Kopiyek global tê dîtin, ji bo nimûne, wek alaveke potansiyela ji bo nirxandina mood giştî - înternetê a tim ewe bingehê nivîsên cuda rojane tên afirandin ji aliyê bikarhênerên rast e: ev comments û reviews, û gotar, û gelek awayên din ên derbirînê.
Li gel vê, kar bi bedenên dê têkarî bide pêşxistina hardware heman, ku di destê Goggle de agahî bibin, em bi xizmeta "Google" an "Yandex" de, werger, makîne, ferhengên elektronîk nas in.
Em bi göman dikarin biparastana ku linguistics corpus de jî bi tenê ji gavên yekem, û di demeke nêzîk de bi şahiyeke wê.
Similar articles
Trending Now