Efnisyfirlit hjálparsíðu


0 Inngangur

GLOSSA er notendaviðmót fyrir fyrirspurnarnmálið CWB (corpus query engine). GLOSSA er samið við Tekstlaboratoriet við Háskólann í Osló. Fyrirspurnarmálið CWB kemur frá háskólanum í Stuttgart og er sérstaklega samið fyrir flókna leit í mörkuðum málheildum.

GLOSSA var lagað að íslenskum málheildum við Stofnun Árna Magnússonar í íslenskum fræðum sumarið 2010 að mestu fyrir styrk frá Nýsköpunarsjóði námsmanna.

Þegar notendaviðmótið var þróað var leitast við að hafa það sveigjanlegt og aðgengilegt. Þessi tvö markmið eru þó ekki alltaf samrýmanleg. Grípa þurfti til málamiðlana sem urðu til þess að notandinn getur ekki nýtt sér alla möguleika CWB-leitarmálsins. Þess vegna hefur notandinn kost á því að nýta sérstakt viðmót þar sem gefa má beint CWB-leitarskipanir en nýta samt mögulega GLOSSA fyrir skoðun og eftirvinnslu á niðurstöðum. Þessi kostur mun aðeins vera nauðsynlegur fyrir mjög flóknar fyrirspurnir.

Guðmundur Örn Leifsson lagaði leitarviðmótið að íslenskum málheildum. Vinsamlegast beinið fyrirspurnum til sigruhel@hi.is.


0.1 Kerfiskröfur

Nota má vefsjárnar Firefox, Opera og Internet Explorer fyrir leitarkerfið. Internet Explorer fyrir Apple-tölvur virkar þó ekki.


1 Um leitarsíðuna

Á þessari leitarsíðu gefst kostur á að leita í Markaðri íslenskri málheild (MÍM) og textum Íslenskrar Orðtíðnibókar (hér vantar tengil). Aðeins er veittur leitaraðgangur að þeim textum Orðtíðnibókarinar sem leyfi hefur fengist til að nota. Aðgangur verður veittur að fleiri málheildum eftir því sem tilefni gefast til (t.d. talmálssöfnum og fornritum).
Vinstra megin í gráu röndinni má velja málheild. Heiti þeirrar málheildar sem er valin er birt með stærra letri.


1.1 Leitarvalmynd

Fyrir neðan gráa borðann er rammi þar sem leitin er skilgreind. Leitarorð má slá inn í textareitinn. Þó er það ekki nauðsynlegt. Þegar bendlinum er haldið yfir Leitarval fæst listi yfir þá leitarmöguleika sem eru í boði (1. á myndinni að neðan). Efst í listanum er orð og þar undir eru valmöguleikar sem lúta að orðinu sem er ritað í textareitinn (2. á myndinni að neðan). Næst kemur Orðflokkur þar sem valið er um hvaða orðflokk (no., so., lo. o.s.frv.) notandinn vill skorða leitina við. Hverjum orðflokki fylgja fleiri valmöguleikar sem eiga aðeins við þann orðflokk. Fyrir neðan valið Orðflokkur í valmyndinni má velja eiginleika sem eru sameiginlegir tveimur eða fleiri orðflokkum. Neðst sjáum við Fjöldi endurtekninga þar sem hægt er að velja hvort og hversu oft það sem við leitum að komi fram í leitinni.

Hægt er að útiloka flesta valkosti í leitinni. Útilokunin er fundin undir þeim valkosti sem á að útiloka.

Leit er sett af stað með því að smella á Leita.


1.

2. Með því að halda músinni kyrri fyrir
ofan val kemur fram undirvalmynd

3. Sumum flokkum geta fylgt margar undirvalmyndir

1.2 Loka leitarglugga

Þegar leit er sett í gang opnast nýr gluggi eða flipi með niðurstöðum leitarinnar. Eingöngu þarf að loka þeim glugga til þess að komast aftur í leitarvalmynd.

Hægt er að loka leitarglugganum með því að ýta á X - loka eða krossinn efst í hægra horni.


1. Hægt er að loka glugganum

2. Með því að smella á x-ið

3. Leitarniðurstöðurnar birtast í sérstökum glugga

1.3 Hreinsa leitarvalmynd

Hreinsa má fyrri leitarorð og val á þrennan hátt:
  1. Tvísmella á hvert val.
  2. Smella á endurglæða í vefsjánni.
  3. Smella á Hreinsa-hnappinn á upphafssíðu.


1. Tvísmella á valið til þess að fjarlægja það

2. Endurglæða alla síðuna

3. Hreinsa allt sem hefur verið slegið inn og valið

2 Almenn leit í einmála málheildum

Hér fyrir neðan eru sýnd dæmi og gefnar leiðbeiningar um leit í einmála málheildum.


2.1 Einfalt dæmi um leit

Leita skal að öllum orðum sem t.d. byrja á «apa». Fyrst er «apa» slegið inn sem leitarorð í textareitinn. Næst er farið í Leitarval -> orð -> upphaf orðs. Síðan er smellt á Leita eða færsluhnappinn (Enter/return) á hnappaborðinu. Þá birtist nýr gluggi með leitarniðurstöðunum. Þeim glugga má loka og leita að nýju.


1. Svona lítur valmyndin út

2. Slá «apa» í textareitinn og velja upphaf orðs

3. Smella á Leita

4. Niðurstöður!

2.2 Leitarval

Hér fyrir neðan er lýsing á valkostum sem fylgja orðum sem eru slegin inn í textareitinn. Ekki er nauðsynlegt að slá inn orð í textareitinn. Þeir valkostir sem eru valdir segja til um hvers konar orðum leitin nær til.


2.2.1 Valkostir með orðum

Ef bendlinum er haldið yfir orð í leitarvalmyndinni má velja nokkra valkosti. Ef tiltekinn valkostur er valinn birtist hann fyrir neðan Leitarval eða það sem þegar hefur verið valið. Til þess að fjarlægja valkost er tvísmellt á hann. Þessir valkostir eru í boði:


2.2.1.1 Nefnimynd

Ef «hestur» er slegið inn í textareitinn og nefnimynd valið, skilar leitin öllum myndum af orðinu «hestur» (öll föll eintölu og fleirtölu, með og án greinis).


2.2.1.2 Upphaf orðs

Ef «apa» er slegið inn í textareitinn og upphaf orðs valið skilar leitin öllum orðum sem hefjast á «apa», t.d. «apanna» og «apakött».


2.2.1.3 Endir orðs

Ef «vari» er slegið inn í textareitinn og endir orðs valið skilar leitin öllum orðum sem enda á «vari», t.d. «söngvari» og «forsvari».


2.2.1.4 Í miðju orði

Ef «hugs» er slegið inn í texareitinn og í miðju orði valið skilar leitin öllum orðum þar sem «hugs» er inni í orði, t.d. «óhugsandi» og «tilhugsun».


2.2.1.5 Hástafanæmt


Ef slegið er inn «sog» í textareitinn og leitað finnst bæði «sog» og «Sog». Ef hástafanæmt er valið finnst aðeins «sog».


2.2.1.6 Útiloka orð


Leitin skilar ekki textastrengjum þar sem orðið í textareitnum kemur fyrir.


2.2.1.7 Aukaorð (+orð)

Ef smellt er á +orð kemur upp skjöldur með textareit þar sem má slá inn orðmynd eða nefnimynd. Tökum sem dæmi að slegið hafi verið inn «köttur» í upphaflega textareitinn. Síðan er slegið inn «hundur» í þennan reit og síðan smellt á OK. Þegar smellt er á Leita er leitað að orðasamböndum þar sem annað hvort «köttur» eða «hundur» kemur fyrir.


2.2.1.8 Útiloka aukaorð

Þegar bendlinum er haldið yfir +orð sést líka útiloka orð. Ef sá valkostur er valinn má útiloka tiltekið orð frá leitinni. Tökum sem dæmi að í aðalleit sé valið að leita að samtengingum. Þá má velja að útiloka aukaorð og slá þar inn «sem». Leitin skilar þá öllum dæmum með samtengingum nema þar sem «sem» kemur fyrir.

2.2.2 Orðflokkar

Fyrir neðan orð undir Orðflokkar má velja orðflokka sem leitin takmarkast þá við. Hverjum orðflokki fylgir sérstök fellivalmynd með atriðum sem eiga aðeins við þann orðflokk. Önnur atriði sem eru sameiginleg tveimur eða fleiri orðflokkum eru neðar í valmyndinni. Þessa orðflokka má velja:


2.2.2.1 Nafnorð

Með því að velja nafnorð er leitin takmörkuð við nafnorð. Einnig má útiloka nafnorð frá leitinni með því að velja útiloka úr undirvalmyndinni. Úr undirvalmyndinni má einnig velja viðskeyttur greinir eða útiloka viðskeyttan greini og einnig má velja sérnafn. Með því að velja viðskeyttur greinir er leitin einskorðuð við nafnorð með viðskeyttum greini og með því að velja sérnafn takmarkast leitin við sérnöfn. Í greiningu á textum Íslenskrar orðtíðnibókar eru sérnöfn greind sem mannanöfn, örnefni eða önnur sérnöfn. Þessi greinarmunur er ekki gerður í greiningu á textum í Markaðri íslenskri málheild. Önnur atriði (kyn, tala og fall) eru sameginleg öðrum orðflokkum og koma fyrir neðar í fellivalmyndinni.


2.2.2.2 Lýsingarorð

Með því að velja lýsingarorð er leitin takmörkuð við lýsingarorð. Einnig má útiloka lýsingarorð frá leitinni með því að velja útiloka úr undirvalmyndinni. Úr undirvalmyndinni má einnig velja sterk beyging eða útiloka sterka beygingu. Einnig má velja veik beyging eða útiloka veika beygingu og óbeygt eða útiloka óbeygð lýsingarorð. Með því að velja sterk beyging er leitin einskorðuð við lýsingarorð sem hafa sterka beygingu, með því að velja veik beyging er leitin einskorðuð við lýsingarorð sem hafa veika beygingu, með því að velja óbeygt er leitin einskorðuð við óbeygð lýsingarorð. Önnur atriði (stig, kyn, tala og fall) eru sameiginleg öðrum orðflokkum og koma fyrir neðar í fellivalmyndinni.


2.2.2.3 Fornöfn

Með því að velja fornöfn er leitin takmörkuð við fornöfn. Einnig má útiloka fornöfn frá leitinni með því að velja útiloka úr undirvalmyndinni. Úr undirvalmyndinni má einnig velja tegund fornafns (persónufornafn, eignarfornafn, ábendingarfornafn, óakveðið ábendingarfornafn, óakveðið fornafn, spurnarfornafn eða tilvísunarfornafn). Önnur atriði (persóna, kyn, tala og fall) eru sameiginleg öðrum orðflokkum og koma fyrir neðar í fellivalmyndinni.


2.2.2.4 Greinir

Með því að velja greinir er leitin takmörkuð við lausan greini. Einnig má útiloka lausan greini frá leitinni með því að velja útiloka úr undirvalmyndinni. Önnur atriði (kyn, tala og fall) eru sameiginleg öðrum orðflokkum og koma fyrir neðar í fellivalmyndinni.


2.2.2.5 Töluorð

Með því að velja töluorð er leitin takmörkuð við töluorð. Einnig má útiloka töluorð frá leitinni með því að velja útiloka úr undirvalmyndinni. Úr undirvalmyndinni má velja frumtölur sem beygjast í kyni, tölu og falli, fjöldatölur sem standa framan við töluorðin «hundrað» og «þúsund», tölur sem geta verið ártöl, númer og fleiri óbeygjanlegar tölur og prósentur.

Með því að velja töluorð er leitin takmörkuð við töluorð. Einnig má útiloka töluorð frá leitinni með því að velja útiloka úr undirvalmyndinni.


2.2.2.6 Sagnorð

Með því að velja sagnorð er leitin takmörkuð við sagnorð. Einnig má útiloka sagnorð frá leitinni með því að velja útiloka úr undirvalmyndinni. Úr undirvalmyndinni má velja mynd (germynd og miðmynd), tíð (nútíð og þátíð) og hátt ( nafnháttur, boðháttur, framsöguháttur, sagnbót, lýsingarháttur nútíðar og lýsingarháttur þátíðar). Önnur atriði (persóna, kyn, tala og fall) eru sameiginleg öðrum orðflokkum og koma fyrir neðar í valmyndinni.


2.2.2.7 Atviksorð

Með því að velja atviksorð er leitin takmörkuð við atviksorð. Einnig má útiloka atviksorð frá leitinni með því að velja útiloka úr undirvalmyndinni.

2.2.2.8 Forsetningar

Með því að velja forsetningar er leitin takmörkuð við forsetningar. Einnig má útiloka forsetningar frá leitinni með því að velja útiloka úr undirvalmyndinni. Úr undirvalmyndinni má velja forsetningar sem stýra þolfalli, þágufalli eða eignarfalli.


2.2.2.9 Upphrópanir

Með því að velja upphrópanir er leitin takmörkuð við upphrópanir. Einnig má útiloka upphrópanir frá leitinni með því að velja útiloka úr undirvalmyndinni.


2.2.2.10 Samtengingar

Með því að velja samtengingar er leitin takmörkuð við samtengingar. Einnig má útiloka samtengingar frá leitinni með því að velja útiloka úr undirvalmyndinni. Úr undirvalmyndinni má velja sérstaklega tilvísunartengingar og nafnháttarmerki.


2.2.2.11 Erlend orð

Með því að velja erlend orð er leitin takmörkuð við erlend orð. Einnig má útiloka erlend orð frá leitinni með því að velja útiloka úr undirvalmyndinni.


2.2.3 Fleiri valkostir

Fyrir neðan orðflokkur kemur listi yfir atriði sem eru sameiginleg tveimur eða fleiri orðflokkum. Þessi atriði má velja:


2.2.3.1 Stig

Velja má frumstig, miðstig og efsta stig. Stig getur átt við lýsingarorð og atviksorð.


2.2.3.2 Kyn

Velja má karlkyn, kvenkyn og hvorugkyn. Kyn getur átt við nafnorð, lýsingarorð, fornöfn, greini, frumtölur og lýsingarhátt þátíðar af sögnum.


2.2.3.3 Fall

Velja má nefnifall, þolfall og þágufall og eignarfall. Fall getur átt við nafnorð, lýsingarorð, fornöfn, greini, frumtölur og lýsingarhátt þátíðar af sögnum (nefnifall og þolfall).


2.2.3.4 Tala

Velja má eintalal og fleirtala. Tala getur átt við nafnorð, lýsingarorð, fornöfn, greini, frumtölur og sagnir.


2.2.3.5 Fjöldi endurtekninga

Neðst má velja fjöldi endurtekninga og þar undir má velja 0 eða fleiri, 1 eða fleiri og 0 eða 1. DÆMI: nota dæmi Guðmundar, leita að atviksorði eða lýsingarorði , fjöldi endurtekninga: 1 eða fleiri, + nafnorði, 0 orð á milli.



1. Smella á +orð, leita að prósentu sem hefst á tölustafnum 1

2. 3% slegið inn sem aukaorð

1. hér á að vera texti

2. hér á að vera texti

2.2.4 Bæta við orði

GLOSSA-leitarkerfið gerir notanda kleift að leita að mjög flóknum orðasamböndum. Þetta er gert með því að bæta við textareitum. Einnig má tiltaka hversu mörg ótilgreind orð eru á milli leitarorðanna. Til þess að bæta við textareitum er smellt á Bæta við orði hægra megin við textareitinn. Til þess að fjarlægja textareiti er smellt á Eyða út orði.

Tilgreina má fjarlægð á milli leitarorða sem fjölda ótiltekinni orða á milli þeirra (orð á milli). Tilgreina má bæði lágmarksfjölda (frá) og hámarksfjölda (til) orða. Sjálfgefið gildi er núll fyrir bæði hámarksfjölda og lágmarksfjölda. Boðið er upp á gildin 0,1,2,3,4,5, 10 og 25 í fellivalmynd.

Bæta má við ótilgreindum fjölda orða.

Dæmi: Leita má að nafnorði með greini og lýsingarorði sem fylgir á eftir því þar sem eitt eða tvö orð skilja leitarorðin að.

Search string: "([((ordflokkur="nafnorð") & (greinir="JÁ"))] []{1,2} [((ordflokkur="lýsingarorð"))]) ;"


1. Leita að nafnorði

2. Minnst 1 orð á milli leitarorða, mest 2 orð

3. Fyrra leitarorð er nafnorð með viðskeyttum greini, seinna leitarorð er lýsingarorð

4. Orð á milli leitarorða eru merkt með gulu

2.2.5 Bæta við línu

Stundum getur verið þægilegt að sameina tvær fyrirspurnir í sömu útkomu. Þetta má gera með því að smella á Bæta við leitarlínu. Síðan má fjarlægja leitarlínuna með því að smella á Eyða leitarlínu.

Dæmi: Leita að samböndunum «upp í sveit» og «út á land» í sömu fyrirspurn.


1. hér á að vera texti

2. hér á að vera texti

3. hér á að vera texti

2.3 Fleiri valkostir

Hér verður gerð grein fyrir valkostum sem gilda fyrir alla leitina.


2.3.1 Reglulegar segðir

Reglulegar segðir má slá inn í textareitinn ef menn vilja setja upp flóknari leit en leitarsíðan býður upp á. Þegar notandi skilgreinir leit á leitarsíðunni býr kerfið til samsvarandi reglulega segð og birtir hana á niðurstöðusíðunni. Nánari upplýsingar um leitarmálið má finna hér. Ekki verður að finna nánari leiðbeiningar um reglulegar segðir á þessari hjálparsíðu á næstunni.


2.3.2 Fjöldi niðurstaðna á síðu

Niðurstöðum er skipt niður á síður. Hér má stilla hversu margar línur eru á hverri síðu. Sjálfgefið gildi er 30 línur á síðu. Velja má 20, 40, 50, 100 og 200 línur á síðu.


2.3.3 Hámarksfjöldi niðurstaðna

Seinlegt getur verið að leita að algengum orðum í stórum málheildum. Þess vegna getur verið gott að takmarka fjölda leitarniðurstaðna til þess að stytta leitartímann. Sjálfgefið gildi er 1000 sem ætti að duga í flestum tilvikum. Einnig má velja 500, 2500, 5000, 10000 og 20000. Niðurstöður birtast í tilviljunarkenndri röð. Ef niðurstöður leitar eru fleiri en þetta hámark segir til um mun endurtekin leit ekki gefa sömu niðurstöðu.


2.3.4 Fjöldi orða umhverfis leitarorð

Niðurstöður eru birtar sem hefðbundinn orðstöðulykill. Unnt er að stilla hversu mörg orð birtast til vinstri og hægri við leitarstrenginn. Sjálfgefið gildi er 7 en einnig má velja 0, 4, 10, 15 og 20 orð sem eiga að birtast hvort sem er til vinstri eða hægri við leitarstrenginn.


2.4 Skoða leitarniðurstöður

GLOSSA-kerfið gefur kost á að skoða niðurstöður og vinna frekar úr þeim. Hér á eftir er lýsing á niðurstöðusíðunum og þeim aðgerðum sem boðið er upp á.


2.4.1 Niðurstöðusíður

Niðurstöður birtast sem orðstöðulykill. Leitarstrengurinn sjálfur er feitletraður og til vinstri og hægri við leitarstrenginn eru birt jafn mörg orð og voru tilgreind í leitinni (Fjöldi orða umhverfis leitarorð/vinstri/hægri). Jafnmargar línur birtast á hverri síðu og tilgreindar voru í leitinni (Fjöldi niðurstaðna á síðu). Þegar músin er dregin yfir orðin birtast málfræðilegar upplýsingar um þau.
Á gráa borðanum efst á niðurstöðusíðunni er enn fremur:
  • X - loka, með rauðu letri. Til þess að loka glugganum má smella á þennan tengil eða smella á krossinn efst í hægra horni.
  • Fjöldi niðurstaðna. Þar kemur fram hversu oft leitarstrengurinn fannst í þeim textum sem leitað er í. Ef leitarstrengurinn finnst oftar en hámarksfjöldi niðurstaðna segir til um kemur sú tala fram og jafnframt hversu oft leitarstrengurinn fannst. Dæmi: Leitarstrengur kemur fyrir 120409 sinnum en hámarksfjöldi niðurstaðna er stilltur sem 1000. Þá stendur «Hámarksfjöldi niðurstaðna: 1000 af 120409».
  • Niðurstöður: 1 2 3 4 5...
    Hér eru síður með niðurstöðum. Smella má á númerin til þess að velja síðu. Númer þeirrar síðu sem birtist á skjánum í hvert sinn er með stærra letri.
  • Listi yfir aðgerðir sem vinna frekar úr leitarniðurstöðum.
    • Tíðni
    • Raða
  • Lengst til hægri á gráa borðanum má smella á hjálp og um MÍM.


2.4.1.1 Tíðni

Þegar smellt er á Tíðni kemur upp ný síða þar sem má skilgreina hvers konar tíðnitöflur eru gerðar. Hægra megin á síðunni birtast tvær töflur. Í annarri eru nefnimyndir leitarorðanna taldar og í hinni orðmyndirnar sjálfar. Ef fleiri en eitt orð eru í leitarstreng er notuð nefnimynd hvers orðs þegar nefnimyndir eru taldar. Taka má afrit af þessum töflum í textaritil eða annað forrit.
Tíðnitöflurnar má fá og birta í mismunandi formi. Telja má eftir orðmynd, nefnimynd eða orðflokki. Einnig má telja eftir samblandi af þessum þremur atriðum.
Einnig má stilla hvort gerður er greinarmunur á hástöfum og lágstöfum. Þannig má t.d. gera greinarmun á safnheitinu «hestur» og bæjarnafninu «Hestur».
Tíðnitöfluna má fá sem
  • Töflu í HTML. Töfluna má afrita inn í annað skjal (textaskjal o.s.frv.).
  • (.tsv) Gildi aðgreind með dálkmerki. Niðurstöður fara í sérstaka skrá sem síðan má opna eða vista í tölvu notandans.
  • (.csv) Gildi aðgreind með kommu. Niðurstöður fara í sérstaka skrá sem síðan má opna eða vista í tölvu notandans.
  • (.xls) Excel-reiknivangur. Niðurstöður fara í sérstaka skrá sem síðan má opna eða vista í tölvu notandans.
  • Súlurit (lóðrétt). Niðurstöður birtar sem súlurit þar sem súlur eru lóðréttar.
  • Súlurit. Niðurstöður birtar sem súlurit þar sem súlur eru láréttar.
  • Skífurit. Niðurstöður birtar sem skífurit.
Einnig má afmarka tíðnitöfluna við algengustu leitarstrengina. Það er gert með því að stilla fjölda lína. Sjálfgefið gildi er ∞ sem gefur tíðni fyrir alla leitarstrengina. Einnig má takmarka töfluna við 10, 15, 20 eða 30 línur.


2.4.1.2 Raða

Með þessari aðgerð má hafa áhrif á röð setninga í útkomumenginu. Raða má eftir tveimur atriðum, aðalröðun og aukaröðun. Fyrir hvort atriði sem er má velja að raða eftir:
  • orði á undan leitarstreng, raðað í stafrófsröð
  • leitarstrengnum, raðað í stafrófsröð
  • orði á eftir leitarstreng, raðað í stafrófsröð
  • staðsetningu textanna í textasafninu
  • af handahófi
Þegar raðað er eftir orðum til vinstri eða hægri við leitarstreng eða leitarstrengnum sjálfum má raða eftir orðmynd, orðflokki eða nefnimynd eða samblandi af þessum þremur atriðum.
Þegar raðað er eftir orðum til vinstri eða hægri við leitarstreng er raðað eftir orðinu sem er næst leitarstrengnum. Notandi getur þó valið að raða eftir orði sem er lengra frá leitarorðinu. VIRKAR ÞETTA?


2.5 Bókfræðilegar upplýsingar

Bókfræðilegar upplýsingar um texta eru ekki aðgengilegar enn sem komið er.