Bilgisayar Çağında Dil

Efsunkar · 1 Kas 2011

Bilgisayarların, sadece endüstriyel toplumun diğer ürünleri gibi bir ürün olmadığını kabul etmeliyiz. Bilgisayarlar, insanların fiziksel ve duyusal (sensory) kapasitelerini arttıran otomobiller, kameralar ya da telefonlar gibi değildir. Bilgisayarlar, bilgi işletim sistemleridir. Bilgisayarlar sembolleri kullanır ve bu açıdan temel özelliği düşünmek olan insanlara benzer. Bilgisayarlarda bizimkinden farklı, yeni bir tür zeka vardır ve bu zeka bazı açılardan bizimkinden daha güçlü, bazı açılardan da daha sınırlıdır.. Bilgisayar devrimini yakalamak, kendimize mal etmek ve bütün insanlığın iyiliği için kullanıma sunmak, bizim neslimiz açısından bir şanstır.

Heinz R. Pagels, Introduction, Annals of the New York Academy of Sciences, 1984.

İleri düzeyde bir bilgi işletim sistemi, Japonca, İngilizce ve diğer doğal dilleri de işleyebilmelidir. Bu, yapay zekanın (artificial intelligence) temel meselelerinden biridir ve aynı zamanda bir dilbilim alanıdır: Kuramsal dilbilim ve bilgisayarlar arasında derin bağlantılar vardır.

Kazuhiro Fuchi, Fifth Generation Computers: Some Theoretical Issues, Annals of the New York Academy of Sciences, Vol.426,1984

Tarih boyunca sadece insanoğlu dili işleyip geliştirme yeteneğine sahip olmuştur. Bugün dili işleyip geliştirmek bilgisayarlar için de olağan bir durumdur. Bilgisayarlı Dilbilim (Computational Linguistics), dilbilimin ve insan dilinin bilgisayarda işlenmesiyle (processing) uğraşan bilgisayar biliminin bir alt dalıdır. Bilgisayarlı dilbilim, bir dilden diğer bir dile otomatik çeviri, yazılı metinlerin ve sözlü söylemin (spoken discourse) analizi, dilin bilgisayarlar ve insanlar arasında iletişim kurmak için kullanılması, dilbilim kuramlarının bilgisayara uyarlanması ve yapay zekada insan dilinin rolü gibi konularla ilgilenir.

Otomatik Çeviri

Bilgisayarların doğal dilin işlenmesinde (processing) kullanılması ilk defa 1940larda otomatik çeviri girişimiyle başladı. İkinci Dünya Savaşı sırasında Amerikalı bilim adamları, bilgisayar yardımı olmaksızın, Japonların askerî haberleşme kodlarını deşifre ettiler ve çetin dil problemleriyle baş etme konusundaki hünerlerini kanıtladılar. Bir dilden başka bir dile çeviri yaparken deşifre etme tekniklerini kullanma fikri, bilgisayarlı dilbilim alanında öncü sayılan Warren Weaver tarafından Norbert Wienere yazılan bir mektupta ifade edilmiştir: Herhangi bir Rusça makaleye göz attığım zaman şöyle düşünüyorum: Bu gerçekten İngilizce yazılmış ancak bazı tuhaf sembollerle kodlanmış. Ben şimdi bu kodları çözmeye koyulacağım.

Otomatik çeviride amaç, bilgisayarı kaynak dilde (source language) yazılmış bir metinle beslemek (feed) ve bu metnin hedef dildeki (target language) anlamına denk olan, dilbilgisi kurallarına uygun bir metin elde etmektir. Otomatik çevirinin ilk zamanlarında, bir bilgisayarın belleğine kaynak dilin sözlüğünü ve buna karşılık gelen morfemlerin ve kelimelerin yer aldığı hedef dilin sözlüğünü girerek bu işin başarılamayacağına inanılıyordu. Nitekim bu çeviri programı, girişi yapılan cümlelerin morfemlerinin hedef dildekilerle eşleştirilmesi şeklindeydi ve pek başarılı olamamıştı.

Çeviri, kelime değiş-tokuşundan ibaret değildir. Çoğunlukla kelimenin hedef dilde tam bir karşılığı yoktur; ayrıca tıpkı özne-yüklem-nesne kuruluşuna sahip İngilizceden, özne-nesne-yüklem kuruluşuna sahip Japoncaya çeviri yaparken olduğu gibi kelimelerin dizilişi de farklı olabilir. Bununla birlikte deyim, istiare, jargon vb.nin çevrilmesinde de zorluklar vardır.

Bütün bu sorunlarla uğraşmak insan çevirmenlerin işidir çünkü onlar her iki dilin gramerini de bilirler ve konu hakkındaki genel bilgilerden faydalanırlar. Otomatik çeviride çoğunlukla sözlüksel (lexical) ve sözdizimsel (syntactic) belirsizlikler, iki dil arasındaki yapısal farklılıklar, biçimbilimsel (morphological) zorluklar ve diğer dilsel farklılıklardan kaynaklanan sorunlarla karşılaşılır. Aslında insanların yaptığı çevirilerde bile iyi bir netice elde etmek zordur. Mesela İngilizce konuşulmayan ülkelerde, turistlere yardım etmek için yapılan çevirilerde komik ve saçma şeyler ortaya çıkabilmektedir (Bulgaristandaki bir lokantada görülen nervous meatballs (asabî köfteler) çevirisi gibi).
Otomatik çeviride kelime seçimi önemsiz bir sorundur. Sözdizimsel (syntactic) sorunlar daha önemlidir ve çözülmesi zordur.

Geçen kırk yıl boyunca, sözdiziminin sahip olduğu önemin anlaşılması ve dilsel kuralların uygulanması sayesinde bilgisayarların İngilizce ve Rusça gibi üzerinde çokça çalışılmış diller arasında basit metinleri dilbilgisi kurallarına uygun ve eksiksiz olarak çevirmesi mümkün olmuştur. Daha karmaşık metinlerin çevirisinde ise, eğer çevirinin dilbilgisel ve anlambilimsel açıdan doğru ve güvenilir olması isteniyorsa, insan müdahalesine ihtiyaç duyulur. Bilgisayarlar tarafından yapılan çeviri zamanla daha verimli hale gelebilir ancak bir gezginin taşınabilir çeviri makinasını gittiği yerdeki birinin ağzına tutup da kendi dilinde bir çeviri alacağı günler çok uzak görünmektedir.

Metnin İşlenmesi (Text Processing)

Bilgisayarlar, dilin istatistiksel analizi için de kullanılabilir: Mesela bir bilgisayar, seslerin dağılımı, kelimelerin dizilişi, kelimelerin ve morfemlerin kullanım sıklığı vb. gibi dil özelliklerini açığa çıkarmak için programlanabilir.

Bu tür analizler, mevcut olan metinlere de ( mesela Shakespearedeki ya da İncildeki kelimelere) uygulanabilir. Ayrıca yazılı ya da sözlü kaynaklardan toplanmış sözcelerden (utterance) oluşan bir corpus da oluşturulabilir. Nitekim böyle bir corpus, Brown Üniversitesi tarafından oluşturulmuştur ve içerisinde Amerikan İngilizcesiyle yazılmış on beş kaynaktan derlenen (bunların içinde günlük gazeteler, dergiler ve edebi eserlerden parçalar da vardır) bir milyondan fazla kelime vardır. Bu corpus, bilgisayarda kullanılabildiği için birçok araştırmacı bundan faydalanabilmektedir.

Bir bilgisayar, edebi bir metinde geçen her kelimenin kullanım sıklığı, geçtiği satır ve sayfa numarasını veren bir dizin (concordance) oluşturmak için de kullanılabilir. Bu tür analizler, eskiden büyük zahmetlerle ve sadece belirli metinler (mesela İncil) için yapılıyordu. Ancak günümüzde böyle bir dizin, bilgisayara girişi yapılan herhangi bir metin için kısa sürede oluşturulabilir.
Şiir ve düzyazıyla ilgili olan asonans, aliterasyon, vezin ve ritm gibi konular, edebiyat araştırmacıları tarafından her zaman incelenmiştir. Bugün ise, bu tür zahmetli analizleri bilgisayarlar yapabilmektedir ve böylece insanlara yeni fikirler üretmek için daha fazla zaman kalmaktadır.

Konuşan ve İşiten Bilgisayarlar

İdeal bir bilgisayar çok dillidir (multilingual) yani FORTRAN gibi bir bilgisayar dilini ve İngilizce gibi bir insan dilini konuşmalıdır. Bilgisayarlarla, tıpkı diğer insanlarla olduğu gibi iletişim kurabilseydik, bu birçok açıdan faydalı olurdu ancak filmlerde ve televizyonlarda betimlendiği gibi konuşma ve anlama yeteneğine sahip bilgisayarlar henüz mevcut değildir.

Günümüzdeki bilgisayarlar sözlü dili anlama ve söz üretme kabiliyeti açısından oldukça sınırlıdır ve bilgisayarları bunu gerçekleştirecek şekilde programlamak bilgisayarlı dilbilimin ulaşılması en zor hedeflerinden biridir. Bir bilgisayar, uygun bir şekilde programlandığında, oldukça sınırlı bir bağlam içerisinde (basit bir sentaks ve sınırlı bir semantik alan içerisinde) 100le 1000 arasında değişen bir kelime dağarcığından oluşan dil parçalarını (fragment) anlayabilir. (Bu kelime dağarcığı yazılı dilde daha fazla sayıda olabilir) Bilgisayarlar insan sesini oldukça iyi taklit eden sentetik konuşmalar da üretebilirler ancak bunun için bilgisayarları bu yönde programlamak ve ne yapacaklarını söylemek gerekir.
Nasıl ki insanların söz üretmesi ve anlaması (aynı zihinsel grameri esas aldıkları halde) içinde bulundukları psikolojik mekanizmalara göre değişiyorsa, bilgisayarların söz üretmesi ve anlaması da tamamen farklı programların kullanılmasını gerektirir.

Bilgisayarın anlaması; sözün tanınması, seslerin ve kelimelerin algılanması, sözün anlaşılması ve tanınan kelimelerin yorumlanmasını içerir.
Bilgisayarın söz üretmesi ise, dilin oluşturulmasını -ne söyleyeceğine karar verme- ve seslerin fiilen yaratılması yani söz bireşimini (synthesis) içerir. Çeşitli araştırma grupları, bilgisayarın sözü anlamasına ve üretmesine farklı amaçlarla yaklaşarak, konunun belirli kısımlara odaklanmaktadır.

Bilgisayarda Uygulanan Gramer Modelleri

Bilgisayarlar tarafından kelime ve cümleleri incelemek için kullanılan gramerler, dilbilimcilerin insan dilleri için ortaya koyduğu gramer modellerine pek benzemez. Bilgisayarlar insanlardan farklıdır. Bilgisayarlar, benzer amaçlara farklı şekillerde ulaşırlar. Nasıl ki uçaklar kuşların birebir kopyası değilse, bilgisayarların kullandığı gramerler de her ayrıntıda insanların kullandığına birebir uymaz.

Bilgisayarlar çoğunlukla fiziksel ve biyolojik sistemlere model oluşturacak şekilde kullanılır ve böylece araştırmacıların bu sistemleri daha güvenli ve bazen de daha ekonomik şekilde araştırabilmesi mümkün olur. Mesela bir uçağın simülatörü yapılabilir ve test pilotu sanki gerçek bir uçuştaymış gibi bilgilendirilebilir.

Bilgisayarlar, gramer modeli oluşturmak için de programlanabilir. Eksiksiz bir gramer, dildeki bütün cümleleri üretebilmelidir. Gramer kurallarına uygun bir cümle kuramamak, bir kusur (bug) olarak değerlendirilir çünkü insan zihni mümkün olan bütün gramatikal cümleleri üretme kapasitesine sahiptir.

1960 yılında bir bilgisayar bilimcisi olan Joyce Friedman tarafından bilgisayarlı bir gramer modeli geliştirildi. Amaç U.C.L.A.daki sözdizimcilerin hazırladığı İngilizcenin üretici (generative) gramerini test etmekti. Günümüzde bilgisayarlı dilbilimle uğraşanlar, bir dildeki cümleleri üretmek ve insanların bunları tahlil ediş şeklinin bir benzerini (simulator) yapmak için bilgisayar programları geliştirmektedir. Ed Stabler, Robert Berwick, Amy Weinberg ve Mark Johnson gibi araştırmacılar tarafından geliştirilen bilgisayar modelleri göstermektedir ki, prensipte, dönüşümsel (transformative) bir gramer kullanmak mümkündür ancak insan dilinin bu şekilde işleyip işlemediği de hala tartışma konusudur.
________________________________________
[1] Bu yazı, Victoria Fromkin ve Robert Rodmanın An Introduction to Language isimli kitabından kısaltılarak çevrilmiştir. Bkz. Fromkin, Victoria ve Rodman, Robert, An Introduction to Language, Harcourt Brace Jonanovich College Publishers, New York, 1993, ss. 470-492

Çeviren: Bahar Dervişcemaloğlu

Bilgisayar Çağında Dil

Efsunkar

Gizliliğinize değer veriyoruz