Transliteration with Finite State Machines

Since transliteration is a monotone process without reordering, finite state machines have been used in early work.

Transliteration With FSM is the main subject of 9 publications. 8 are discussed here.

Topics in Transliteration

Transliteration With FSM | Transliteration With Other Methods | Forward Transliteration | Transliteration Training Data | Integrating Transliteration

Topics in LinguisticProblems

Publications

Kevin Knight and Jonathan Graehl (1997): Machine Transliteration, Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics (ACL)

Knight and Graehl (1997) present a model that maps between letters and phoneme representations. Such models may be extended by using a larger Markov window during mappings, i.e. using a larger context

Sung Young Jung and SungLim Hong and Eunok Paek (2000): An English to Korean Transliteration Model of Extended Markov Window, Proceedings of the International Conference on Computational Linguistics (COLING)

(Jung et al., 2000).

Charles Schafer (2006): Novel Probabilistic Finite-State Transducers for Cognate and Transliteration Modeling, 5th Conference of the Association for Machine Translation in the Americas (AMTA)

Schafer (2006) compares a number of different finite state transducer architectures. For closely related language pairs, such as Hindi–Urdu, deterministic finite state machines may suffice

Malik, M. G. Abbas and Boitet, Christian and Bhattacharyya, Pushpak (2008): Hindi Urdu Machine Transliteration using Finite-State Transducers, Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)

(Malik et al., 2008).

Transliteration may use either phonetic representation to match characters of different writing systems

Kevin Knight and Jonathan Graehl (1997): Machine Transliteration, Computational Linguistics

(Knight and Graehl, 1997) or map characters directly

Zhang, Min and Li, Haizhou and Su, Jian (2004): Direct Orthographical Mapping for Machine Transliteration , Proceedings of Coling 2004

(Zhang et al., 2004). Phoneme and grapheme information may be combined

Bilac, Slaven and Tanaka, Hozumi (2004): A hybrid back-transliteration system for Japanese , Proceedings of Coling 2004

(Bilac and Tanaka, 2004). Given small training corpora, using phonetic representations may be more robust

Yoon, Su-Youn and Kim, Kyoung-Young and Sproat, Richard (2007): Multilingual Transliteration Using Feature based Phonetic Method, Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics

mentioned in Transliteration With FSM and Transliteration Training Data

(Yoon et al., 2007).

Benchmarks

Discussion

New Publications

Knight, Kevin (2009): Automata for Transliteration and Machine Translation, Proceedings of the 2009 Named Entities Workshop: Shared Task on Transliteration (NEWS 2009)
add
@InProceedings{knight:2009:NEWS,
author = {Knight, Kevin},
title = {Automata for Transliteration and Machine Translation},
booktitle = {Proceedings of the 2009 Named Entities Workshop: Shared Task on Transliteration (NEWS 2009)},
month = {August},
address = {Suntec, Singapore},
publisher = {Association for Computational Linguistics},
pages = {27},
url = {http://www.aclweb.org/anthology/W/W09/W09-3503},
year = 2009
}
Knight (2009)

MT Research Survey Wiki

A Comprehensive Survey of Neural and Statistical Machine Translation Research Publications

Search Descriptions

Transliteration with Finite State Machines

Publications

Benchmarks

Discussion

Related Topics

New Publications