Tatoeba
| URL | https://tatoeba.org i https://tatoeba.org/en |
|---|---|
| Tipus | lloc web, base de dades i conjunt de dades de veu |
| Llançament | 2006 |
| Rànquing Alexa | 74.235 (1r desembre 2017) |
| Blog oficial | https://blog.tatoeba.org/ |
Tatoeba és una base de dades lliure d'exemples de frases amb traduccions dirigides a estudiants de segones llengües. Està disponible en més de 400 idiomes. El seu nom prové del terme japonès tatoeba (例えば) , que significa 'per exemple'. Està escrit i mantingut per una comunitat de voluntaris mitjançant un model de col·laboració oberta. Els col·laboradors individuals es coneixen com a "tatoebans". Està gestionat per l'Association Tatoeba, una organització francesa sense ànim de lucre finançada a través de donacions.[1]
Història i desenvolupament
[modifica]El 2006, Trang Ho estava frustrada perquè, a diferència d'alguns dels seus homòlegs japonesos, els diccionaris bilingües alemanys no incloïen una cerca de text complet d'exemples d'ús amb traduccions.[2] Això la va portar a imaginar el seu diccionari ideal[3] i a construir un prototip allotjat a SourceForge amb el nom de "multilangdict".[4] L'objectiu principal ja era el proveïment participatiu de frases traduïdes: "Una cosa tipus Viquipèdia, excepte que la gent afegeix frases, no articles".
Paral·lelament als seus estudis a la Universitat de Tecnologia de Compiègne, Trang Ho va anar millorant gradualment el seu lloc web amb alguns companys de classe. Va reconstruir el projecte des de zero dues vegades i el va rebatejar com a Tatoeba. El setembre del 2007, es van importar al Corpus Tatoeba uns 150.000 parells de frases anglès-japonès del Corpus Tanaka —una compilació de domini públic publicada el 2001 pel professor Yasuhito Tanaka de la Universitat de Hyogo i mantinguda per Jim Breen i Paul Blay.[5] El desembre de 2008, Trang Ho va publicar la primera versió de la base de codi actual basada en un model de dades més flexible.[6] El mes següent, el lloc web es va traslladar al domini tatoeba.org.[7]
Durant el curs acadèmic 2009-2010, Allan Simon —aleshores estudiant a SUPINFO— es va convertir en un desenvolupador principal de Tatoeba. Juntament amb Trang Ho i altres joves desenvolupadors, van fer que Tatoeba fos més social amb llistes de frases, perfils d'usuari, missatgeria privada i un mur inspirat en Facebook. També van introduir funcions importants com l'enllaç de frases, l'etiquetatge i la cerca de "traducció de traducció". El novembre de 2010, Tatoeba va superar la marca de les 600.000 frases. En un any, el nombre de frases afegides diàriament s'havia multiplicat per gairebé 50.[8]
Entre el 2014 i el 2016, es va formar un nou equip de desenvolupadors al voltant de Trang Ho.[9] Van ser mentors d'estudiants al Google Summer of Code 2014[10] i van afegir funcions per millorar la qualitat del corpus.
Durant el període 2018-2020, el suport de la Fundació Mozilla com a part del projecte Common Voice va permetre a Tatoeba fer que la seva plataforma fos més oberta i fàcil d'utilitzar.[11][12]
Ús
[modifica]Els usuaris poden cercar paraules per recuperar frases que les utilitzen. Els resultats es poden filtrar per idioma, nombre de paraules, etiqueta i altres criteris.[13]
Cada frase es mostra al costat de les seves traduccions i les "traduccions de traduccions". Una secció de comentaris facilita els comentaris i les correccions.
Els usuaris registrats poden crear llistes de frases descarregables, que poden ser privades, públiques o col·laboratives.
Contribució
[modifica]S'anima els tatoebans a contribuir en el seu idioma nadiu.[14] Poden afegir frases originals i traduir-ne de ja existents. Poden revisar o comentar les frases d'altres usuaris i "adoptar" frases sense propietari. Els col·laboradors avançats també poden etiquetar, enllaçar i desenllaçar frases.
Quan el propietari d'una frase no respon a una sol·licitud de correcció, només un responsable del manteniment del corpus té el poder d'actualitzar o suprimir aquella frase.
Governança
[modifica]Com a fundadora de Tatoeba, Trang Ho va ser durant molt de temps la BDFL (Benevolent Dictator for Life) del projecte.
El 2011, va crear una organització sense ànim de lucre per supervisar el projecte.
El 2022, va decidir fer un pas al costat en favor d'un petit grup de tatoebans experimentats.[15]
Idiomes
[modifica]A juny de 2025, el Corpus Tatoeba tenia més de 12.800.000 frases en 428 idiomes; 68 d'aquestes llengües, inclosa el català, tenen 10.000 o més frases. Més d'1 milions de frases tenen enregistraments d'àudio.[16]
Les frases estan interrelacionades dins d'un gràfic que té més de 25.900.000 enllaços. 276 parells d'idiomes tenen més de 10.000 frases traduïdes.[17]
Referències
[modifica]- ↑ «Tatoeab, un dictionnaire de langues pour phrases d'exemples» (en francès). fsffrance.org. Paris: FSF France, 24 febrer 2011. [Consulta: 16 juny 2025].
- ↑ Trang. «The story of Tatoeba». [Consulta: 8 novembre 2022].
- ↑ «Trang's ideal dictionary.pdf». Google Docs. [Consulta: 8 novembre 2022].
- ↑ «Trang's dictionary project». sourceforge.net, 10-04-2013.
- ↑ «Tanaka Corpus». EDRDG Wiki. Electronic Dictionary Research and Development Group, 03-02-2011. [Consulta: 20 març 2011].
- ↑ , <https://www.youtube.com/watch?v=b0DCcx_4IrU>. Consulta: 8 novembre 2022
- ↑ Trang. «New address : tatoeba.org». [Consulta: 8 novembre 2022].
- ↑ Trang. «Some stats». [Consulta: 8 novembre 2022].
- ↑ AlanF. «Update on development». [Consulta: 8 novembre 2022].
- ↑ «Google Summer of Code 2014 Organization Association Tatoeba». www.google-melange.com. [Consulta: 26 setembre 2022].
- ↑ «MOSS award for Tatoeba». [Consulta: 26 setembre 2022].
- ↑ «A second MOSS award». [Consulta: 26 setembre 2022].
- ↑ «Advanced search - Tatoeba». tatoeba.org. [Consulta: 21 novembre 2023].
- ↑ «Quick Start Guide».
- ↑ «Thread #38883 - Tatoeba». tatoeba.org. [Consulta: 21 novembre 2023].
- ↑ «Number of sentences per language - Tatoeba» (en anglès). tatoeba.org. [Consulta: 24 juliol 2025].
- ↑ «Download sentences - Tatoeba». tatoeba.org. [Consulta: 22 febrer 2025].