Planeta OFSET

To content | To menu | To search

Tag - actualización

Entries feed - Comments feed

Wednesday, November 12 2008

Traducción. Checkpoint Santiago

Invitado a una charla sobre herramientas de traducción (lo que me ha llevado a dar un repaso a las aplicaciones, casi dos años después de empezar a escribir la última serie de artículos sobre traducción libre, iniciada en julio de 2006), esta entrada recoge, ahora por orden tipo bitácora (es decir, inverso), las notas preparatorias, el enlace a la charla, y los apuntes posteriores. 

Addenda y anotaciones

  • Otro ejemplo de ciclo de trabajo: http://raw-output.org/20080520/galician-debconf-template-translation-workflow
  • Más sitios que usan pootle: http://www.sunvirtuallab.com:5307/
  • Transifex: http://www.0xdeadbeef.com/weblog/?p=298
  • 29 de agosto de 2008. Me ha llamado la atención y quería apuntarlo: concondancia = suffix tree. Visualizaciones como word trees en Many Eyes.
  • 29 de agosto de 2008. «What is Spelt? It is a program that is used to classify words according to their roots and parts-of-speech. For what is Spelt used? We use it in the creation of spell-checkers».
    Cercano a spelt está CorpusCatcher: «a corpus collection toolset. It can help you to build language or topic specific corpora from publically available web resources. This can be very useful for many purposes, especially for data to build spell checkers».
  • 30 de agosto de 2008. Había olvidado anotar Anaphraseus, tantas veces citada en las listas de OmegaT y L4T: «an OpenOffice.org 2 macro set (in basic!) similar to famous Wordfast. Works with Wordfast Translation Memory format (*.TXT). Supports text segmentation».
  • 7 de octubre de 2008. Los amigos gallegos de Tagen Ata han colaborado para que TextSTAT funcione correctamente en GNU/Linux y esté localizada al gallego. Cito, sobre la versión 2.8: «TextSTAT is a simple programme for the analysis of texts. It produces word frequency lists and concordances».
  • Virtaal, «a graphical translation tool», de los autores de Pootle y el Translation Toolkit. Interesante la enumeración de características.
  • 12 de noviembre de 2008. Leandro Regueiro levanta la pieza: hubo un evento en Croacia a finales de 2007, la Open Translation Tools Convergence 2007, y hay un wiki sobre herramientas y proyectos abiertos de traducción. Se me escapó totalmente; ahora conviene no perderlo de vista.
    Escarbando un poco más, descubro que el 28 de septiembre han publicado el estudio/conclusión «Open Translation Tools: Disruptive Potential to Broaden Access to Knowledge».

La charla (10 de mayo de 2008)

Tuve el placer de ayudar a los amigos gallegos a dar un repaso a las etapas del ciclo de traducción (no es que no las conocieran, es que una visión externa siempre sirve para confirmarse). La charla, «Fundamentos de la tecnología de traducción. Un repaso a las herramientas de traducción libres», estaba integrada en el Encuentro G11n para la localización del software al gallego que se realizó en Santiago de Compostela, el 10 de mayo. Hay vídeo de la charla, con lo que cualquiera puede burlarse de mis tics al hablar en público :-)

Por supuesto no puedo dejar de agradecer a Suso, Susana y el resto de los amigos y amigas su hospitalidad. Disfruté de las charlas, de las conversaciones y de la noche de Santiago. Grazas.

Datos previos para empezar a discutir, a 25  de abril de 2008

(los datos con los que preparé la charla)

Versiones

Aplicación Versión 2006 Versión 2008
gettext 0.14.6 0.17 (Debian)
po4a 0.27.2 0.33.3 (Debian)
Open Language Tools 1_2_6 1_2_7
Transolution 0.4b5 (Genesis)
OmegaT 1.6.0 RC12a 1.7.3.u1+dfsg-1 (Debian)
Translate Toolkit +
Pootle
0.9.1 1.1.0 (Debian)
entrans 0.3.2
kbabel ? (la que hubiera
en Debian)
1.11.4 para KDE 3.5.9 (Debian)

No creo haga falta hacer leña de los árboles caídos: el cuadro muestra claramente qué proyectos están estancados y cuáles poco menos que muertos. Pienso también que mi intuición iba encaminada: kbabel y pootle reinan.


Wednesday, October 22 2008

Apuntes de accesibilidad

Cuando uno creía que iba a decidir el curso de esta bitácora (qué ingenuo) pensaba que la iba a utilizar de dos formas principales: como lugar público donde apuntar ideas y esbozos de posteriores artículos, y como espacio donde completar, actualizar y discutir los mencionados artículos. No sabía que el feedback y lo escrito mandan. Para iniciar feedback vamos a crear un punto de discusión sobre el estado de la accesibilidad en GNU Linux. Pero advierto que aquí pienso romper una de las normas de las bitácoras e iré corrigiendo y añadiendo datos a medida que lo considere necesario.

He publicado dos series de artículos sobre accesibilidad (abreviada, yo que bailo las letras continuamente al teclear, a11y) en la revista Linux Magazine. A los tres meses pude publicar la versión html con licencia Creative Commons sa-by-nc 2.0 (gracias, Paul C. Brown).

Además presenté en el Primer encuentro en línea de educación y software libre, de diciembre de 2005,

Todo artículo publicado llega a los lectores con serias señales de obsolescencia, y un año después un artículo de actualidad es una pieza de historiadores. Esta certeza, la de que los artículos son inmantenibles y que habría que reiniciarlos cada cierto tiempo, unida a la licencia no-comercial, ha hecho que no los vuelta a tocar. Pero mucho ha pasado desde entonces, y alguna de las tendencias que adivinaba se han confirmado.

Generalidades

* El 17 de octubre de 2006 tuve la suerte de participar, junto a Jonathan Chacón, en la mesa de accesibilidad del Primer Encuentro de Colaboradores de Guadalinex IV. Gracias a Jonathan he conocido los motores de reconocimiento de voz junius y htk (ver más adelante).

* El Free Standards Group Accessibility Workgroup (FSGA), pasó a llamarse Open Accessibility (A11y) Group de la Linux Foundation.

* 16 de abril de 2007: Gilles Casse anuncia que no habrá nuevas versiones de Oralux.

* 1 de junio de 2007: mensaje de Peter Parente a varias listas de accesibilidad:

Yesterday, IBM decided to change strategies with respect to GNOME accessibility:
http://www-03.ibm.com/developerworks/blogs/page/schwer
Under this new plan, IBM is no longer supporting development of LSR,
Accerciser, pyatspi, AT-SPI::Collection, or Firefox/AT-SPI
accessibility. These projects will not vanish, but the news does have
an impact on each.

* OFSET ha contribuido económicamente en la mejora de la voz francesa para espeak. Esos desarrollos se van a incorporar a la aplicación de squeak iStoa que se integrará, junto con DrGeoII, en los ordenadores del proyecto OLPC. Interesados en espeak en francés pueden leer la página wiki donde Gilles Casse hacía el análisis previo del trabajo que debía/debe realizarse en julio de 2007.

* Estudio sobre la a11y en el EEE-PC, también en el seno de OFSET.

* 21 de febrero de 2008: Willy Walker anuncia la publicación de dos artículos en la revista Linux Journal

   Orca—Take the Killer Whale for a Ride by Willie Walker
   http://www.linuxjournal.com/article/9978

   Make Your Application Accessible with Accerciser by Eitan Isaacson
   http://www.linuxjournal.com/article/9991

* El 24 de abril de 2008 JG Jones anuncia a la lista de gnome-accessibility la siguiente noticia:

Nokia to fund D-Bus based accessibility. Remite a esta entrada de bitácora.

* 28 de agosto de 2008: el núcleo 2.6.26 llega a Debian Testing. Entre las novedades consta:

Basic braille screen reader support

   Investigando un poco, leo

This adds a minimalistic braille screen reader support. This is meant to
be used by blind people e.g. on boot failures or when / cannot be mounted
etc. and thus the userland screen readers cannot work.

* Lo anuncia Janina Sajka (7 de octubre de 2008): «the soon to be Linux Foundation standard specified at http://a11y.org/kafs». Se trata de la Keyboard Access Functional Specification, 1.0.

* 17 de octubre de 2008. Peter Korn anuncia en su bitácora y en las listas el «AEGIS project - a €12.6m investment in open source accessibility». Se trata de un proyecto del VII Programa Marco de la Comisión Europea y significa «open Accessibility Everywhere: Groundwork, Infrastructure, Standards». Ah, participan la Fundación ONCE y la Politécnica de Madrid.

Métodos de entrada

  • En el GSoC 2007 se creó mousetweaks, aplicación que añade funcionalidades al apuntador (que puede ser un ratón o no) y se integrará de serie en Gnome 2.22.
  • El 28 de noviembre de 2007 Steve Lee presenta en la gnome-accessibility-list Tapir, un sistema de desambiguación (rechaza la expresión "predictiva") de entrada por el teclado.
  • 18 de julio de 2008: descubro Mousetrap, de Flavio Percoco, que permite el control del ratón utilizando una webcam. Una evaluación del grupo a11y de gnome por irc, del 20080825.

Ayudas varias

Carlos Eduardo Rodrigues Diógenes abandona el mantenimiento de gnome-mag (el magnificador de pantalla de gnome) el 12 de noviembre de 2007. Mala noticia. Se discute si el desarrollo debe seguir en torno a metacity o compiz.

Propuesta de establecer unas líneas de desarrollo de la magnificación en GNOME de Kristian Lyngstøl en la lista de gnome-accessibility el 4 de mayo de 2008.

Sobre subtitulado, etc: http://www.linuxtv.org/v4lwiki/index.php/Text_capture

21 de julio de 2008, anuncio en gnome-accessibility: Gerd Kohlberger (autor de mousetweaks) has accepted the honour and responsibility of helping maintain GOK.

Síntesis del habla

Orca ha evolucionado de forma vertiginosa, y su integración con los distintos motores de síntesis y de sonido ha mejorado mucho (hoy es posible usar speech-dispatcher o espeak directamente sin pasar por gnome-speech, por ejemplo). Por otra parte recibí información en privado sobre una etapa extremeña en la historia de Orca que contaré alguna vez en su artículo pertinente.

LSR. Ya hemos visto que ha dejado de ser un proyecto de IBM, a la espera de convertirse en un proyecto personal.

Espeak se está convirtiendo en una seria alternativa a festival, por su ligereza que le permite ir integrado en software para móviles por ejemplo, por la cantidad de idiomas que sintetiza ya, porque está adaptado a utf-8 y por la facilidad con la que los hablantes de las lenguas pueden contribuir (ver las aportaciones de OFSET y el hilo sobre el español en el foro de ayuda de espeak).

Recuerdo haber hablado con Paul Brown sobre la aparición del paquete praat para Debian justo después de enviar el último artículo. No me dejó añadir la referencia (y con razón: si por mí fuera yo nunca acabaría un artículo).

Gracias a Paco Rivière me entero (25 de mayo de 2008) de que hay nuevas voces catalanas de calidad para festival, creadas por un equipo dirigido por Antonio Bonafonte.

Openmary. Descubrimiento del 18 de julio de 2008: openmary, Open Source Emotional Text-to-Speech Synthesis System. Trac de desarrollo.

Reconocimiento del habla

  • Veo que cvoicecontrol sigue usándose, al menos en Wiaspeak, de William McEwan.
  • Peter Grasch anuncia el 19 de enero de 2008 la primera alfa de Simon.
  • No conocía el proyecto Voxforge de reunir el corpus libre de textos hablados necesario para crear los modelos acústicos imprescindibles para el buen funcionamiento de los motores de reconocimiento. En mi defensa puedo alegar que parce que el proyecto se inició en el 2005, después de mi estudio.
  • En el artículo de 2005 hablábamos sólo de Sphinx como motor de reconocimiento del habla. Hoy hay que tener en cuenta ISIP, Julius y HTK  también (HTK es semilibre).
  • El 4 de junio de 2008 Omer Zak envía a la lista debian-accessibility una panorámica del estado del reconocimiento del habla. Interesa también el análisis consiguiente de John Hughes.
  • En conversación privada en los RMLL2008, la venezolana Joskally Carrero, de ULAnix, me habla de que está trabajando en el tema. Démosle tiempo antes de insistirle. Y después, a insistir.
  • 27 de agosto de 2008. Descubro que en el ámbito del proyecto Annodex se ha experimentado con sphinx-4.

Friday, April 25 2008

Traducción. Checkpoint 1

Estoy preparando una charla sobre herramientas de traducción (ya la enlazaré aqui), y para ella estoy dando un repaso a las aplicaciones, casi dos años después de empezar a escribir la última serie de artículos sobre traducción libre (el primero de ellos fue escrito en julio de 2006).

Datos para empezar a discutir

Versiones

Aplicación Versión 2006 Versión 2008
gettext 0.14.6 0.17 (Debian)
po4a 0.27.2 0.33.3 (Debian)
Open Language Tools 1_2_6 1_2_7
Transolution 0.4b5 (Genesis)
OmegaT 1.6.0 RC12a 1.7.3.u1+dfsg-1 (Debian)
Translate Toolkit + Pootle 0.9.1 1.1.0 (Debian)
entrans 0.3.2
kbabel ? 1.11.4 para KDE 3.5.9 (Debian)

Sunday, January 20 2008

Apuntes de accesibilidad

Cuando uno creía que iba a decidir el curso de esta bitácora (qué ingenuo) pensaba que la iba a utilizar de dos formas principales: como lugar público donde apuntar ideas y esbozos de posteriores artículos, y como espacio donde completar, actualizar y discutir los mencionados artículos. No sabía que el feedback y lo escrito mandan. Para iniciar feedback vamos a crear un punto de discusión sobre el estado de la accesibilidad en GNU Linux. Pero advierto que aquí pienso romper una de las normas de las bitácoras e iré corrigiendo y añadiendo datos a medida que lo considere necesario.

He publicado dos series de artículos sobre accesibilidad (abreviada, yo que bailo las letras continuamente al teclear, a11y) en la revista Linux Magazine. A los tres meses pude publicar la versión html con licencia Creative Commons sa-by-nc 2.0 (gracias, Paul C. Brown).

Además presenté en el Primer encuentro en línea de educación y software libre, de diciembre de 2005,

Todo artículo publicado llega a los lectores con serias señales de obsolescencia, y un año después un artículo de actualidad es una pieza de historiadores. Esta certeza, la de que los artículos son inmantenibles y que habría que reiniciarlos cada cierto tiempo, unida a la licencia no-comercial, ha hecho que no los vuelta a tocar. Pero mucho ha pasado desde entonces, y alguna de las tendencias que adivinaba se han confirmado.

Generalidades

El 17 de octubre de 2006 tuve la suerte de participar, junto a Jonathan Chacón, en la mesa de accesibilidad del Primer Encuentro de Colaboradores de Guadalinex IV. Gracias a Jonathan he conocido los motores de reconocimiento de voz junius y htk (ver más adelante).

El Free Standards Group Accessibility Workgroup (FSGA), pasó a llamarse Open Accessibility (A11y) Group de la Linux Foundation.

16 de abril de 2007: Gilles Casse anuncia que no habrá nuevas versiones de Oralux.

1 de junio de 2007: mensaje de Peter Parente a varias listas de accesibilidad:

Yesterday, IBM decided to change strategies with respect to GNOME accessibility:
http://www-03.ibm.com/developerworks/blogs/page/schwer
Under this new plan, IBM is no longer supporting development of LSR,
Accerciser, pyatspi, AT-SPI::Collection, or Firefox/AT-SPI
accessibility. These projects will not vanish, but the news does have
an impact on each.

OFSET ha contribuido económicamente en la mejora de voz francesa para espeak. Esos desarrollos se van a incorporar a la aplicación de squeak iStoa que se integrará, junto con DrGeoII, en los ordenadores del proyecto OLPC. Interesados en espeak en francés pueden leer la página wiki donde Gilles Casse hacía el análisis previo del trabajo que debía/debe realizarse en julio de 2007.

Estudio sobre la a11y en el EEE-PC.

21 de febrero de 2008: Willy Walker anuncia la publicación de dos artículos en la revista Linux Journal

   Orca—Take the Killer Whale for a Ride by Willie Walker
   http://www.linuxjournal.com/article/9978

   Make Your Application Accessible with Accerciser by Eitan Isaacson
   http://www.linuxjournal.com/article/9991

Métodos de entrada

  • En el GSoC 2007 se creó mouseteaks, aplicación que añade funcionalidades al apuntador (que puedeser un ratón o no) y se integrará de serie en Gnome 2.22.
  • El 28 de noviembre de 2007 Steve Lee presenta en la gnome-accessibility-list Tapir, un sistema de desambiguación (rechaza la expresión "predictiva") de entrada por el teclado.

Ayudas varias

Carlos Eduardo Rodrigues Diógenes abandona el mantenimiento de gnome-mag (el magnificador de pantalla de gnome) el 12 de noviembre de 2007. Mala noticia. Se discute si el desarrollo debe seguir en torno a metacity o compiz.

Sobre subtitulado, etc: http://www.linuxtv.org/v4lwiki/index.php/Text_capture

Síntesis del habla

Orca ha evolucionado de forma vertiginosa, y su integración con los distintos motores de síntesis y de sonido ha mejorado mucho (hoy es posible usar speech-dispatcher o espeak directamente sin pasar por gnome-speech, por ejemplo). Por otra parte recibí información en privado sobre una etapa extremeña en la historia de Orca que contaré alguna vez en su artículo pertinente.

LSR. Ya hemos visto que ha dejado de ser un proyecto de IBM, a la espera de convertirse en un proyecto personal.

Espeak se está convirtiendo en una seria alternativa a festival, por su ligereza que le permite ir integrado en software para móviles por ejemplo, por la cantidad de idiomas que sintetiza ya, porque está adaptado a utf-8 y por la facilidad con la que los hablantes de las lenguas pueden contribuir (ver las aportaciones de OFSET y el hilo sobre el español en el foro de ayuda de espeak).

Recuerdo haber hablado con Paul Brown sobre la aparición del paquete praat para Debian justo después de enviar el último artículo. No me dejó añadir la referencia (y con razón: si por mí fuera yo nunca acabaría un artículo).

Reconocimiento del habla

  • Veo que cvoicecontrol sigue usándose, al menos en Wiaspeak, de William McEwan.
  • Peter Grasch anuncia el 19 de enero de 2008 la primera alfa de Simon
  • No conocía el proyecto Voxforge de reunir el corpus libre de textos hablados necesario para crear los modelos acústicos imprescindibles para el buen funcionamiento de los motores de reconocimiento. En mi defensa puedo alegar que parce que el proyecto se inició en el 2005, después de mi estudio.
  • En el artículo de 2005 hablábamos sólo de Sphinx como motor de reconocimiento del habla. Hoy hay que tener en cuenta ISIP, Julius y HTK  también (HTK es semilibre).