{"id":3581,"date":"2019-09-23T09:00:44","date_gmt":"2019-09-23T13:00:44","guid":{"rendered":"https:\/\/www.lirapopular.cl\/lirapopularxix\/?p=3581"},"modified":"2019-09-23T09:00:44","modified_gmt":"2019-09-23T13:00:44","slug":"ia-en-la-lira-popular","status":"publish","type":"post","link":"https:\/\/www.lirapopular.cl\/lirapopularxix\/2019\/09\/23\/ia-en-la-lira-popular\/","title":{"rendered":"La Inteligencia Artificial <br>en la Lira Popular"},"content":{"rendered":"\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\"><p><\/p><cite>Texto en desarrollo<\/cite><\/blockquote>\n\n\n\n<p>La primera etapa de nuestra investigaci\u00f3n sobre la lira consisti\u00f3 en la transcripci\u00f3n nuestro corpus de la &#8220;Lira Popular&#8221; publicada en la d\u00e9cada del &#8217;50 en peri\u00f3dicos por In\u00e9s Valenzuela y Diego Mu\u00f1oz y se apoy\u00f3 en la contribuci\u00f3n desinteresada de muchas buenas personas que realizaron la transcripci\u00f3n de los documentos digitales que les entreg\u00e1bamos, a continuaci\u00f3n hac\u00edan la transcripci\u00f3n que luego se revisaba y se pon\u00eda en el sitio <a href=\"http:\/\/www.lirapopular.cl\">www.lirapopular.cl<\/a>. Pueden ver sus nombres y contribuciones <a href=\"https:\/\/www.lirapopular.cl\/nosotros\/\">ac\u00e1<\/a>.<\/p>\n\n\n\n<p>En ese per\u00edodo me interes\u00e9 un buscar una forma que permitiera realizar la transcripci\u00f3n de gran cantidad de versos de manera simple ya que el proyecto hab\u00eda sido rechazado en los concursos a los que postul\u00e9 y carec\u00eda de fondos. La modalidad seleccionada fue un \u00e9xito gracias a todas esas contribuciones desinteresadas pero muy entusiastas.<\/p>\n\n\n\n<p>Mientras se desarrollaba esta etapa, investigu\u00e9 en opciones computacionales para desarrollar el proyecto: Sistemas de presentaci\u00f3n de las im\u00e1genes y sobre la aplicaci\u00f3n de inteligencia artificial (IA) que permitiera transcribir y avanzar en el material de mejor calidad, dejando solo lo problem\u00e1tico al ojo y mente humana.<\/p>\n\n\n\n<p>En cuanto a la presentaci\u00f3n de la informaci\u00f3n prefer\u00ed usar WordPress, ya que es una herramienta gratuita con las principales opciones que se necesitaban. Otras opciones muy especializadas como <a href=\"https:\/\/omeka.org\">Omeka<\/a> o <a href=\"https:\/\/projectmirador.org\">Mirador<\/a>, a pesar que entregaban prestaciones m\u00e1s especializadas requer\u00edan un soporte financiero que no ten\u00eda.<\/p>\n\n\n\n<p>El primer intento de transcripci\u00f3n con tecnolog\u00eda inform\u00e1tica fue aplicar OCR, <em>Optical Character Recognition.<\/em> Pero no fue eficiente, ya que solo reconoce lo que est\u00e1 n\u00edtido. Las liras al ser muy antiguas y con sistemas b\u00e1sicos de impresi\u00f3n tienen mucho da\u00f1o, adem\u00e1s de errores humanos. OCR entregaba grandes listados de texto irreconocible. Era necesario un sistema que pudiera trabajar con alternativas y deducir.<\/p>\n\n\n\n<p>As\u00ed me acerqu\u00e9 al HTR, <em>Handwriting Text Recognition,<\/em> este sistema basado en IA est\u00e1 dise\u00f1ado para que una m\u00e1quina aprenda a reconocer el texto escrito a mano, es decir analiza un texto en el cual hay una inmensa cantidad de variantes para cada caracter.  La investigaci\u00f3n de HTR est\u00e1 avanzando r\u00e1pidamente por la necesidad de conservar textos antiguos, como aprender a leer la cursiva antigua alemana o el epistolario abundante en toda cultura. Ser\u00e1 un gran aporte el desarrollo de un sistema que permita la lectura de manuscritos tanto de personajes importantes como aquellos que muestran la vida cotidiana en una esquela, o un documento burocr\u00e1tico, las peque\u00f1as historias.<\/p>\n\n\n\n<p>Veamos un ejemplo de su posible aplicaci\u00f3n en Chile. El Archivo Nacional tiene bodegas llenas de documentos manuscritos creados por los tribunales desde la Independencia. Toneladas de documentos sin ninguna posibilidad de estudiarlos estructuradamente. Son solo hojas sueltas en las que cualquier descubrimiento se producir\u00e1 principalmente por la casualidad. Si estos documentos fueran procesados saldr\u00eda a la luz una parte importante de nuestra historia, ya que ser\u00eda simple indexarlos en profundidad y realizar b\u00fasquedas por cualquier t\u00e9rmino. Pero ah\u00ed yacen amontonados esperando su HTR.<\/p>\n\n\n\n<p>Hay varias instituciones que desarrollan proyectos de HTR, pero opt\u00e9 por uno que es gratuito y tiene el respaldo de una importante universidad de Austria: El <a href=\"https:\/\/transkribus.eu\/Transkribus\/\">Proyecto Transkribus<\/a> de la <a href=\"https:\/\/es.wikipedia.org\/wiki\/Universidad_de_Innsbruck\">Universidad de Innsbruck<\/a>.<\/p>\n\n\n\n<p>Comenc\u00e9 a probar el sistema mientras avanz\u00e1bamos con las transcripciones de las liras de la d\u00e9cada de los &#8217;50. Lo hice en especial en una libreta de versos del poeta Juan Escobar de Limache. Era m\u00e1s complejo ya que es un manuscrito, pero me impresion\u00f3 c\u00f3mo aprend\u00eda el servidor. El resultado de la primera transcripci\u00f3n es bastante cercana al OCR, pero al hacerle las correcciones en la segunda ocasi\u00f3n es notorio que comenz\u00f3 el proceso de aprendizaje de parte del servidor.<\/p>\n\n\n\n<p><strong>El sistema<\/strong><\/p>\n\n\n\n<p>La Inteligencia Artificial utiliza m\u00e1quinas con un <a href=\"https:\/\/es.wikipedia.org\/wiki\/Red_neuronal_artificial\">sistema neuronal<\/a> que imita el pensamiento humano. Por esta raz\u00f3n no se habla de programar sino de entrenar. Al servidor se le va explicando por medio de las correcciones a fin de que aprenda la variedad de trazos presentes en el texto.<\/p>\n\n\n\n<p>Por esta raz\u00f3n es necesaria una larga etapa de preparaci\u00f3n (yo transcrib\u00ed aproximadamente 100 liras en esta etapa, aproximadamente 100.000 palabras). Completado esto se me asign\u00f3 un servidor entrenado para mi investigaci\u00f3n y que al especializarse en un proyecto en particular, cada vez que hace una nueva transcripci\u00f3n aumenta su precisi\u00f3n.<\/p>\n\n\n\n<p>Como en este caso estoy trabajando con texto impreso, la variedad de caracteres es inferior lo cual facilita el aprendizaje,<\/p>\n\n\n\n<p><strong>La transcripci\u00f3n<\/strong><\/p>\n\n\n\n<p>En esta etapa estoy trabajando con la Colecci\u00f3n Lira Popular de la Universidad de Chile. Lamentablemente hay mucha lira mal digitalizada y seguramente esas van a tener que ser transcritas por colaboradores.<\/p>\n\n\n\n<p>La transcripci\u00f3n es interesante ya que el per\u00edodo presenta, como explico en otro art\u00edculo, un idioma particular con reglas diferentes a las actuales. Adem\u00e1s est\u00e1 la mala calidad de los documentos: mucha falta ortogr\u00e1fica o simplemente mala calidad de la imprenta que dej\u00f3 mucho error. Esto impide utilizar un diccionario, ya que el sistema podr\u00eda corregir dichas diferencias de escritura.<\/p>\n\n\n\n<p>A pesar de esto el nivel de la transcripci\u00f3n es muy bueno y con algo muy especial e importante. Al ser hecha por una m\u00e1quina no la afectan cambios que una persona modificar\u00eda sin darse cuenta, por costumbre.<\/p>\n\n\n\n<p>Los errores de un transcriptor humano son l\u00f3gicos, los de una m\u00e1quina son diferencias por no ver algo bien o confundirse.<\/p>\n\n\n\n<p>Un humano va a olvidar de vez en cuando poner tilde a &#8220;fue&#8221;, que en esta \u00e9poca llevaba o hacer lo mismo con palabras terminadas en -on, que en esa \u00e9poca no llevan tilde. Son errores l\u00f3gicos y entendibles, pero que posibilitan que tanto el transcriptor como el revisor los pasen por alto.<\/p>\n\n\n\n<p>Los errores computacionales son diferentes. Son principalmente confusiones con una elemento poco claro: tipo invertido, tipo roto, tipo sucio, mancha en el papel. Un ejemplo de estas confusiones es que en estas liras es frecuente encontrar tipos invertidos. He preferido no destacar esto (usar unicode para poner la alternativa invertida: \u2c6f (U+2C6F)). La opci\u00f3n m\u00e1s frecuente es que el sistema confundi\u00f3 con &#8220;n&#8221; y &#8220;u&#8221; ya que se us\u00f3 invertida<sup>1<\/sup>. Como yo comenc\u00e9 a reemplazar la variante invertida por la correcta, el sistema se confundi\u00f3 y comenz\u00f3 a invertirlas incluso cuando estaban bien. Por esa raz\u00f3n, si ahora encuentro &#8220;uua&#8221; en vez de &#8220;una&#8221; no lo puedo corregir, para evitar que el sistema aprenda mal.<\/p>\n\n\n\n<p><strong>Transkribus<\/strong><\/p>\n\n\n\n<figure class=\"wp-block-image\"><a href=\"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-content\/uploads\/2019\/09\/Transkribus.jpg\"><img loading=\"lazy\" decoding=\"async\" width=\"1000\" height=\"558\" src=\"https:\/\/i2.wp.com\/https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-content\/uploads\/2019\/09\/Transkribus.jpg?fit=615%2C344&amp;ssl=1\" alt=\"\" class=\"wp-image-3591\" srcset=\"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-content\/uploads\/2019\/09\/Transkribus.jpg 1000w, https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-content\/uploads\/2019\/09\/Transkribus-300x167.jpg 300w, https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-content\/uploads\/2019\/09\/Transkribus-768x429.jpg 768w\" sizes=\"auto, (max-width: 1000px) 100vw, 1000px\" \/><\/a><figcaption>La interfase de Transkribus<\/figcaption><\/figure>\n\n\n\n<p>No es simple el sistema de trabajo, pero lo hace m\u00e1s complicado la casi pobreza de los manuales para aprender el uso. Una larga etapa de acierto-error va aclarando poco a poco c\u00f3mo debiera hacerse la investigaci\u00f3n.<\/p>\n\n\n\n<p>Da la impresi\u00f3n que al ser de una universidad est\u00e1 pensado para formar equipos de trabajo con profesores que ya lo conocen y dentro del curso ense\u00f1ar\u00e1n las funciones, no se me ocurre otra explicaci\u00f3n a esos manuales con tan poca informaci\u00f3n.<\/p>\n\n\n\n<p>Pero es posible llegar a utilizarlo y sorprenderse cada vez que muestra un detalle producto de su aprendizaje, como leer l\u00edneas que incluso para uno eran confusas.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p>______<br>1 Esto muestra de desprolijidad de la imprenta, preocupada m\u00e1s de terminar r\u00e1pido el trabajo que de hacerlo bien, ya que los tipos tienen una muesca para evitar ponerlo invertido. Una mirada r\u00e1pida y se nota que hay un tipo mal puesto. Pero no hab\u00eda un tiempo de control de calidad.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Texto en desarrollo La primera etapa de nuestra investigaci\u00f3n sobre la lira consisti\u00f3 en la transcripci\u00f3n nuestro corpus de la &#8220;Lira Popular&#8221; publicada en la d\u00e9cada del &#8217;50 en peri\u00f3dicos por In\u00e9s Valenzuela y Diego Mu\u00f1oz y se apoy\u00f3 en la contribuci\u00f3n desinteresada de muchas buenas personas que realizaron la transcripci\u00f3n de los documentos digitales [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[23],"tags":[22],"class_list":["post-3581","post","type-post","status-publish","format-standard","hentry","category-olea-humberto","tag-investigacion"],"jetpack_sharing_enabled":true,"jetpack_featured_media_url":"","_links":{"self":[{"href":"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-json\/wp\/v2\/posts\/3581","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-json\/wp\/v2\/comments?post=3581"}],"version-history":[{"count":0,"href":"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-json\/wp\/v2\/posts\/3581\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-json\/wp\/v2\/media?parent=3581"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-json\/wp\/v2\/categories?post=3581"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.lirapopular.cl\/lirapopularxix\/wp-json\/wp\/v2\/tags?post=3581"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}