ArXiv, un repositorio abierto ampliamente utilizado para investigaciones preimpresas, está haciendo más para acabar con el uso descuidado de grandes modelos de lenguaje en artículos científicos.
Aunque los artículos se publican en el sitio antes de ser revisados por pares, arXiv (pronunciado “archivo”) se ha convertido en una de las principales formas en que circula la investigación en campos como la informática y las matemáticas, y el sitio en sí se ha convertido en una fuente de datos sobre tendencias en la investigación científica.
ArXiv ya ha tomado medidas para combatir un número creciente de artículos de baja calidad generados por IA, por ejemplo exigiendo que los que publican por primera vez obtengan el respaldo de un autor establecido. Y después de haber estado alojada en Cornell durante más de 20 años, la organización se está convirtiendo en una organización sin fines de lucro independiente, lo que debería permitirle recaudar más dinero para abordar problemas como la IA.
En su último movimiento, Thomas Dietterich, presidente de la sección de informática de arXiv, publicó el jueves que «si una presentación contiene evidencia incontrovertible de que los autores no verificaron los resultados de la generación de LLM, esto significa que no podemos confiar en nada en el artículo».
Esa evidencia incontrovertible podría incluir cosas como “referencias alucinadas” y comentarios hacia o desde el LLM, dijo Dietterich. Si se encuentra dicha evidencia, los autores del artículo enfrentarán «una prohibición de un año de arXiv seguida del requisito de que los envíos posteriores de arXiv primero deben ser aceptados por un lugar acreditado y revisado por pares».
Tenga en cuenta que esto no es una prohibición absoluta del uso de LLM, sino más bien una insistencia en que, como dijo Dietterich, los autores asuman «plena responsabilidad» por el contenido, «independientemente de cómo se generen los contenidos». Entonces, si los investigadores copian y pegan «lenguaje inapropiado, contenido plagiado, contenido sesgado, errores, referencias incorrectas o contenido engañoso» directamente de un LLM, entonces siguen siendo responsables de ello.
Dietterich dijo a 404 Media que esta será una regla de “un solo golpe”, pero los moderadores deben señalar el problema y los presidentes de sección deben confirmar la evidencia antes de imponer la sanción. Los autores también podrán apelar la decisión.
Investigaciones recientes revisadas por pares han encontrado que las citas inventadas están aumentando en la investigación biomédica, probablemente debido a los LLM; aunque para ser justos, los científicos no son los únicos a los que se les descubre usando citas inventadas por IA.
Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.


