¿Los algoritmos reproducen frecuentemente los sesgos humanos?

Sí. Hay un problema que no parece ser tan conocido como debería ser: incluso si no usa una característica en su algoritmo, la salida que obtiene puede estar correlacionada con esa característica si las entradas son. Por lo tanto, cualquier sesgo en su entrada puede traducirse en un sesgo en su salida.

En realidad, esta es una gran preocupación para los bancos, las compañías de tarjetas de crédito y las nuevas empresas de fintech que desean utilizar el aprendizaje automático para tomar decisiones de préstamos. Debido a que están sujetos a la Ley de Igualdad de Oportunidades de Crédito, tienen que asegurarse realmente de que no tienen esos sesgos, y eso requiere trabajo.

Ha habido un par de otros incidentes relativamente de alto perfil recientemente. ¿Búsqueda sexista? Es menos probable que Google muestre anuncios de empleos con altos salarios que hombres, ya que los anuncios de trabajos de Google terminan teniendo un sesgo de género, y las redes neuronales están aprendiendo inadvertidamente los sesgos de género ocultos de nuestro idioma, y ​​detallan un problema similar en un gran corpus de datos en lenguaje natural.

Mi conjetura es que este será un tema muy candente durante un tiempo, especialmente cuando los reguladores se pongan al día con las nuevas tecnologías a las que no están prestando atención en este momento. Si eres un estudiante graduado y buscas un proyecto de tesis, probablemente no sea una mala área para pensar.

La empresa en la que trabajo se ocupa de la regulación de préstamos justos todo el tiempo (ya que hacemos préstamos).

Con solo leer el título y la sinopsis, creo que las generalizaciones son demasiado amplias y, en lo que concierne a esta pregunta, el “sesgo humano” debe definirse con precisión.

El ejemplo que mejor conozco es el préstamo, y lo usaré para ilustrar mi punto.

No se le permite usar directamente el código de raza o el código postal, por ejemplo, para suscribir un préstamo, pero muchas señales pueden estar fuertemente correlacionadas con la de la raza o el código postal, por lo que es un “gran dato” (en realidad, es probable que los prestamistas no estén tratando con el tamaño de terabyte). los datos en 2016) el algoritmo seguramente podría estar “sesgado” en el sentido de que tal vez fallará la prueba estadística de “equidad” de algún regulador gubernamental.

Sin embargo, considere la alternativa: los clientes pobres que viven en una zona mala van a un banco físico para obtener un préstamo.

¿Crees que el humano sentado en la mesa estará más o menos “sesgado” que el algoritmo diseñado para optimizar las pérdidas mínimas dada toda la información legalmente utilizable?

¿Cree que tiene sentido que la compañía que emplea a ese humano costoso que está sentado en el escritorio, otorgue un pequeño préstamo a esta persona cuando los costos fijos de procesar el papeleo consumen manualmente todos los ingresos potenciales de ese préstamo?

Yo diría que los algoritmos y los datos en muchos casos están democratizando los productos de Internet de los consumidores, no “amenazando a la democracia”. Los costos más bajos introducidos por la automatización abren principalmente nuevos productos para consumidores de bajos ingresos que les ahorran el dinero que tanto necesitan. Los datos permiten una mayor diferenciación del producto, lo que beneficiará a algunas personas de bajos ingresos.

Otro ejemplo de “big data” que beneficia a la sociedad es la financiación cuantitativa. Claro, emplea a estas personas inteligentes para hacer máquinas de juego muy inteligentes, y eso puede parecer un desperdicio de recursos. Sin embargo, yo diría que es mucho mejor tener 50 creadores de máquinas de juego a tiempo completo que 1000 jugadores a tiempo completo (analistas de investigación de inversión tradicionales / PM).

A veces esas personas arruinan y tal vez desestabilizan la economía. En 2008, algunos bancos tuvieron modelos de riesgo de mierda que llevaron a su caída. Sin embargo, en 2008 también hubo miles de inversionistas humanos que no estudiaron matemáticas o ciencias de la computación en la escuela y lograron explotar sus propias inversiones, así como las inversiones de sus clientes con malas decisiones. También hubo bancos que evaluaron los riesgos en el mercado de bonos hipotecarios correctamente y no explotaron. Heck, en 1929 no había quants y la economía logró colapsar de todos modos.

Creo que realmente necesitas leer su libro, o al menos comenzar con su blog, pero ella tiene un punto. Los algoritmos, en particular los datos de entrenamiento que se les dan, tienen suposiciones incorporadas.

¿Dónde debería la policía enfocar su patrulla? Donde está el crimen. ¿Dónde está el crimen? Donde ocurren la mayoría de los arrestos. Hasta ahora, tan lógico, pero cada vez que introduce una medida proxy como esta, hace una suposición. Y, por supuesto, ahora está en la situación de que los arrestos tienen poco que ver con el crimen, pero más con preconceptos de parte de la policía. (Lea el último artículo: la policía de Baltimore tiene prejuicios raciales, dice el Departamento de Justicia)

Otros ejemplos son más sutiles. No tengo idea de cómo sucedió lo siguiente:

Sí lo hacen, de hecho, este tema se está convirtiendo en una prioridad en la comunidad de la ciencia de datos. Los científicos de datos Clare Corthell y Abe Gong han realizado algunas investigaciones fascinantes en esta área; Ver, por ejemplo, la presentación de Clare de Wrangle Conf 2015.