Esa es una idea brillante.
En términos de crear un algoritmo que emule el comportamiento humano, YouTube sería una gran fuente.
PERO
No vas a tener una gran cantidad de contenido variado. Las personas que frecuentan YouTube son de un tipo específico y, dependiendo de qué tan “grandes” quieras que sean tus datos masivos, es probable que obtengas un conjunto de características particularmente específico. Para ilustrar, si carisma significa popular, entonces estarás revisando los canales populares. Estos incluirán:
- Cómo mejorar cada vez más en la defensa en el baloncesto.
- ¿Cómo puede la lectura mejorar mi inglés?
- ¿Cómo se mejora uno en hablar extemporáneamente?
- Cómo desempeñarse mejor en GD
- ¿Cuáles son los mejores libros para mejorar la ecualización?
- Los canales de juego tienen personas que usan palabras como TROLL, PWNED, WRECKED, todo el día.
- Vines tendrá cosas de las que nunca has oído hablar.
- Habrá una gran cantidad de canales de aprendizaje de ciencia de datos.
- Los canales de comida también serán populares, con un montón de comentarios raros también.
- Los gatos. ¿Necesito decir mas?
- La piratería de mixtapes y películas también será una gran parte de ello.
Eso es justo fuera de mi cabeza.
No sé nada acerca de la inteligencia artificial, los datos masivos o el diseño de redes neuronales (¡aún!), Pero puedo decir esto desde un punto de vista estadístico muy básico: es necesario pensar mucho sobre si su muestra será o no representativo de la población, y si construirá o no las características y los resultados que desea ver.
Quizás termines con una IA que sepa cómo hacer el último baile del álbum de Justin beiber y decir aw en un video de gato.