Vers la fin de 2021, il est signalé qu’OpenAI, une entreprise d’intelligence artificielle, a rencontré un problème d’approvisionnement. Cependant, ce problème d’approvisionnement n’est pas qualifié comme un produit. Lors du développement de son dernier système d’intelligence artificielle, OpenAI avait épuisé toutes les ressources respectables de textes en anglais disponibles sur Internet. Il avait besoin de plus de données pour entraîner la prochaine version de sa technologie. Selon les rapports, OpenAI aurait utilisé des vidéos YouTube pour répondre à ce besoin de données.
OpenAI utilise YouTube pour la formation GPT-4
En septembre 2022, OpenAI a introduit Whisper, un modèle d’intelligence artificielle axé sur la reconnaissance et la transcription de la parole. Selon un rapport du New York Times, Whisper a converti les sons des vidéos YouTube en texte pour créer de nouveaux corpus de discours qui amélioreront GPT-4.
On dit qu’OpenAI a transcrit plus d’un million d’heures de vidéos en utilisant Whisper. Le Times note que le président d’OpenAI, Greg Brockman, aurait personnellement supervisé la collecte des vidéos utilisées.
Rejoignez LA FORMATION N°1 pour créer et monétiser vos GPTs.:https://bit.ly/3UbcXcA
Cette nouvelle intervient après une récente interview du PDG de YouTube, Neal Mohan. Dans cette interview, Mohan a déclaré que si OpenAI avait utilisé des vidéos YouTube pour former Sora, son nouveau générateur de texte en vidéo, cela constituerait une violation flagrante des politiques de la plateforme.
Le porte-parole de Google, Matt Bryant, a déclaré que selon les règles de Google, le grattage ou le téléchargement non autorisé du contenu YouTube est interdit et qu’ils n’étaient pas au courant qu’OpenAI s’était engagé dans une telle pratique. OpenAI, quant à elle, a affirmé que cette question était controversée sur le plan juridique, mais qu’elle croyait néanmoins être dans le domaine de l' »usage équitable ». De plus, Google admet utiliser du contenu YouTube limité pour former ses intelligences artificielles, mais précise qu’il s’agit de vidéos produites par des créateurs de contenu approuvés.
Les données sont devenues le nouvel or.
Le volume de données est considéré comme le facteur le plus précieux en matière d’intelligence artificielle. Plus il y a de données utilisées dans un modèle d’intelligence artificielle, plus le modèle est supposé être avancé. Les principaux systèmes de robots conversationnels ont appris à partir de pools de textes numériques couvrant jusqu’à trois billions de mots ou environ le double du nombre de mots stockés dans la Bibliothèque Bodleian de l’Université d’Oxford depuis 1602.
Internet, avec des sites comme Wikipedia et Reddit, a été utilisé pendant des années comme une source infinie de données. Cependant, à mesure que l’intelligence artificielle évolue, les entreprises technologiques ont faim de plus de données, et les données de ces sites ont été épuisées. Google et Meta, qui comptent des milliards d’utilisateurs produisant des requêtes de recherche et des publications sur les réseaux sociaux chaque jour, ne pouvaient pas utiliser la majeure partie de ce contenu pour l’intelligence artificielle en raison des lois sur la confidentialité et de leurs propres politiques. Cependant, des changements ont été apportés ces derniers mois et années, ouvrant la voie à l’utilisation de certains contenus comme données d’entraînement.
LA SEULE FORMATION POUR MONÉTISER SES GPTs :https://bit.ly/3UbcXcA
Cependant, il est prévu que les entreprises technologiques épuisent les données de haute qualité sur Internet d’ici 2026. Cela signifie que les entreprises commencent à utiliser les données plus rapidement qu’elles ne sont produites. Les entreprises technologiques sont tellement avides de nouvelles données qu’elles en développent certaines de manière « synthétique ». Les données synthétiques ne sont pas des données organiques générées par les humains, mais plutôt des données générées par l’intelligence artificielle elle-même (telles que des sons, des images, des textes et des codes). En d’autres termes, les systèmes apprennent à partir des données qu’ils génèrent eux-mêmes.