ChatGPT: AI 기반 이미지 분석 기능을 가진 챗봇

July 26, 2023
1808 Views

OpenAI의 AI 기반 도구인 ChatGPT는 수백만 명의 사용자가 기술 논문을 작성하고, 컴퓨터 코드를 작성하며, 동화를 창작하는 데 활용했습니다. ChatGPT는 이미지를 분석하는 능력도 가지고 있어, 이미지의 내용을 설명하고, 관련 질문에 답변하며, 특정 개인을 식별할 수도 있습니다. ChatGPT를 사용하여 고장난 차 엔진이나 이상한 발진 같은 다양한 문제의 이미지를 업로드하면, ChatGPT는 가능한 해결책을 제안해 줄 수 있도록 최종적인 목표입니다. 그러나 OpenAI는 ChatGPT를 얼굴 인식 도구로 전환할 계획은 없습니다.

시각 분석 기능을 가진 ChatGPT의 고급 버전에 대한 초기 액세스 권한을 가진 사람 중 한 명인 Jonathan Mosen은 최근 여행 중 미리 설정된 버튼 배치를 사용해 샴푸, 컨디셔너, 샤워 젤 디스펜서를 구별하기 위해 시각 분석을 활용했습니다. ChatGPT의 성능은 그가 이전에 사용했던 이미지 분석 소프트웨어보다 우수했습니다.

놀랍게도, Mr. Mosen은 처음으로 “이미지를 심문할” 수 있었습니다. 그는 소셜 미디어에 올라온 “행복해 보이는 금발 머리의 여자”라는 설명이 달린 이미지를 예로 들었습니다. Mr. Mosen은 ChatGPT에게 이미지를 분석하도록 요청하자, ChatGPT는 자세한 설명을 제공하며, 여자가 어두운 파란색 셔츠를 입고 풀 길이 거울에서 셀카를 찍는 것을 확인했습니다.

Mr. Mosen은 거울의 반사에서 여자의 신발과 다른 가시적인 요소에 대한 추가 질문도 할 수 있었습니다. “정말 놀라운 일이에요,”라고 표현한 Mr. Mosen은 뉴질랜드 웰링턴에 거주하는 시각 장애인인 54세의 취업 기관 CEO로서 시각 장애인으로 살아가는 것에 관한 팟캐스트를 진행하고 있습니다.

GPT-4는 얼굴 정보에 대한 접근 가능성으로 인한 접근성 우려가 제기되고 있습니다.

OpenAI는 최신 AI 챗봇인 GPT-4를 도입했는데, 이 소프트웨어 모델은 텍스트와 이미지 모두에 대한 응답이 가능하다는 점을 강조했습니다. 대부분의 사용자는 텍스트 기반 상호작용으로 제한되어 있었지만, Mr. Mosen은 시각적 분석 기능에 대한 초기 액세스를 Be My Eyes라는 스타트업을 통해 받았습니다. Be My Eyes는 시각 장애인 사용자와 시력이 있는 봉사자를 연결하고 기업 고객에게 접근 가능한 고객 서비스를 제공합니다. Be My Eyes와 OpenAI의 이번 협업은 공식적인 공개 이전에 챗봇의 “시력” 기능을 테스트하기 위한 것이었습니다.

그러나 최근에는 어플리케이션이 사람들의 얼굴에 대한 정보를 제공하지 않고, 이러한 세부 정보를 가리는 개인 정보 보호 문제를 이유로 Mr. Mosen에게 정보를 제공하지 않았습니다. 이 변경으로 인해 그는 시력이 있는 사람들과 동일한 정보 접근 권한을 가지는 것이 타당하다고 생각했기 때문에 실망했습니다.

OpenAI가 얼굴 인식 기능을 제한하는 결정은 잠재적으로 강력하고 침입적인 기능을 발휘할 수 있는 것에 대한 우려에서 기인했습니다. OpenAI의 정책 연구원인 Sandhini Agarwal에 따르면, 해당 기술은 주로 위키백과 페이지를 가진 공공 인물, 특히 유명인을 식별할 수 있습니다. 그러나 이는 Clearview AI나 PimEyes와 같은 인터넷에서의 포괄적인 얼굴 검색을 위한 기능과는 비교할 수 없는 능력이라고 합니다. 예를 들어, 이 도구는 OpenAI의 최고 경영자인 Sam Altman을 사진에서 인식할 수 있지만, 회사의 다른 직원을 식별하는 능력은 같지 않습니다.

이러한 기능을 일반에 공개하면, 미국의 기술 회사들이 수용되어온 규범에 도전할 수 있으며, 일리노이 및 유럽과 같은 지역에서는 시민들의 동의를 얻기 위해 생체 인식 데이터, 즉 얼굴 정보 사용에 대한 동의를 받아야 하는 법적 복잡성이 발생할 수 있습니다.

OpenAI는 또한 도구가 사람들의 얼굴에 대해 부적절한 판단을 내릴 수 있는, 예를 들어 그들의 성별이나 감정 상태를 결정하는 것과 같은 안전 문제에 대한 우려도 표명했습니다. 이러한 안전 문제와 기타 문제들에 대한 해결책을 찾기 위해 OpenAI는 이미지 분석 기능의 널리 사용 가능한 버전을 출시하기 전에 적극적으로 노력하고 있다고 Ms. Agarwal이 설명했습니다.

“우리는 대중과 개방적인 대화를 갖고 싶어합니다,”라고 Ms. Agarwal은 덧붙였습니다. “피드백이 이러한 기능을 전혀 갖지 않는 것을 선호하는 것으로 나타난다면, 우리는 그것을 완전히 수용할 준비가 되어 있습니다.”

OpenAI의 비영리 부문은 AI 시스템에 대한 지침을 수립하기 위해 “민주적 참여”를 포함한 피드백 수집을 위한 방법을 적극적으로 탐색하고 있습니다.

Ms. Agarwal은 모델이 인터넷에서 가져온 이미지와 텍스트의 조합으로 훈련되었기 때문에 시각 분석 기능의 개발은 예상 가능했다고 명확히 밝혔습니다. 그녀는 Google이 제공하는 유명 인물 얼굴 인식 도구와 같은 명사적 얼굴 인식 도구가 이미 존재한다고 강조했습니다. Google은 인식되지 않기를 원하는 유명 인물을 위해 옵트아웃 옵션을 제공하며, OpenAI도 유사한 접근 방식을 채택하는 것을 고려하고 있다고 합니다.

Ms. Agarwal에 따르면, OpenAI의 시각 분석 기능은 텍스트 프롬프트에서 관찰되는 것과 유사한 “환각”을 만들어낼 수 있습니다. 예를 들어, 유명해지기 직전의 사람의 사진을 주면, 도구는 정확한 기술 CEO의 이름이 아닌 다른 기술 CEO의 이름과 연관시켜 오해를 일으킬 수 있습니다.

또한 도구의 설명에는 정확하지 않은 부분도 있습니다. 예를 들어, Mr. Mosen은 도구가 버튼이 실제로 없는 리모컨을 자신에게 자신있게 설명하는 것을 보고했습니다.

OpenAI에 100억 달러를 투자한 주요 투자자인 Microsoft도 시각 분석 도구에 액세스할 수 있습니다. Microsoft의 AI 기반 Bing 챗봇 사용자 중 일부는 이 기능의 제한적인 롤아웃을 경험했습니다. 사용자가 챗봇에 이미지를 업로드하면 “개인 정보 보호 블러가 Bing 챗에서 얼굴을 가리고 있습니다”라는 메시지가 표시됩니다.

AI의 경계를 허물어 주는 영향

프린스턴 대학교의 컴퓨터 과학자이자 박사 과정생인 Sayash Kapoor은 캡차라는 시각적 보안 조치를 해독하는 데 도구를 활용했습니다. 캡차는 인간의 눈으로만 해독할 수 있도록 설계된 시각적 보안 조치입니다. 그러나 ChatGPT는 코드를 성공적으로 해독하고 두 가지 가려진 단어를 식별할 수 있었습니다. 그러나 ChatGPT는 “캡차가 나 같은 자동화된 봇이 특정 웹사이트나 서비스에 접근하는 것을 방지하기 위해 설계되었다”고 인정했습니다.

펜실베이니아 대학교 워튼 스쿨의 혁신과 기업가 정책을 전문으로 연구하는 Ethan Mollick은 인공지능(AI)이 인간과 기계를 구분하는 전통적인 경계를 빠르게 지우고 있다고 언급했습니다.

지난 달에는 Bing의 챗봇 버전에서 Ethan Mollick의 버전에 예고 없이 시각 분석 도구가 나타났으며, 그는 이 도구에 미리 접속하기 위해 컴퓨터를 계속 실행하고 있습니다. 예를 들어, 그는 냉장고에 있는 양념의 사진을 제공하고 Bing에 해당 재료를 기반으로 요리법을 제안하도록 요청했습니다. 챗봇은 “휘핑 크림 소다”와 “크리미 한식 칠리 소스”를 제안했습니다.

OpenAI와 Microsoft은 이 기술의 힘과 잠재적인 개인 정보 보호 문제를 인식하고 있습니다. Microsoft 대표는 회사가 얼굴을 가리는 기능에 대한 기술적인 세부 사항을 공개하지 않지만, 책임있고 안전한 AI 기술의 배포를 보장하기 위해 OpenAI와 적극적으로 협력하고 있다고 밝혔습니다.