[논문리뷰]Vision language models are blind
·
Artificial_Intelligence🤖/Natural Language Processing
논문 정보논문 제목: Vision language models are blind발행일: 2024.07.12(금)최신 비전 언어 모델(VLM), 정말로 '눈이 먼' 걸까?최근 몇 달 사이 GPT-4V(ision) 같은 비전 언어 모델(VLM)의 등장으로 이미지-텍스트 처리 서비스가 급증했습니다. VLM은 이미지 속 객체를 정확하게 식별하고 이를 바탕으로 복잡한 작업을 수행할 수 있어 매우 유용한 도구로 인식됩니다. 예를 들어, 사진과 메뉴판 이미지를 바탕으로 테이블 위 맥주 비용을 계산하는 것처럼 말이죠. 하지만 이 VLM이 정말 인간처럼 이미지를 잘 인식할까요? 이 질문에 대한 답을 찾기 위해 "BlindTest"라는 새로운 벤치마크 테스트를 사용하여 VLM의 한계를 탐구한 흥미로운 논문이 나왔습니다.주..
학부 졸업 기념, 개념 다시 되짚어보기
·
Artificial_Intelligence🤖/Natural Language Processing
인스타보다가 보이저엑스라는 회사에서 인공지능 및 프로그래밍 관련해서 기술질문 써놨길래 지금까지 공부했던 기억을 바탕으로 리프레쉬할겸 한번 풀어보았다. 프로그래밍 인턴 질문 (프로그래밍 질문: 15개) PNG와 JPG의 차이점은? PNG → 비손실압축 (원본 훼손X) JPG → 손실압축 (원본 훼손O) JPEG → 사람이 모를정도로만 원본 훼손(압축효과극대화알고리즘) Dynamic Programming이란? 동적계획법, 큰문제를 작은문제로 나눠 푸는것. 복잡한 문제 나오면 여러개의 서브 문제로 나눠서 푸는데, 부분 반복 문제와 최적 부분 구조를 가지고있는 알고리즘 풀 때 사용. 부분 반복 문제→어떤 문제가 여러개의 부분문제로 쪼개질 수 있는 문제 (ex. N번째 피보나치 수 구하기 → N-1번쩨 / N-2..
Neural Style Transfer - Project
·
Artificial_Intelligence🤖/Computer Vision
2021.10.07 - [Hi/Artificial_Intelligence] - Neural Style Transfer Neural Style Transfer What is NST? Style transfer란, 두 영상(content image & style image)이 주어졌을 때 그 이미지의 주된 형태는 content image와 유사하게 유지하면서 스타일만 우리가 원하는 style image와 유사하게 바꾸는 것.. forbetterdays.tistory.com 기존의 NST 모델 공부에서 한단계 더 깊게 하여 프로젝트에 사용하였습니다. What is NST (Neural Style Transfer)? - Style transfer란, 두 영상(content image & style image)이..
Neural Style Transfer
·
Artificial_Intelligence🤖/Computer Vision
What is NST? Style transfer란, 두 영상(content image & style image)이 주어졌을 때 그 이미지의 주된 형태는 content image와 유사하게 유지하면서 스타일만 우리가 원하는 style image와 유사하게 바꾸는 것을 말함. Style transfer refers to changing only the style to the style image we want while keeping the main form of the image similar to the content image when two images are given. Style Transfer, image-to-image translation, 또는 texture transfer 등으로 불리는..
[Kaggle] 간단한 HousePrices 예측해보기
·
Artificial_Intelligence🤖/Prediction
2주 전에 캐글문제 하나 풀고싶어서 주택가격예측 대회에 들어갔다. 들어가서 그냥 평균값으로만 전부 때려박으면 몇점나올까 궁금해서 해봤더니 0.4점나오길래, 1점이 만점이 아닌가 봤더니 0점에 근접할 수록 높은 점수였다. 아 그렇구나 하고 종료했었는데, 원래 하던거 끝난 기념으로 3시간동안 노래들으면서 끄적여봤다. import numpy as np import pandas as pd import os for dirname, _, filenames in os.walk('./house_prices'): for filename in filenames: print(os.path.join(dirname, filename)) train_data = pd.read_csv('./house_prices/train.csv'..
depthwise separable convolution(깊이별 분리 합성곱)
·
Artificial_Intelligence🤖/Computer Vision
SeparableConv2D 입력 채널별로 따로따로 공간 방향의 합성곱 수행 후, 1*1 합성곱 (점별 합성곱)으로 출력 채널을 합치는 것. 이로 인해 공간 특성의 학습과 채널 방향 특성의 학습을 분리하는 효과를 얻을 수 있음. 모델 파라미터와 연산의 수를 크게 줄여주어 더 작고 빠른 모델을 제작할 수 있음. 여기서 1 * 1 합성곱이란, 1 * 1 크기의 Convolution Filter 사용한 Convolution Layer를 말하는데, Channel / Spatial의 특성파악에 도움이 된다. 이렇게 1*1 합성곱을 쓰면 파라미터 수가 확연히 줄게 된다. 일반적으로 합성곱에서 channel을 크게 주면 파라미터 수가 급격히 증가하는데, 1*1 합성곱을 사용하면 효율적으로 모델을 구성할 수 있음. 즉..
RNN, CNN
·
Artificial_Intelligence🤖/etc
기존 Fullly Connected Layer와 CNN( Convolutional Neural Network)와 다른점 이미지 공간 정보를 유지한 상태로 학습이 가능하게 만든 모델 각 레이어의 입출력 데이터의 형상을 유지한다. 여러 개의 필터로 각 이미지의 특징을 추출하여 학습한다. 이미지 공간 정보를 유지하여 인접한 다른 이미지들과의 특징을 효과적으로 인식한다. 필터는 공유 파라미터이기에 기존 신경망보다 학습에 사용되는 파라미터가 적다. 컨브넷은 지역적이고 평행 이동으로 변하지 않는 특성을 학습함. CNN의 구조 이미지의 특징을 추출하는 부분인 Convolution Layer와 Pooling Layer, 클래스를 분류하는 Flatten Layer 부분으로 이루어져 마지막 Fully Connected N..
[CNN] Dogs vs Cats
·
Artificial_Intelligence🤖/Computer Vision
캐글(Kaggle)에서 데이터셋을 전부 다운받고, small폴더를 만들어서 train data, validation data, test data를 강아지와 고양이 각각 1000장, 500장, 500장을 분리해 총 4천장에 사진 데이터를 가지고 실습을 하였다. 그리고 가져온 사진 데이터들을 네트워크에 넣기 위해 부동 소수 타입의 텐서로 전처리 한다. 케라스에서 제공되는 ImageDataGenerator은 이미지 파일을 전처리된 배치 텐서로 바꾸어주는 제너레이터를 만드는 클래스이다. 즉, 사진 파일을 읽고, 타입을 RGB 픽셀 값으로 디코딩하고, 부동 소수타입의 텐서로 변환하여 픽셀값의 스케일을 0~255에서 0~1로 조정하는 과정을 쉽게 만들어주는 명령어이다. 모든이미지를 float형으로 255로 나누어 ..
[AI] Boston_housing :(Linear regression)
·
Artificial_Intelligence🤖/Prediction
from keras.datasets import boston_housing import numpy print(numpy.shape(boston_housing.load_data())) (train_data, train_labels), (test_data, test_labels) = boston_housing.load_data() print(len(train_data)) print(len(train_labels)) print(len(test_data)) print(len(test_labels)) print(numpy.shape(train_data)) print(numpy.shape(train_labels)) print(numpy.shape(test_data)) print(numpy.shape(test_lab..
Artificial Intelligence
·
Artificial_Intelligence🤖/etc
optimizer, loss, metrics Optimizer는 학습 진행을 결정하는 방식으로 가중치를 어느 정도로 이동할 것인지를 결정하는 방법이다. Loss Function을 기반으로 네트워크가 어떻게 업데이트될건지 설정하고, 네트워크를 구성하는 알고리즘을 최적화 시킨다. 옵티마이저에는 Adam, RMSprop, SGD 등이 있다. Loss Function은 예측값과 실제값간의 차이를 표현한 수식으로, 학습에 사용되는 오차값인 피드백 신호를 정의하는 함수이며, 훈련을 하는 동안에 최소화가 될 값을 뜻한다. 주어진 문제에 대한 성공지표라고 말한다. 로스에는 binary_crossentropy, categorical_crossentropy 등이 있다. Metrics는 실제 화면상에 출력되는 값을 표현하는..
Liky
'Ai' 태그의 글 목록